Что такое правила ассоциации в области Data Mining?

Что такое правила ассоциации в сфере Data Mining?

Введение

Эволюция человечества от каменноугольной промышленности к обработке данных имеет огромное значение для человеческого развития и технологического прогресса. Изменившись предмет физического труда, вес сдвинулся в сторону умственного напряжения, необходимого для этой новой формы добычи информации. Процесс добычи данных включает в себя некоторые аспекты, включая Ассоциативные правила, которые имеют важное значение благодаря своему практическому вкладу в понимание потребителей и развитие бизнеса. У вас есть точные требования? Хотите улучшить свои знания, чтобы достичь экспоненциального роста удовлетворенности клиентов? Хотите создать рекомендательную систему, которая будет конкурентоспособной с крупными брендами? Вот краткое введение в ключевые концепции и основы ассоциативных правил в добыче данных.

Цели обучения

  • Понять суть ассоциативных правил как высказываний типа “если/то”, раскрывающих взаимосвязи в данных.
  • Определить и разграничить применения, такие как анализ корзины покупок, обнаружение мошенничества и рекомендательные системы, демонстрируя гибкость и практическую значимость ассоциативных правил.
  • Получить представление о том, как работают ассоциативные правила, изучая роль кардинальности, поддержки, уверенности и повышения в прогнозировании и оценке взаимосвязей в наборах данных.

Что такое ассоциативные правила в добыче данных?

Ассоциативные правила – это, согласно своему названию, высказывания типа “если/то”, которые определяют отношения или зависимости между данными. Они характерны тем, что применимы как к числовым, так и к нечисловым категориальным данным и часто используются в анализе корзины покупок и других приложениях. Они могут извлекать данные из реляционных и транзакционных баз данных и других источников данных.

Ассоциативное правило содержит две части: антецедент (если) и консеквент (то). Антецедент – это первая часть, доступная в данных, а результат – это часть, доступная в сочетании с антецедентом. Например, примером анализа корзины покупок может быть: “Если покупатель покупает беговые кроссовки, то вероятно, что он также купит энергетические батончики”. Здесь беговые кроссовки – это антецедент, а энергетические батончики – это консеквент. Данный пример нацелен на аудиторию фитнес-энтузиастов.

В каких случаях применяют ассоциативные правила?

Существует множество приложений для ассоциативных правил. Топ-три примера применения ассоциативных правил в добыче данных:

Анализ корзины покупок: Примером комбинации покупок может быть покупка йогурта и гранолы, которая, вероятно, будет ассоциирована с покупкой ягод. Это указывает на значимость ассоциативных правил в анализе привычек покупок и требованиях. Практическое использование интерпретации видно в разработке подходящих комбинированных предложений, оптимизации размещения продуктов и увеличении продаж.

Обнаружение мошенничества: Здесь комбинация использования заключается в определении шаблона покупки, ее местоположения и частоты. Распознавание позволяет выявлять мошенническую деятельность и предпринимать меры предотвращения с одного и того же IP-адреса.

Рекомендательные системы: Включают определение паттернов использования на основе истории посещений и предыдущих покупок для прогнозирования будущих потребностей пользователя. Рекомендации основаны на этих данных. Расширение использования из маркетинга имеет большое значение также в музыкальных сервисах и сервисах по шоу.

Источник: Dataaspirant

Как работают ассоциативные правила?

Предсказание в ассоциативных правилах, объясненное ранее на примерах, рассчитывается на основе кардинальности, поддержки и уверенности. Кардинальность относится к связи между двумя элементами, которая пропорционально увеличивается с числом объектов. Поддержка указывает на частоту высказываний, а уверенность информирует о частоте правильности этих отношений. Ассоциативные правила работают, определяя правила, регулирующие причину и ситуацию, в которых могут возникать комбинации. Например, предпочтительный вариант здорового и экономящего время завтрака – это сочетание йогурта, гранолы и ягод.

Часто, в практических ситуациях, числа становятся нереалистичными. Некоторые статистически независимые элементы с наименьшей комбинацией покупки могут встречаться вместе с значительно высоким процентом в реальном использовании. Например, статистически меньше шансов совместной покупки пива и подгузников, в то время как по сравнению с реальной статистикой шансы значительно выше. Увеличение статистики называется lift.

Меры эффективности ассоциативных правил

Эффективность ассоциативных правил в основном измеряется по параметрам поддержки, доверия и увеличения. Поддержка относится к частоте, а высокая поддержка указывает на распространенность количества в наборе данных. Доверие измеряет надежность ассоциативного правила. Высокое доверие предполагает пропорциональность между А и Б и, следовательно, увеличение прямо пропорционально друг другу.

Увеличение сравнивает взаимозависимость элемента. Если статистические и фактические цифры совпадают или условие и следствие совпадают, то увеличение будет равно 1, и связанные объекты будут независимыми. Объекты зависят друг от друга, если увеличение > 1, а условие предшествует следствию. Кроме того, комбинация оказывает отрицательное влияние друг на друга, если следствие больше, чем условие, с увеличением < 1.

Источник: Карта по разработке данных

Алгоритмы ассоциативных правил

Три алгоритма генерируют ассоциативные правила. Они приведены ниже:

Алгоритм Apriori

Ассоциативные правила в алгоритме apriori генерируются на основе частых наборов транзакций. Часто используется для анализа товарной корзины, он использует такие техники, как поиск в ширину и дерево хэшей. Предоставляя информацию о комбинированных продуктах, купленных вместе, он также служит для научных целей, находя реакции на лекарства для пациентов.

Алгоритм Eclat

Также известный как Equivalant Class Transformation (Преобразование эквивалентных классов), он использует технику поиска в глубину. Он обеспечивает быстрое и точное выполнение, а также работает с базами данных транзакций. Алгоритм ECLAT использует меньше памяти и работает без повторного сканирования данных для вычисления отдельных значений поддержки. Вместо этого он использует наборы идентификаторов транзакции или Tidsets для вычислений.

Алгоритм F-P Growth

Называемый алгоритмом частых шаблонов роста, это улучшенная версия алгоритма Apriori. Он анализируется в два шага. Первый – преобразование базы данных в структуру дерева, получив название изображения частых шаблонов. Второй шаг – формат представления, который дополнительно облегчает извлечение наиболее частых шаблонов.

Источник: ResearchGate

Заключение

Разработка данных относится к извлечению информации из всесторонних источников данных. Поиск ассоциативных правил является методом выявления корреляций, паттернов, связей или причинно-следственных структур в наборах данных. С огромным применением в розничной торговле, здравоохранении, обнаружении мошенничества, биологических исследованиях и многих других областях, ассоциативное правило работает посредством условие/последствие. Поддержка, доверие и увеличение играют важную роль в оценке его эффективности. Кроме того, разработка ассоциативных правил осуществляется через три алгоритма. Пожалуйста, ознакомьтесь с более важными концепциями вместе с изучением ассоциативного обучения в разработке данных подробно с нашим курсом по науке о данных.

Ключевые моменты

  • Ассоциативные правила находят практическое применение в различных областях, таких как оптимизация размещения продуктов в анализе товарной корзины, выявление мошеннических действий в системе обнаружения мошенничества и улучшение пользовательского опыта через системы рекомендаций.
  • Поддержка, доверие и увеличение являются важными метриками для оценки эффективности ассоциативных правил, предоставляя информацию о частоте, надежности и зависимости выявленных связей.
  • Изучите три ключевых алгоритма – Apriori, Eclat и F-P Growth, которые приводят к созданию ассоциативных правил, каждый из которых предлагает уникальные преимущества в плане скорости выполнения, эффективности сканирования данных и области применения.

Часто задаваемые вопросы