Многие математические алгоритмы, которые мы используем в науке о данных и машинном обучении, требуют числовых данных. И многие алгоритмы, как правило, очень сложны в реализации (например, Машины опорных векторов или Локальное линейное встраивание, о которых мы говорили ранее). Но интеллектуальный анализ ассоциативных правил идеально подходит для категориальных (нечисловых) данных и включает в себя не что иное, как простой подсчет!

У нас есть простой алгоритм с не такими уж упрощенными результатами! Отношение потенциала открытия действенных идей (высокий) к сложности алгоритма (низкий) довольно велико и нетипично, ИМХО.

Интеллектуальный анализ правил ассоциации в первую очередь направлен на обнаружение часто встречающихся ассоциаций среди набора элементов. Иногда его называют Анализ корзины рынка, поскольку это была изначальная область применения ассоциативного майнинга. Цель состоит в том, чтобы найти ассоциации элементов, которые встречаются вместе чаще, чем вы ожидаете при случайной выборке всех возможных вариантов.

Легендарный пример

Классическим примером анализа рыночной корзины является знаменитая ассоциация Пиво и подгузники, о которой 10–20 лет назад часто упоминалось в каждой книге по интеллектуальному анализу данных - независимо от того, является ли эта история реальной или легендой, предметом споров. История гласит: клиенты, которые идут в магазин за подгузниками, также будут одновременно покупать пиво с более высокой, чем случайная, частотой.

Проиллюстрируем это на простом вымышленном примере. Предположим, что база данных розничных транзакций магазина включает следующую информацию:

  • Всего 600 000 транзакций.
  • 7500 транзакций содержат подгузники (1,25 процента)
  • 60 000 транзакций содержат пиво (10 процентов)
  • 6000 транзакций содержат как памперсы, так и пиво (1,0%)

Если бы не было связи между пивом и подгузниками (т.е. они статистически независимы), то мы ожидаем, что только 10% покупателей подгузников (= 750) также будут покупать пиво (поскольку 10% всех клиентов покупают пиво). Однако мы обнаружили, что 80% (= 6000/7500) покупателей подгузников также покупают пиво. Это в 8 раз больше, чем ожидалось - это называется подъемом, который представляет собой отношение наблюдаемой частоты совпадения к ожидаемой частоте. Это было определено просто путем подсчета транзакций в базе данных. Таким образом, в этом случае правило ассоциации будет гласить, что покупатели подгузников также будут покупать пиво с фактором подъема 8.

В статистике Lift просто оценивается как отношение совместной вероятности двух элементов x и y, разделенное на произведение их индивидуальных вероятностей: Lift = P (x, y) / [P (x) P (y)]. Если два элемента статистически независимы, то P (x, y) = P (x) P (y), что соответствует Lift = 1 в этом случае. Обратите внимание, что антиассоциация между x и y дает значения подъема меньше 1, что также является интересным открытием - соответствует взаимоисключающим элементам, которые редко встречаются вместе.

Правдивая история №1 - Ураганы

Простой вымышленный пример, показанный выше, был придуман, и в реальных случаях очень редко бывает, чтобы коэффициент подъема достигал 8. Однако был случай, когда это действительно произошло. Этот случай был обнаружен Walmart в 2004 году, когда серия ураганов пересекла штат Флорида. После первого урагана в Атлантическом океане было еще несколько ураганов, направляющихся в сторону Флориды, и поэтому аналитики данных Walmart разработали свою огромную базу данных по розничным транзакциям, чтобы узнать, что их клиенты действительно хотели купить, до прихода урагана.

Аналитики обнаружили один конкретный товар, продажи которого увеличились в 7 раз по сравнению с обычными днями покупок. Это был огромный подъемный фактор для реального случая. Это не была вода в бутылках, батарейки, пиво, подгузники, фонарики, генераторы или что-то еще, что мы могли себе представить. Это были клубничные пирожные! Можно представить себе множество причин, по которым это был самый востребованный продукт до прихода урагана: пирожные не требуют охлаждения, их не нужно готовить, они поставляются в индивидуально упакованных порциях, у них долгий срок хранения, это закуска, это еда для завтрака, это удобная еда, дети любят их, и мы их любим. Несмотря на эти очевидные причины, это было огромным сюрпризом! И это открытие дало основание для практических действий - Walmart снабдил свои магазины тоннами клубничных пирожных до следующих ураганов, и они их распродали. Это беспроигрышный вариант: Walmart выигрывает, продавая, а клиенты выигрывают, получая продукт, который им больше всего нужен. Мы действительно хотим комфортной еды в стрессовые времена.

Упражнение для учащегося

Когда я был профессором Университета Джорджа Мейсона, я читал вводные, средние и дипломные курсы по науке о данных. В аспирантуре я иногда давал своим студентам на семестр ассоциативный проект по добыче полезных ископаемых. Это был открытый проект - я дал им указатель на набор данных и указатель на какое-то программное обеспечение для анализа свободных ассоциаций, а затем дал им свободу исследовать набор данных на предмет интересных ассоциаций (либо высокий подъем ›1, либо низкий подъем‹ 1) . Это было действительно обучение без учителя, как с алгоритмической, так и с педагогической точки зрения. Я хотел увидеть, как мои ученики будут проводить свои эксперименты, как они проводят свои исследования, что они найдут и как они сообщат свои выводы классу.

Программный пакет, который они использовали, представлял собой инструментальную среду WEKA Data Mining & Machine Learning. И набором данных был Набор данных Forest Cover из UCI KDD Archive. В этом наборе данных содержится более 580 000 точечных измерений типов лесного покрова в самых разных средах. Задача заключалась в том, чтобы найти интересные ассоциации между различными характеристиками (типы деревьев, географическое положение) и переменными окружающей среды (типы почвы, воздействие солнца, доступ к воде).

Это всегда было забавным упражнением, по крайней мере для меня, потому что студенты могли свободно исследовать множество различных ассоциаций в большом наборе данных. Не было правильного или неправильного ответа, хотя иногда были некоторые неправильные первоначальные выборы, которые мне приходилось исправлять, прежде чем проект сбился с пути. Рассказывание историй также было неотъемлемой частью упражнения.

Правдивая история № 2 - Новые ураганы

Другой пример ассоциативного майнинга был предоставлен мне коллегой из университета. Он профессор геоинформационных систем и наук о Земле. Он и его группа исследователей решили изучить использование ассоциативного интеллектуального анализа данных, чтобы изучить взаимосвязь между силой урагана и физическими характеристиками урагана (например, скоростью внутреннего ветра, температурой атмосферы, температурой воды в океане, влажностью, атмосферным давлением в очаге урагана). , сдвиг ветра, количество осадков, направление и скорость распространения урагана и т. д.). Они обнаружили тесную связь между окончательной силой (категория урагана) урагана, когда он достигает берега, и значениями этих различных физических характеристик, когда ураган все еще находился далеко над океаном (за много дней или недель до выхода на сушу).

Это был очень удачный эксперимент. Они смогли спрогнозировать усиление урагана и его предельную силу, и результаты оказались более точными с помощью ассоциативного интеллектуального анализа данных, чем со стандартной моделью урагана, используемой в то время национальным центром по ураганам. Это было потрясающее применение алгоритма, который изначально был разработан для анализа транзакций в розничных магазинах.

Правдивая история № 3 - Солнечные бури и географические воздействия

Было не менее впечатляющее научное приложение, с которым я столкнулся несколько лет назад, когда работал в НАСА. Каждое лето с нами работали студенты-стажеры. Эти студенты обычно были студентами колледжей (как правило, старшеклассниками) и всегда были очень умными. В одно из тех летних каникул у нас был ученик, который еще не учился в старшей школе (на 4 года младше своих товарищей-практикантов). Он слышал, как я в обеденное время выступал с докладом о интеллектуальном анализе данных, который я представил всей группе летних стажеров НАСА в том году. Он работал над проектом с космическим физиком НАСА, чтобы попытаться предсказать, когда солнечные энергетические частицы достигнут Земли после возникновения сильной солнечной бури на Солнце. Такие события имеют очень серьезные последствия для наших человеческих усилий. Стажер решил применить ассоциативный майнинг к задаче прогнозирования.

То, что стажер сделал, было очень умным. Используя подход, аналогичный упомянутому выше примеру с ураганом, он собрал измеренные физические характеристики солнечных бурь на Солнце и геомагнитных событий вокруг Земли (измеренные спутниками НАСА), чтобы найти предсказательные закономерности. Но супер-особенная умная вещь, которую он сделал, заключалась в том, чтобы посмотреть на значения данных со сдвигом во времени. Например, он сравнил события на Солнце с географическими событиями с запаздыванием по времени в 1 час, 2 часа, 3 часа и т. Д., До 12 часов, чтобы увидеть, когда произошла пиковая корреляция (ассоциация!). Он нашел это - самые сильные геомагнитные эффекты были измерены вокруг Земли примерно через 2–3 часа после события солнечной бури, и он мог сказать нам, какие солнечные параметры были наиболее предсказуемыми характеристиками в наборе данных многоспутниковых наблюдений. Его наставник из НАСА позвал меня в свой кабинет, чтобы показать удивительное открытие, сделанное этим учеником старшей школы, используя простые методы, которым я научил его на своем семинаре во время обеда. Мы все были очень впечатлены!

Правдивая история №4 - Анализ предшественников

Мой последний пример поиска ассоциативных правил - это открытие, сделанное много лет назад крупным магазином электроники, который продавал видеокамеры (видеокамеры) и видеоплееры (VHS). В магазине быстро выяснилось, что их дополнительные предложения покупателям, купившим проигрыватель, с рекомендацией купить видеокамеру в тот же день, не имели большого успеха. Используя небольшую интуицию в области бизнеса, аналитики данных магазина решили изучить свою базу данных транзакций розничных клиентов, чтобы получить некоторую информацию о клиентах. Это оказалось умным решением и прекрасным примером аналитического мышления!

Аналитики обнаружили, что клиенты, купившие проигрыватель VHS, обычно возвращаются в магазин примерно через 3–4 месяца, чтобы купить видеокамеру (вероятно, потому, что к тому времени покупатели решили, что они хотят снимать свои собственные фильмы). Это пример аналитики предшественников. Затем магазин использовал эту информацию для отправки купонов на скидку на видеокамеры всем своим клиентам, купившим плееры VHS несколькими месяцами ранее, чтобы побудить этих клиентов вернуться в этот магазин и купить видеокамеру.

Зачем отправлять купон на скидку, если они знали, что покупатель все равно собирается купить товар? Что ж, они не хотели рисковать тем, что покупатель может решить совершить покупку в каком-то другом магазине. В конце концов, у этого магазина была информация о покупателях, чтобы знать, когда и кому следует сделать это очень конкретное целевое предложение продукта. Зачем тратить такую ​​ценную информацию о клиентах! Судя по всему, эта программа взаимодействия с клиентами сработала! И его успех был обусловлен майнингом правил ассоциации.

Полезные сведения

Приведенные выше примеры иллюстрируют два очень полезных подхода к изучению ваших собственных массивных коллекций данных для получения значимых (интересных и полезных) выводов: (1) поиск редких и необычных сопутствующих ассоциаций нечисловых элементов (что затем способствует открытию мощных идей) ; и (2) если у вас есть метаданные с меткой времени для ваших данных (независимо от того, являются ли элементы данных числовыми или нечисловыми), рассмотрите возможность введения временной задержки в одной или нескольких функциях в наборе данных, чтобы проверить, насколько сильна связь между различными функциями достигает своего пика при некотором частном ненулевом значении временного сдвига. Последний подход - это аналитика-предшественник - обнаружение сигналов раннего предупреждения в одной функции, которые связаны с другой функцией в будущем.

С огромными объемами данных, которые сейчас доступны, и с умными алгоритмами для исследования этих данных, можно только представить, какие удивительные и полезные ассоциации ждут своего открытия в данных вашей организации, которые могут помочь вам в обнаружении важных идей. Вы тоже можете стать участником сообщества Data Heroes-Я-us.

Начни считать!

Следуйте за мной в Твиттере на @KirkDBorne

Узнайте больше о моем внештатном консалтинговом / обучающем бизнесе: ООО Data Leadership Group

Посмотрите, что мы делаем в AI-стартапе DataPrime.ai