Много математически алгоритми, които използваме в науката за данни и машинното обучение, изискват числови данни. И много алгоритми са склонни да бъдат много сложни за изпълнение (като „Машини за поддържащи вектори“ или „Локално линейно вграждане“, които обсъждахме по-рано). Но извличането на правила за асоцииране е идеално за категорични (нечислови) данни и не включва нищо повече от просто преброяване!

Това, което имаме тук, е прост алгоритъм с не толкова опростени резултати! Съотношението на потенциала за откриване на действени прозрения (високо) към сложността на алгоритъма (ниско) е доста голямо и нетипично, IMHO.

Извличането на правила за асоцииране е фокусирано основно върху намирането на често срещащи се асоциации сред колекция от елементи. Понякога се нарича „Анализ на пазарната кошница““, тъй като това е първоначалната област на приложение на добива на асоциации. Целта е да се намерят асоциации на елементи, които се срещат заедно по-често, отколкото бихте очаквали от произволна извадка от всички възможности.

Легендарен пример

Класическият пример за анализ на пазарната кошница е известната асоциация „Бира и памперси“, която често се споменаваше преди 10–20 години във всяка книга за извличане на данни – независимо дали историята е истинска или легендата е „предмет на дебат“. Историята е следната: клиентите, които отиват в магазина, за да купят памперси, също ще са склонни да купуват бира по едно и също време с по-висока от случайната честота.

Нека илюстрираме това с един прост измислен пример. Да предположим, че базата данни за транзакции на дребно на магазин включва следната информация:

  • Има общо 600 000 транзакции.
  • 7500 транзакции съдържат памперси (1,25 процента)
  • 60 000 транзакции съдържат бира (10 процента)
  • 6000 транзакции съдържат както памперси, така и бира (1,0 процента)

Ако няма връзка между бирата и пелените (т.е. те са статистически независими), тогава очакваме, че само 10% от купувачите на пелени (=750) също ще купят бира (тъй като 10% от всички клиенти купуват бира). Откриваме обаче, че 80% (=6000/7500) от купувачите на памперси купуват и бира. Това е увеличение с коефициент 8 спрямо очакваното — това се нарича повдигане, което е съотношението на наблюдаваната честота на съвместно възникване към очакваната честота. Това беше определено просто чрез преброяване на транзакциите в базата данни. Така че в този случай правилото за асоцииране ще гласи, че купувачите на памперси ще купуват и бира с коефициент на повишаване 8.

В статистиката Лифтът се оценява просто чрез съотношението на общата вероятност на два елемента x и y, разделено на произведението на техните индивидуални вероятности: Лифт = P (x,y)/[P(x)P(y)]. Ако двата елемента са статистически независими, тогава P(x,y)=P(x)P(y), съответстващо на Lift = 1 в този случай. Обърнете внимание, че антиасоциирането между x и yдава стойности на повишаването, по-малки от 1, което също е интересно откритие — съответстващо на взаимно изключващи се елементи, които рядко се срещат заедно.

Истинска история №1 – Урагани

Простият фиктивен пример, показан по-горе, беше измислен и е много рядко в реални случаи коефициентите на повдигане да достигат до 8. Въпреки това имаше случай, в който това се случи. Този случай беше открит от Walmart през 2004 г., когато поредица от урагани прекосиха щата Флорида. След първия ураган имаше още няколко урагана, наблюдавани в Атлантическия океан, насочващи се към Флорида, и така „анализаторите на данни на Walmart копаха масивната си база данни за транзакции на дребно“, за да видят какво наистина искат да купят клиентите им преди пристигането на урагана.

Анализаторите откриха един конкретен артикул, който се увеличи в продажбите с коефициент 7 в рамките на нормалните дни за пазаруване. Това беше огромен коефициент на повдигане за случай от реалния свят. Този артикул не беше бутилирана вода, или батерии, или бира, или памперси, или фенерчета, или генератори, или което и да е от обичайните неща, които можем да си представим. Артикулът беше поп торти с ягоди! Човек може да си представи много причини защо това е бил най-желаният продукт преди пристигането на урагана - поп тартите не изискват охлаждане, не е необходимо да се готвят, идват в индивидуално опаковани порции, имат дълъг срок на годност, те са лека закуска, те са храна за закуска, те са комфортна храна, децата ги обичат и ние ги обичаме. Въпреки тези „очевидни“ причини, това все още беше огромна изненада! И това откритие предостави реални прозрения – Walmart зареждаха магазините си с тонове ягодови сладкиши преди следващите урагани и ги разпродадоха. Това е печелившо: Walmart печели, като продава, а клиентите печелят, като получават продукта, който най-много искат. Ние наистина искаме нашата комфортна храна по време на стресови моменти.

Упражнение за ученика

Когато бях професор в университета "Джордж Мейсън", преподавах уводни, междинни и висши курсове за наука за данни. За магистърския клас понякога давах на студентите си проект за асоциирано копаене за семестъра. Това беше проект с отворен край — дадох им указател към набор от данни и указател към някакъв безплатен софтуер за копаене на асоциации и след това им дадох свободата да изследват набора от данни за интересни асоциации (или високо повдигане › 1, или ниско повдигане ‹ 1) . Това наистина беше обучение без надзор, както алгоритмично, така и педагогически. Исках да видя как моите ученици ще организират своите експерименти, как ще проведат своите изследвания, какво ще открият и как ще съобщят откритията си на класа.

Софтуерният пакет, който използваха, беше WEKA Data Mining & Machine Learning software workbench. И наборът от данни беше „Наборът от данни за горската покривка“ от „Архива на UCI KDD“. Този набор от данни съдържа над 580 000 точкови измервания на типове горска покривка в голямо разнообразие от среди. Предизвикателството беше да се намерят интересни асоциации между различните характеристики (видове дървета, географско положение) и променливите на околната среда (типове почви, излагане на слънце, достъп до вода).

Винаги беше забавно упражнение, поне за мен, защото учениците имаха свободата да изследват много различни асоциации в голям набор от данни. Нямаше правилен или грешен отговор, въпреки че понякога имаше някои грешни първоначални избори, които трябваше да коригирам, преди проектът да се обърка. „Разказването на данни“ също беше неразделна част от упражнението.

Истинска история №2 — Още урагани

Друг пример за добив на асоциации ми беше предоставен от колега от университета. Той е професор по геоинформационни системи и земни науки. Той и неговият изследователски екип решиха да проучат използването на асоциативно копаене, за да изследват връзката между силата на урагана и физическите характеристики на ураганите (напр. вътрешна скорост на вятъра, атмосферна температура, температура на океанската вода, влажност, атмосферно налягане в окото на урагана , срязване на вятъра, количество на валежите, посока и скорост на разпространение на урагана и др.). Те откриха силна връзка между крайната сила („категория на урагана“) на урагана, когато стигне до сушата, и стойностите на тези различни физически характеристики, докато ураганът все още беше далеч над океана (много дни или седмици преди да стигне до сушата).

Беше много успешен експеримент. Те успяха да „предскажат засилването на урагана и неговата крайна сила“ и резултатите се оказаха по-точни с асоциираното копаене, отколкото със стандартния модел на ураганите, използван по това време от националния център за урагани. Това беше невероятно приложение на алгоритъм, който първоначално беше разработен за копаене на транзакции в магазини на дребно.

Истинска история №3 — Слънчеви бури и геовъздействия

Имаше също толкова впечатляващо научно приложение, с което се сблъсках преди няколко години, когато работех в НАСА. Всяко лято с нас работеха студенти стажанти. Тези студенти обикновено са били студенти (обикновено изгряващи възрастни) и винаги са били много умни. В едно от тези лета имахме ученик, който все още не беше абитуриент (4 години по-млад от своите колеги стажанти). Той ме чу да изнасям лекция по време на обяд за извличане на данни, която представих пред пълната група летни стажанти на НАСА през същата година. Той работеше по проект с космически физик от НАСА, за да се опита да предскаже кога слънчевите енергийни частици ще достигнат земята след появата на голяма слънчева буря на Слънцето. Има „много сериозни последици от подобни събития върху нашите човешки начинания“. Стажантът реши да приложи асоциативно копаене към проблема с прогнозиране.

Това, което стажантът направи, беше много умно. В подход, който е подобен на примера с урагана, споменат по-горе, той събира измерени физически характеристики на слънчевите бури на Слънцето и за геомагнитни събития около земята (измерени от сателитите на НАСА), за да търси предсказуеми модели. Но супер специалното умно нещо, което той направи, беше да разгледа стойностите на данните, изместени във времето. Например, той сравнява събития на Слънцето с гео събития с времеви лагове от 1 час, 2 часа, 3 часа и т.н., до 12 часа, за да види кога е настъпила пиковата корелация (асоциация!). Той го откри - най-силните геомагнитни ефекти са измерени около земята приблизително 2-3 часа след събитието на слънчевата буря и той може да ни каже кои слънчеви параметри са най-предсказуемите характеристики в набора от данни за многосателитни наблюдения. Неговият ментор от НАСА ме повика в кабинета си, за да ми покаже удивителното откритие на този гимназист, използвайки простите техники, на които го научих на моя обеден семинар. Всички бяхме много впечатлени!

Истинска история №4 — Анализ на прекурсори

Моят последен пример за извличане на асоциативни правила е откритие, направено преди много години от голям магазин за електроника, който продава видеокамери (камери) и видео (VHS) плейъри. Магазинът бързо научи, че техните оферти за по-висока цена на клиентите, които са закупили плейъра, препоръчвайки им да закупят и видеокамерата в същия ден, нямат много малък успех. Използвайки малко интуиция в бизнес домейна, анализаторите на данни в магазина решиха да проучат своята база данни за транзакции на клиенти на дребно за някои прозрения за клиентите. Това се оказа умно решение и чудесен пример за аналитично мислене!

Анализаторите откриха, че клиентите, закупили VHS плейър, са склонни да се върнат в магазина около 3-4 месеца по-късно, за да купят видеокамерата (вероятно защото клиентите са решили дотогава, че искат да правят свои собствени филми). Това е пример за анализ на прекурсори. След това магазинът използва тази информация, за да изпрати купони за отстъпка за видеокамери на всички свои клиенти, закупили VHS плейъри няколко месеца по-рано, за да примами тези клиенти да се върнат в този магазин, за да закупят видеокамера.

Защо да изпращат купон за отстъпка, ако са знаели, че клиентът така или иначе ще купи продукта? Е, те не искаха да поемат риска клиентът да реши да направи покупката си в друг магазин. В края на краищата, този магазин имаше интелигентността на клиентите, за да знае кога и на кого трябва да направят тази много специфична целева продуктова оферта. Защо да хабите такава ценна клиентска информация! Очевидно тази програма за ангажиране на клиенти е проработила! И неговият успех се дължи на добива на асоциирани правила.

Откриване на полезни прозрения

Горните примери илюстрират два много полезни подхода, когато изследвате вашите собствени масивни колекции от данни за смислени (интересни и полезни) прозрения: (1) търсене на редки и необичайни съпътстващи асоциации на нечислови елементи (което след това води до откриване на мощни прозрения) ; и (2) ако имате маркирани във времето метаданни за вашите данни (независимо дали елементите от данни са числови или нечислови), помислете за въвеждане на забавяне във времето в една или повече функции в набора от данни, за да видите дали силата на свързване между различни характеристики достига своя връх при някаква конкретна ненулева стойност на времевото изместване. Последният подход е прекурсорен анализ — намиране на ранни предупредителни сигнали в една функция, които се свързват с друга функция в някакъв бъдещ момент.

С огромните количества данни, които сега са налични, и с интелигентни алгоритми за изследване на тези данни, човек може само да си представи какви изненадващи и полезни асоциации чакат да бъдат открити в данните на вашата организация, които могат да подобрят откриването на вашите практически прозрения. Вие също можете да станете член на общността „Data Heroes-Я-us“.

Започнете да броите!

Последвайте ме в Twitter на адрес @KirkDBorne

Научете повече за моя бизнес за консултиране/обучение на свободна практика: Data Leadership Group LLC

Вижте какво правим в стартирането на AI DataPrime.ai