Работил с Гарима Шарма, Азин Ваханян и Ичен Яо

(UC Irvine MSBA ‘21)

Защо този проект има значение

Последното десетилетие показа нарастване на популярността на онлайн платформите за запознанства и сега има много различни приложения, които отговарят на различни начини на живот. Всяка платформа има свой собствен алгоритъм за създаване на съвпадения и връзки; следователно има много конкуренция между сайтовете. Въпреки че има разлики във всяка платформа, сцената за онлайн запознанства обикновено следва подобен формат. При регистрация на потребителите се задават поредица от въпроси като възраст, местоположение, ниво на образование, доходи, хобита и т.н., за да намерят съвместими и подобни лица. Потребителите могат да анализират съвпадащи профили един по един и да избират дали се интересуват от този човек или не. След като и двамата потребители съвпаднат, те имат възможността да изпратят директно съобщение до другия човек и да започнат да се свързват с него. След установяване на връзката приложението служи като основно средство за комуникация, докато потребителите не проведат няколко разговора и решат да продължат напред. На теория това е безпроблемен процес, който позволява на хората да се срещат и свързват с различни хора с лекота и ефективност; Въпреки това, един от основните проблеми с онлайн запознанствата е възможността потребителят да взаимодейства с измамник. Това може да бъде под формата на някой, който е поставил невярна информация за себе си в своя профил или дори като потребители, които са пълни измамници. Този проблем се оказа едно от основните възпиращи фактори за онлайн запознанствата и служи като темата, която се надяваме да подобрим.

Бизнес идеята, защо е важна и източникът на данни

Поради пандемията хората не могат да се смесват на социални събирания и да се срещат с нови хора. В резултат на това хората стават по-самотни и по-изолирани; следователно търсенето на другарство нараства. През последните осем месеца имаше увеличен брой регистрации и потребителски трафик на тези онлайн платформи за запознанства. Тъй като има много алтернативи и заместители, достъпни за потребителите, за компаниите е важно потребителите им да продължават да се връщат. Затова предлагаме тази тема, защото сега е приоритет да се улови този поток от потребители чрез подобряване на качеството на връзките и взаимодействията в приложенията. Ако даден потребител има добър опит с конкретна платформа за запознанства, той вероятно ще разпространи своя положителен опит сред своите приятели, онлайн аудитория или като преглед, който ще подтикне повече потенциални потребители да използват платформата. Намирането на данни, които могат да бъдат полезни при отговорите на тези въпроси, ще ни позволи да изобразим и предложим нови начини за подобряване на изживяването на клиентите при онлайн срещи. Гарантирането, че потребителят има приятно изживяване през целия процес, ще бъде наложително за успеха на платформата за онлайн запознанства. Събирайки, анализирайки и интерпретирайки данните от потребителския опит, се надяваме да предложим решение, което може да позволи на потребителите да се свързват спокойно. Източникът на данни беше Kaggle и наборът от данни, който придобихме, се състои от 59 946 души и техните okcupid профили. Включихме променливи, които биха дали добра представа за навиците и личността на потребителя. Разглеждането на набора от данни чрез машинно обучение би осигурило добър начин за подобряване на самата платформа за онлайн запознанства.

Обобщение на данните, описание, визуализация.

Източник на данни: Kaggle

Организация: Okcupid

Данните имат 59946 реда и 31 колони.

Данните съдържат демографска информация за клиенти като възраст, пол, местоположение, доход от работа и информация за навици като напитки, наркотици и дим, също така има текстови данни, където клиентите дават кратка информация за тях.

Използвани инструменти:

Python: Обработка и моделиране на данни.

Таблица: Визуализация.

Брой и процент на липсващите стойности в данните:

Разпределение на класова променлива без предварителна обработка:

Анализ, бенчмарк точност без предварителна обработка на данни.

Прогнозиране на Тип тялоизползвайки навици и демографски данни

Дърво на решения

Най-добра точност = 0,29, най-добра дълбочина = 5

Произволна гора

Точност = 0,23

K Най-близкият съсед

Най-добра точност = 0,27, най-добър съсед Amt. = 35

Обработка и почистване на данни: всички категориални колони с подобни стойности са групирани в една категория. Всички числени променливи остават както са, с изключение на колоната за доходи, където –1, което означава липсващи стойности, е обработено, за да се премахнат тези стойности

Почистване на данни:

Суровите данни бяха подмножества, за да вземат предвид само колоните, които ще използваме за модела, които са: възраст, пол, височина, доход, статус, body_type, диета, напитки, наркотици, образование, етническа принадлежност, работа, пуши. Данните, използвани за модела, имат 52318 реда и 13 колони

  • Премахнати са нулевите стойности от променливата на класа body_type. Разпределение на класовата променлива:
  • Премахнати са нулевите стойности от колоната за напитки, която има по-малко от 5% липсващи стойности
  • Обработени са всички категорични променливи с най-често срещана стойност
  • Третира стойностите –1 в колоната за доходи със средни стойности за всеки тип работа
  • Премахнаха колоните за домашни любимци и потомство, тъй като имаха липсващи стойности повече от 30%
  • Останалите колони бяха премахнати поради по-малка релевантност към променливата на класа и липса на вариации в стойностите

Състояниепреди: единичнии наличнистойности са групирани в единичнакатегория.

Състояниеслед:

Пол: няма категоризиране на стойностите в тази колона

Използвана категоризация за Тип тяло:

Тип тяло след:

Категоризация, използвана за диета:

Диетаслед:

Категоризация, използвана за напитки:

Напиткислед:

Категоризация, използвана за Образование:

Образованиеслед:

Категоризация, използвана за работа:

Работаслед:

Категоризация за димчета:

Пушислед:

Моделиране:

  • Преобразува променливата на класа с помощта на енкодер на етикети
  • Преобразува всички категориални променливи в двоични
  • Разделете данните на обучение и тестване, като използвате разделяне 80–20
  • Дърво на решенията: изпълни дървото на решенията в Python в цикъл за дълбочина от 1 до 20, за да получи дълбочината с най-добра точност. Точността е 55% с максимална дълбочина 7.

Класификатор на случайни гори: изпълни класификатора на произволни гори в python с 1000 като оценители, което даде точност от 50%.
K най-близки съседи: изпълни KNN в цикъл, за да получите съседите с най-висока точност от 1 до 100. Най-близките съседи бяха 88 и с максимална точност от 54%.

Дървото на решенията има най-добра точност, следователно дървото се изпълнява, запазвайки параметъра за максимална дълбочина като 7 в данните за обучение. Извършете матрицата на объркването върху данните от теста и по-долу е докладът за класификацията. Прецизността и припомнянето за категорията Тънъкса най-ниски поради неравномерното разпределение на наблюденията.

Дървото на решенията беше управлявано в Weka с помощта на класификатор J48 с 10-кратно кръстосано валидиране, което даде точност от 54%. По-долу са резултатите:

Храна за вкъщи

Фактори за подобряване на точността:

  • Данните, използвани за анализ, бяха подобни на данните от проучване, тъй като няма начин да се потвърди дали клиентите са въвели правилната информация
  • Ако категоричните променливи са групирани по различен начин, може да повишат точността
  • Наличието на колони като тегло, ИТМ може да увеличи точността.
  • Третирането на липсваща стойност, ако се извърши по различен начин, може да доведе до повишаване на точността.

(b) Интерпретирайте и анализирайте вашите резултати, за да помогнете на бизнес мениджърите да разберат последиците и действията, които следват от анализа.

От този анализ изваждаме няколко ключови точки:

Броят на липсващите стойности трябва да бъде намален, за да се подобри точността.
• Колкото повече данни губим, толкова по-зле ще бъде за алгоритмите за съпоставяне, на които разчита тази онлайн платформа за запознанства. Да се ​​подобри алгоритъмът би означавало да се подобри крайният резултат. Затова е важно да се

придобийте тези ценни липсващи точки от данни.
Броят на категоричните избори трябва да се увеличи, за да се подобри точността

• Това ще позволи повече точки от данни, които са точно групирани и категоризирани. Позволява по-добро съвпадение на подробните променливи, които потребителите ценят.

Бизнес последици
Подобряването на алгоритъма за съпоставяне означава подобряване на крайния резултат. За да

подобряване на връзките на потребителите, трябва да има алгоритъм за машинно обучение, който може да научи как да свързва потребителите ефективно и с експоненциално увеличение на обучението. За да се случи това, трябва да има повече данни за анализ. Това не се отнася само до броя на редовете/екземплярите, но и до колоната/атрибутите на

човек. Следователно това ще даде по-добра представа за осезаемите точки на свързване за потребителите. Това означава, че потребителите ще обичат да ходят на срещи и тези потребители ще направят истинска връзка. Подобряването на удовлетвореността на клиентите би довело до положителен отзив или потребител, който препоръчва okcupid на друг приятел, стимулирайки повече клиенти да се присъединят към тази онлайн платформа за запознанства.

Други препоръки.

Намирането на данни, които могат да бъдат полезни при отговорите на тези въпроси, ще ни позволи да изобразим и предложим нови начини за подобряване на изживяването на клиентите при онлайн срещи. Гарантирането, че потребителят има приятно изживяване през целия процес, ще бъде наложително за успеха на платформата за онлайн запознанства. Събирайки, анализирайки и интерпретирайки данните от потребителския опит, ние се надяваме, че можем да позволим на потребителите да се свързват спокойно.