1. Въведение — Необходимостта от препоръчителни системи

Информацията е била решаваща и неделима част от човешката история в подкрепа на вземането на решения, което е по-важно от всякога поради непрекъснато нарастващия обем данни, които генерираме през последните десетилетия. В основата на вземането на решения, базирани на данни, често се виждат препоръчителни системи, които изпълняват задачата за филтриране и извличане на информация, за да поддържат днешните богати на данни доставчици на услуги, включително често използвани сайтове за електронна търговия и ориентирани към съдържанието. Индустриите с намерение да предоставят персонализирани препоръчителни услуги разчитат на своите препоръчителни системи, за да улеснят процеса на вземане на решения за продукти и/или услуги с по-високо качество, както и конкурентоспособност на пазара (Schafer et.al., 1999).

Един от най-ранните систематични подходи в препоръките е известен като GroupLens (Resnick et al., 1994), с цел да се препоръчват новини на потребителите по съвместен начин въз основа на предположението, че хората, които са се съгласили в миналото, вероятно биха се съгласили отново относно бъдещи предпочитания; Тяхната работа по-късно доведе до система за препоръчване на филми, наречена MovieLens, която извърши над 15 милиона оценки на филми от стартирането си през 1997 г. (Vig et al., 2009). Осъзнавайки значителния потенциал на препоръчителя в търговската индустрия, Netflix проведе открит конкурс за Netflix Prize през 2006 г., насърчавайки по-добрите препоръчители (Bennett and Lanning, 2007); Наградата най-накрая беше поискана три години след това през 2009 г. от екипа „Прагматичният хаос на Белкор“, постигайки по-добра точност на препоръките от собствения алгоритъм на Netflix с 10,06% (Награда на Netflix: Форум, 2009 г.). Цената на Netflix мотивира повече изследвания в препоръчителните алгоритми и използването на машинно обучение в контекста на препоръката. Оттогава препоръчителните системи са популярна изследователска тема, движена както от напредъка на машинното обучение, така и от широк спектър от приложения в индустрията.

2. Измерението на данните има значение

2.1 Когато препоръчващите не могат да препоръчат

Като популярна област на интерес както в академичните изследвания, така и в индустрията, препоръчителните системи имат непрекъснат процес на прилагане на иновативни решения от научните изследвания и изискват нуждата от нови решения при среща с проблеми в приложенията в индустрията. Два съществени проблема, с които се сблъскват ранните препоръчатели, са известни като рядкост на данните и студен старт; Първото се отнася до ситуация, при която по-голямата част от продуктите/услугите са без оценка, поради което не е налична достатъчно информация за препоръчителя, за да направи прогнози, когато са включени продукти без оценка (Можете да приемете това като наличие на немаркирани данни в рамка за контролирано обучение) . Последното се отнася за нови потребители без записани исторически предпочитания. И в двете ситуации не може да се изпълни точна персонализирана препоръка, следователно не могат да бъдат приложени никакви препоръки, разчитащи единствено на потребителските предпочитания, тъй като тези проблеми почти сигурно ще се намесят, тъй като адекватните потребителски предпочитания и оценки за продукти трябва да се натрупат с течение на времето.

2.2 Иновативно използване на допълнителна информация

Основният проблем при оскъдността на данните и студения старт е липсата на информация както за потребителите, така и за продуктите. За разлика от ситуациите, при които директен и брутален подход за въвеждане на повече данни би решил проблема, ключът тук е използването на данни в различни структури и измерения; По-конкретно, с въвеждането на странична информация, която улавя по-дълбока връзка между потребителите и/или продуктите, за да подпомогне препоръките (Sun et al., 2019). Представителната странична информация приема формата на мрежови характеристики, улавящи социални взаимоотношения, като се предполага, че приятелите, които биха били засегнати от социални влияния (Wasserman и Faust, 1994), биха били по-склонни да се съгласят с предпочитанията си в контекста на препоръките. Използването на мрежови функции има логичен смисъл, тъй като препоръчителите използват връзките между подобни потребители на първо място, проучванията също потвърждават неговата ефективност за подобряване на ефективността на препоръките със сравнителни проучвания (Jamali и Ester, 2010; Forsati et al., 2014).

Възползвайки се от извличането и интерпретацията на функции в неструктурирани данни чрез техники за машинно обучение, страничната информация в съвременните препоръки също приема формата на текстове или изображения. Често срещаната странична текстова информация, включена от препоръчащите, са генерирани от потребителите рецензии, въз основа на които препоръчащите са в състояние да контекстуализират предпочитанията на потребителите чрез моделиране на теми, за да предложат точни препоръки (Hariri et al., 2011). Визуалните функции не са толкова често срещани, колкото текстовите в контекста на препоръките, но популярни домейни, които все още могат да използват визуални препоръки, са в модата, филмите/видеоклиповете и ориентираните към изображения социални платформи като Instagram. Визуалните характеристики могат да бъдат извлечени от CNN, където визуалните представяния на високо ниво могат да бъдат картографирани в латентно пространство заедно с предпочитанията на потребителите за генериране на препоръки (Lei et al., 2016). Визуалният препоръчител по този начин използва богатата информация, вградена в изображенията, и може да подпомогне визуално осъзнатата препоръка да се приведе в съответствие с предпочитанията на потребителите (He and McAuley, 2016; Kang et al., 2017).

2.3 Проблеми при включването на допълнителна информация

Иновациите винаги са страхотни, с изключение на проблема, който може да срещнете, когато внедрявате иновации. По отношение на включването на странична информация в препоръките, ключов въпрос, който трябва да зададете, е: Компенсира ли подобрението на производителността от странична информация разходите, необходими за тълкуването им? Тъй като допълнителната информация приема различни форми от потребителските оценки, които препоръчващите използват, за да правят прогнози и препоръки, са необходими допълнителни процеси на извличане на функции и интерпретация за комбиниране с потребителски оценки. Това важи особено за съвременните препоръки, базирани на задълбочено обучение, които са проектирани да обработват неструктурирана странична информация, поради тяхната значителна способност за обобщаване, която идва с цената на висока времева и пространствена сложност (Hu et al., 2021). Поради тази причина повечето препоръки за състоянието на техниката могат да се справят само с един тип неструктурирана странична информация и разходите за обучение тепърва ще бъдат решени, преди да бъдат приложени в индустрията, където ще трябва да се обработват по-големи количества данни от това често използвани като базови линии за целите на сравнението в изследователската общност.

Друг проблем се крие в използването на странична информация с различни структури в един и същ тръбопровод с препоръки, където типичен случай е да се интегрира структурирана странична информация в базирани на дълбоко обучение препоръки, предназначени да интерпретират неструктурирана странична информация в хибридна среда. Логично предположение би разглеждало комбинацията както от структурирана, така и от неструктурирана странична информация, за да разкрие корелации между целевите потребители и продукти от по-дълбоко измерение и би предложило по-добро представяне на препоръките; И все пак присъщата сложност на структурираната странична информация и проблемите при адаптирането на извличането на функции за двата вида странична информация възпрепятстват нейното прилагане (Sun et al., 2019). Съществуващите изследвания имат за цел да решат проблема чрез проектиране на нови архитектури на дълбоки невронни мрежи при моделиране на структурирана странична информация и извличане на нейните характеристики по подобен начин като неструктурирана странична информация, например предложената графична невронна мрежа при включване на графики на знания (Wang et al. , 2019); Въпреки това изследванията в тази област са в ранен етап и все още трябва да изчакаме, за да се насладим на препоръчителни услуги по този начин.

3. Загриженост за сигурността на препоръчителните системи

3.1 Препоръчителите са уязвими

Сигурността на препоръчителните системи е проблем още от внедряването им в домейни на приложения. Увеличаването на приходите от персонализирани препоръки мотивира злонамерените нападатели да попречат на препоръчителя да получи неетични предимства и да подведе потребителите да вземат неволни решения, които могат да доведат до репутационни и финансови загуби, особено в сайтовете за електронна търговия. Историческият контекст на проблема е съсредоточен върху Shilling Attack, където нападателите биха инжектирали фалшиви потребителски профили и биха участвали в дейности по препоръки, като оставят оценки изрично, за да популяризират или понижат целевите продукти (Gunes et al., 2014). Проучванията демонстрират неговата ефективност срещу популярни сайтове като Youtube, Google, Amazon и Yelp (Xing et al., 2013; Yang et al., 2017), докато организации, включително Sony Pictures, Amazon и eBay, съобщават за смущения в тяхната система за препоръки поради до шилингови атаки (Lam and Riedl, 2004).

Уязвимости могат да възникнат и от използваните данни. За съвременните препоръчители, базирани на дълбоко обучение, най-скорошното безпокойство е в използваната неструктурирана странична информация. Често срещани примери за странична текстова информация биха били фалшиви клиентски отзиви (известни също като измамни мнения за спам), написани с цел да измамят бъдещи клиенти и системи за извличане на мнения, които, поради изрично подвеждащия си характер, са по-трудни за откриване от предишните широко изследвани уеб и имейл спам (Jindal и Liu, 2008). Процентът на нежелана поща с измамни мнения се оценява на 2 до 6% за избрани сайтове по време на проучването (Ott et al., 2012), може да се смята, че тази цифра само ще расте, тъй като броят на популярните сайтове и техните потребители продължава да расте растат през последното десетилетие

(Горното изображение е пример за измамно спам мнение, първият преглед е автентичен, а вторият е фалшив. Проучване (Ott et al., 2012) показва, че човешките съдии могат да постигнат само 60% точност при идентифицирането им.)

Визуалната странична информация също предизвиква опасения за сигурността под формата на състезателни примери, които възникват от проучванията на състезателното машинно обучение. Целевите системи за компютърно зрение могат да претърпят значителен спад в производителността чрез обработка на изображения с добавени смущения, които са визуално неразличими за човешкия наблюдател от тези на нормалното изображение (Goodfellow et al., 2014). В контекста на визуалната препоръка, където много се разчита на визуалните характеристики за генериране на препоръки, точността на препоръката би спаднала значително и би обезсилила целта на визуалния препоръчител (Tang et al., 2019).

(Пример за състезателен пример, възпрепятстващ системата за класификация на изображения от проучване на Goodfellow et al.)

3.2 Противодействия с проучване на данни

Откриването на шилинг атаки може да се извърши чрез статистически анализ, търсещ аномалии в базата данни, съдържаща потенциални подозрителни оценки (Bhaumik et al., 2006), където средните оценки, получени от елементи, се моделират с нормално разпределение и елементи, които попадат извън контролираната увереност интервалите се считат за атакувани. Техниките за машинно обучение могат също да се използват за разграничаване на потенциални фалшиви потребителски профили; Средното отклонение на общите атрибути на потребителски профили може да бъде организирано в записи с данни и анализирано в рамка за контролирано обучение, в който случай степента на сходство с известния валиден потребителски профил може да определи дали избраният профил е фалшив или не (Burke, et al ., 2006).

По отношение на уязвимостите, възникващи от измамни мнения и противопоставящи се примери, ключът се крие във вътрешното свойство на екземплярите на данни. Поради своята текстова природа обработката на естествения език може да се използва за извличане на семантични, синтактични или настроения характеристики от клиентски отзиви и изследване на разликата между валидни и фалшиви отзиви от избрани измерения, от които невронните мрежи могат да бъдат обучени да разграничават фалшивите отзиви и да ги изключват в ранните етапи на тръбопровода за извличане на мнения (Zhao et al., 2018; Ren and Zhang, 2016). По подобен начин осъзнаването на състезателни примери също разчита на присъщото си свойство, което се различава от чистите изображения. Съпернически примери, получени чрез максимизиране на загубата на невронната мрежа (Kolter and Madry, 2018), могат да бъдат включени в процеса на обучение на визуални препоръчители, което позволява на мрежата да придобие осведоменост за потенциални смущения, приложени към изображения, като по този начин повишава нейната устойчивост срещу всеки потенциален противник примери, които могат да се появят, когато препоръчителят работи (ang et al., 2019).

3.3 Можем ли някога да сме в безопасност?

Общо безпокойство за съществуващите контрамерки в сигурността на препоръчителя е липсата на активни методи за защита на всякакви бъдещи атаки, което произтича от два основни проблема. Първо, наличието на стандартни набори от данни, представляващи широки приложения, е ограничено. В проучването за откриване на спам в мнения изследователите разчитат на платформи за краудсорсинг, за да събират изрично данни, като по този начин им липсва общо представяне на сценарии от реални случаи (Ren and Ji, 2019), докато данните от приложения от реални случаи е трудно да се етикетират и организират дори без етични опасения за тяхното използване. Второ, общата тенденция в състезателното машинно обучение е, че предложените нови защити често са по-трудни от атаките. Това се отразява в трудността при разработването на надеждни защитни подходи със систематичен анализ на възможната причина, заедно с липсата на строги и обобщаващи процедури за оценка (Carlini et al., 2019). Да не говорим за разликата между състезателното машинно обучение и препоръката, която изисква бъдещо проучване (Deldjoo et al., 2021). Погледнато отгоре надолу, може да не е възможно да се предвидят нови все още неразработени атаки и да се измислят контрамерки, нито да съществува панацея, която да гарантира адекватна устойчивост за настоящите препоръчващи. Това, което може да се направи, е активното изследване от науката за данни, за да се търсят прозрения и непрекъснато да се подобряват съществуващите методи.

4. Заключение

Тази статия повдигна дискусии относно прилагането на препоръчителни системи и ролята, която науката за данните играе за по-ефективен и стабилен препоръчител. Използването на странична информация и методите за защита силно разчитат на усъвършенствани техники за машинно обучение и дълбоко обучение, които се считат за напредъка на науката за данните. С предложението за по-усъвършенствани алгоритми за наука за данни и нови методи за използване на различни форми на данни, индустриите ще се радват на процъфтяването на по-точни, ефективни и сигурни системи за препоръчване и ще предоставят по-добри услуги за препоръчване на потребителите.

5. Препратки

Schafer, J. B., Konstan, J., & Riedl, J. (1999, ноември). Системи за препоръчване в електронната търговия. В Сборник на Първата конференция на ACM за електронна търговия (стр. 158–166).

Resnick, P., Iacovu, N., Suchak, M., Bergstrom, P., Riedl, J. (1994, октомври). Grouplens: Отворена архитектура за съвместно филтриране на мрежови новини. В сборника на конференцията на ACM от 1994 г. за компютърно поддържана кооперативна работа (стр. 175–186).

Vig, J., Sen, S., & Riedl, J. (2009, февруари). Планове на етикети: обяснение на препоръки с помощта на тагове. В Процедури от 14-та международна конференция за интелигентни потребителски интерфейси (стр. 47–56).

Бенет, Дж. и Ланинг, С. (2007 г., август). Наградата на netflix. В Производство на купата и работилницата на KDD (том 2007 г., стр. 35).

Netflix Prize: Forum (2009) Поздравления за екипа “BellKor's Pragmatic Chaos” за присъждането на голямата награда от $1 милион на 21 септември 2009 г. Очаквайте подробности за следващото състезание, Netflix Prize 2. Архивирано от Интернет архив на 23/09/2009. Достъп на 14/03/2022. https://web.archive.org/web/20090924184639/http://www.netflixprize.com/community/viewtopic.php?id=1537

Sun, Z., Guo, Q., Yang, J., Fang, H., Guo, G., Zhang, J., & Burke, R. (2019). Изследователски коментар относно препоръки със странична информация: Анкета и насоки за изследване. Изследвания и приложения на електронната търговия, 37, 100879.

Васерман, С. и Фауст, К. (1994). Анализ на социални мрежи: Методи и приложения.

Джамали, М. и Естер, М. (2010 г., септември). Техника за матрична факторизация с разпространение на доверие за препоръчване в социалните мрежи. В сборника на четвъртата конференция на ACM относно системите Recommender (стр. 135–142).

Форсати, Р., Махдави, М., Шамсфард, М. и Сарват, М. (2014). Матрична факторизация с изрична странична информация за доверие и недоверие за подобрена социална препоръка. ACM Transactions on Information Systems (TOIS), 32(4), 1–38.

Hariri, N., Mobasher, B., Burke, R., & Zheng, Y. (2011, януари). Препоръка, съобразена с контекста, базирана на копаене на прегледи. В ITWP@ IJCAI.

Lei, C., Liu, D., Li, W., Zha, ZJ, Li, H. (2016). Сравнително дълбоко обучение на хибридни представяния за препоръки за изображения. В сборника на Конференцията на IEEE за компютърно зрение и разпознаване на образи (стр. 2545–2553).

He, R., McAuley, J. (2016, февруари). VBPR: визуално байесово персонализирано класиране от имплицитна обратна връзка. В сборника на конференцията на AAAI за изкуствен интелект (том 30, №1).

Kang, WC, Fang, C., Wang, Z., McAuley, J. (2017, ноември). Визуално осъзнати модни препоръки и дизайн с генеративни модели на изображения. През 2017 г. IEEE International Conference on Data Mining (ICDM) (стр. 207–216). IEEE.

Hu, X., Chu, L., Pei, J., Liu, W., & Bian, J. (2021). Сложност на модела на дълбокото обучение: Проучване. arXiv предпечат arXiv:2103.05127.

Sun, Z., Guo, Q., Yang, J., Fang, H., Guo, G., Zhang, J., & Burke, R. (2019). Изследователски коментар относно препоръки със странична информация: Проучване и насоки за изследване. Изследвания и приложения на електронната търговия, 37, 100879.

Wang, H., Zhao, M., Xie, X., Li, W., & Guo, M. (2019, май). Конволюционни мрежи на графа на знанието за препоръчителни системи. В конференцията The World Wide Web (стр. 3307–3313).

Gunes, I., Kaleli, C., Bilge, A., & Polat, H. (2014). Шилингови атаки срещу препоръчителни системи: цялостно проучване. Преглед на изкуствения интелект, 42 (4), 767–799.

Xing, X., Meng, W., Doozan, D., Snoeren, A.C., Feamster, N., & Lee, W. (2013). Приемете това лично: Атаки срещу замърсяване на персонализирани услуги. В 22-ри симпозиум по сигурността на USENIX (USENIX Security 13) (стр. 671–686).

Yang, G., Gong, N. Z., & Cai, Y. (2017, февруари). Фалшиви атаки за инжектиране на съвместно посещение към системи за препоръчване. В NDSS.

Lam, S. K. & Riedl, J. (2004 г., май). Системи за препоръчване на шилинг за забавление и печалба. В сборника с доклади на 13-та международна конференция за World Wide Web (стр. 393–402).

Jindal, N., Liu, B. (2008, февруари). Спам мнения и анализи. В сборника на международната конференция за уеб търсене и извличане на данни от 2008 г. (стр. 219–230).

Ott, M., Cardie, C., Hancock, J. (2012, април). Оценяване на разпространението на измамата в онлайн общностите за преглед. В сборника на 21-вата международна конференция за World Wide Web (стр. 201–210).

Goodfellow, I.J., Shlens, J., & Szegedy, C. (2014). Обяснение и използване на състезателни примери. arXiv предпечат arXiv:1412.6572.

Tang, J., Du, X., He, X., Yuan, F., Tian, ​​Q., & Chua, T. S. (2019). Състезателно обучение към стабилна система за мултимедийни препоръки. IEEE Transactions on Knowledge and Data Engineering, 32(5), 855–867.

Bhaumik, R., Williams, C., Mobasher, B., & Burke, R. (2006, юли). Осигуряване на съвместно филтриране срещу злонамерени атаки чрез откриване на аномалии. В сборника от 4-тия семинар за интелигентни техники за уеб персонализация (ITWP’06), Бостън (том 6, стр. 10).

Burke, R., Mobasher, B., Williams, C., & Bhaumik, R. (2006, август). Класификационни характеристики за откриване на атаки в системи за съвместна препоръка. В сборника на 12-та международна конференция ACM SIGKDD за откриване на знания и извличане на данни (стр. 542–547).

Zhao, S., Xu, Z., Liu, L., Guo, M., & Yun, J. (2018). Към точно откриване на измамни мнения въз основа на CNN, запазваща реда на думите. Математически проблеми в инженерството, 2018.

Ren, Y., & Zhang, Y. (2016, декември). Откриване на нежелана поща с измамно мнение с помощта на невронна мрежа. В сборника на COLING 2016, 26-та международна конференция по компютърна лингвистика: технически доклади (стр. 140–150).

Колтер, З., Мадри, А. (2018). Състезателна устойчивост: теория и практика. Урок в NeurIPS.

Tang, J., Du, X., He, X., Yuan, F., Tian, ​​Q., & Chua, T. S. (2019). Състезателно обучение към стабилна система за мултимедийни препоръки. IEEE Transactions on Knowledge and Data Engineering, 32(5), 855–867.

Ren, Y., & Ji, D. (2019). Да се ​​научим да откриваме измамни спам мнения: Анкета. IEEE Access, 7, 42934–42945.

Carlini, N., Athalye, A., Papernot, N., Brendel, W., Rauber, J., Tsipras, D., Goodfellow, I., Madry, A. и Kurakin, A., 2019. Относно оценката на състезателността здравина. arXiv предпечат arXiv:1902.06705.

Deldjoo, Y., Noia, T.D., & Merra, F.A. (2021). Проучване на състезателни препоръчителни системи: от стратегии за атака/защита до генеративни състезателни мрежи. ACM Computing Surveys (CSUR), 54 (2), 1–38.