Контролирано машинно обучение срещу архитектура за дълбоко обучение

От: Andrii Elyiv, Nikhil Aggarwal & Aldo Visibelli

Една от последните тенденции, изострени от разпространението на интернет и социалните медии в частност, е по-широкият обхват на фалшивите новини. На 15 април 2020 г. „доклад“ на групата с нестопанска цел Avaaz, която определи Facebook като „епицентър на дезинформация за коронавирус“, цитира множество публикации, съдържащи опасни здравни съвети и фалшиви лечения. Компанията отхвърли това обвинение, заявявайки, че е премахнала голямо количество дезинформация през последните седмици. За по-малко тревожно съдържание той цитира статистика, която предполага, че предупредителните етикети имат реален ефект (вижте изображението по-горе).

Организацията на обединените нации наскоро написа на своя новински портал (UN News), че ненадеждна и невярна информация се разпространява по света до такава степен, че някои коментатори сега се позовават на новата лавина от дезинформация, която е придружена пандемията от COVID-19 като „дезинформация“. Фалшивите новини присъстват в широк спектър от теми: „Изглежда едва ли има област, останала незасегната от дезинформация във връзка с кризата с COVID-19, варираща от произхода на „коронавируса“ до недоказана превенция и „лечения“ и включващ отговорите на правителства, компании, знаменитости и други.“

Дори когато фалшивите новини не са толкова последователни, колкото често се опасяват, по-добре е да можете да ги забележите. Има различни начини за идентифициране на дезинформация, циркулираща в мрежата. Един вариант например е да поставите под въпрос източника. Източникът наистина е валидна реплика: много успешни фалшиви новини, „циркулиращи в WhatsApp“ за Covid-19, пише Хюго Мерсие в Guardian, започват с „Приятел, който има чичо в Ухан“ или „Приятел, чийто баща работи в Центъра за контрол на заболяванията”.

Оценяването и прегледът на източниците на голям набор от новини и информация обаче може да се окаже излишна и непосилна задача. Поради тази причина има нарастващ натиск към онлайн издателите и комуникационните средства за намиране на автоматизирани решения в реално време, идентифициращи надеждни новини. Чисто новата технология на Connexun се стреми просто да извлича надеждни новини.

Първо и преди всичко Connexun провери и проучи внимателно списъка с източници, които обхожда. Вместо просто да се съсредоточаваме върху общия брой изчерпани източници, качеството и надеждността на източниците са централен принцип на нашата технология. Ръчният подбор и проверка на качеството на съдържанието на средствата за информация беше първата стъпка към развитието на солиден набор от източници. Качеството на съдържанието на онлайн издателите под наблюдение е наистина централно за стойността, осигурена от нашата машина за новинарско разузнаване.

Второ, неговата технология за клъстериране и класиране дава видимост на новини, публикувани от медии и онлайн източници от различни страни, и може би също обсъждане на една и съща тема на различни езици. Всъщност е много малко вероятно фалшивите новини да бъдат публикувани от различни източници, в различни държави и на различни езици. Нашите стабилни клъстери наистина включват новини от различни източници, принадлежащи към широк кръг от държави, в различни идиоми.

Традиционно фалшивите новини могат да бъдат разпознати чрез методи за обработка на естествен език с помощта на контролирано машинно обучение. Този подход изисква обучение на човешка извадка от истински и фалшиви новини по подобни теми, за да се подчертаят по-добре ясните разграничения между тях. Основната цел е да се намерят полезни функции и да се векторизират, за да се разграничат фалшивите новини от истинските. Моделите Bag-of-words и Term Frequency–Inverse Document Frequency (TF-IDF) често се използват в класификация на новини, където честотата на срещане на всяка дума или фраза (n-грами) се използва като функция за обучение на класификатор. Предполага се, че фалшивите новини имат специфична комбинация и честота на думите. Например истинските новини използват глагола „казал“ по-често от фалшивите, тъй като в повечето реални журналистически издания източниците се цитират директно като „Премиерът на Италия каза […]“.

Що се отнася до Naive Bayes, Случайни горски класификатори, Support-vector machine (SVM) се използва. Обикновено точността на тези модели е под 90%. Точността показва процента на истински положителни (маркирани от човека фалшиви новини, които са реконструирани от модела като фалшиви) и истински отрицателни (маркирани от хора истински новини, които са реконструирани от модела като истински) случаи сред общия брой наблюдения.

По-усъвършенствана техника е да се откриват фалшиви новини с помощта на архитектурата на задълбочено обучение, например: Дългосрочна краткосрочна памет (LSTM), която е подклас на повтарящата се невронна мрежа (RNN), конволюционни невронни мрежи (CNN) и езичен модел, базиран на BERT. Всички те осигуряват ниво на точност над 90%. Най-завладяващият е BERT, създаден от Google, който е модел, съставен от няколко подредени блока трансформатор-енкодер. BERT вече е предварително обучен за голям текстов корпус (книги, архиви с новини, Wikipedia), така че потребителят да извърши настройка, за да адаптира модела към конкретна задача. Класификаторите на фалшиви новини с базиран на BERT модел могат да достигнат ниво на точност от 97% или по-високо. За повече информация относно нашия API за новини или нашата емисия с новини, следвайте ни в Linkedin или Twitter или се свържете с нас на [email protected].