Въведение

Новините относно руските туитър ботове, които влияят на американските избори, са на първа страница вече повече от година. Извършени са много проучвания и разследвания на руските Twitter ботнети, за да се идентифицира, категоризира и разбере тяхната мрежа.

Въпреки това чуваме много малко за Twitter ботове, ангажирани в пропагандни дейности за всяка друга страна по света. Изборите са голям залог в която и държава да се провеждат и бихме очаквали да видим подобни пропагандни дейности, провеждани в социалните медии. Заех се да разследвам дали това се е случило на скорошни президентски избори в Индонезия и наистина открих, че пропагандните ботове представляват до около 57% от акаунтите, участващи в политическа тема.

В тази статия ще опиша методологията, по която идентифицирам twitter ботове, последвано от анализ на резултатите, които съм получил.

Методология:

В началото на разследването си разбрах, че ръчното идентифициране на twitter ботове няма да може да се мащабира. Мащабируем метод би бил да се използва модел за машинно обучение за идентифициране на ботове, но това ще изисква определен брой истински етикети (бот акаунти срещу човешки акаунти), върху които да се обучи модел.

В първата си итерация реших да използвам набора от данни Cresci 2017, за да обуча модел на машинно обучение за идентифициране на ботове. След това създадох twitter scraper за изчерпване на данни и използвах модела за машинно обучение за идентифициране на ботове. За съжаление този метод бързо се натъкна на няколко проблема.

Първо, наборът от данни Cresci 2017 не съдържаше всички данни, които API на Twitter връща, това означаваше, че ако трябваше да създам нови функции въз основа на тези данни, наборът от данни Cresci 2017 нямаше да може да поддържа тези функции и модела за машинно обучение няма да можете да използвате функциите.

Второ, наборът от данни Cresci 2017 изглежда имаше грешни етикети. При моето тестване открих няколко акаунта, които бяха означени като ботове в набора от данни на Cresci, но при проверка изглеждаха напълно човешки по моите стандарти.

С тези проблеми реших да премахна набора от данни Cresci 2017. Вместо това продължих с метод за стартиране, за да изградя собствени етикети и модел на машинно обучение по ефективен начин.

За да постигна това, първо създадох платформа, която показва изчерпаните данни за всеки акаунт в Twitter по интуитивен и лесен за тълкуване начин. Потребителският интерфейс не само показва основните данни, налични на страницата в Twitter, но също така и извлечени функции като съотношение на ретуитване и активност на публикуване за час от деня и ден от седмицата. Това ми позволи бързо и точно да оценя всеки акаунт дали е бот или човек, както и по избор да им присвоя етикет за типа бот.

След това платформата автоматично ще обучи отново модела за машинно обучение (Random Forest), използвайки дадените етикети, и ще преизчисли вероятностите за бота (0 към 1) за всеки Twitter акаунт в базата данни. Моделът за машинно обучение се обучава с помощта на 21 функции, извлечени от характеристиките на акаунта и туитовете.

За да затворя цикъла, продължих да оценявам акаунти с вероятности за ботове, близки до 0,5, тъй като тези резултати показват, че моделът за машинно обучение не е сигурен дали акаунтите са ботове или хора и присвояването на етикет към тях би било много ефективно при обучението на модела . Този метод ми позволи да обозначавам акаунти за обучение по най-ефективния начин.

Освен това стартирах алгоритъм за клъстериране (DBSCAN) на акаунти, идентифицирани като ботове, за да разделя ботовете на различни клъстери за по-нататъшен анализ. Следващата снимка е диаграма, описваща цялата платформа и нейните услуги.

Резултати:

По време на разследването ръчно маркирах общо около 250 акаунта и непрекъснато изтривах 54 887 акаунта в Twitter и техните туитове (~38 милиона). Тези акаунти в Twitter са туитнали поне един от 5-те хаштага, свързани с президентските избори в Индонезия през 2019 г. (#jokowidodo, #jokowi, #prabowosubianto, #prabowo, #Pilpres2019) между 29 март и 25 април.

Можем да изследваме отделни хаштагове, за да извлечем представа за дейностите, свързани с тях.

#jokowidodo

Този хаштаг е пример за огромни целенасочени усилия в дейността по ботиране. Виждаме 57% съотношение на бот акаунт спрямо човешки акаунти.

Въпреки усилията на Twitter да спре акаунти, все още има 25% от акаунтите на ботове, които все още са активни.

Тъй като моделът на машинно обучение не използва спрения статус на акаунта, за да предскаже резултата от бот за акаунта, и ако приемем, че спрените акаунти се дължат главно на дейности по ботиране, тъй като почти всички спрени акаунти са обозначени като ботове от машинното обучение модел, можем да заключим, че моделът на машинно обучение е относително точен при маркиране на бот акаунти.

#jokowidodo

Разбивайки ботовете по клъстери, можем да видим, че голяма част от акаунтите на ботове в тази тема принадлежат към клъстер, който е идентифициран ръчно като „ботове за ретуитване“ и „бот за снимки на jokowi“.

Използвайки платформата, можем също така да изследваме отделните клъстери, за да придобием допълнителна представа за техните характеристики и дейности.

Ето процентите човек-бот за другите хаштагове:

Заключение:

Пропагандата в изборите съществува откакто се проведоха изборите и политическите партии по целия свят вероятно вече използват използването на Twitter ботове, за да повлияят на своите избори.

В това разследване разработих платформа, която позволява бързо идентифициране на ботове, както и използване на машинно обучение за точно идентифициране на ботове в голям мащаб. С това мога да изследвам не само отделни ботове, но и ботнети като цяло, за да разбера техните характеристики и поведение. Това може да се използва и за разбиране на мотивите зад операторите на ботове.

С използването на платформата открих доказателства за дейности на пропагандни ботове в Twitter за последните избори в Индонезия през 2019 г., както и количествено определяне на степента на дейностите на ботове в Twitter по време на изборите.

Този доклад за разследване служи като предпазно предупреждение към гражданите по целия свят да бъдат нащрек за акаунти на марионетки и да избягват да бъдат подвеждани от фалшиви претенции за подкрепа за политически кандидати в социалните медии.

В бъдеще ще работя върху добавянето на още функции за подобряване на точността на модела за машинно обучение. Ще добавя още анализи, особено в областта на анализа на социалните мрежи (SNA). И накрая, ще използвам тази платформа и за разследване на дейностите на ботове на предстоящите избори в моя регион (Филипини – май 2019 г., Тайван – януари 2020 г., Сингапур – септември 2020 г.) и ще докладвам констатациите.

С уважение,
Jin-E
Prophunt.net