C4D изгражда по-добри начини да разбере как рекламодателите се опитват да повлияят на обществеността

Преди изборите в САЩ през 2020 г. и отново през 2022 г. NYU Cybersecurity for Democracy създаде онлайн, безплатно табло за управление, Ad Observatory, предназначено да предостави на обществеността начин да получи представа за милионите политически реклами във Facebook и Instagram. Докато Ad Observatory е в хибернация до цикъла на общите избори в САЩ през 2024 г., ние искахме да подчертаем няколко функции, върху които работим и които можете да очаквате с нетърпение следващата година.

Подобрена езикова идентификация

Голяма част от обработката на данните ни зависи от познаването на езика на рекламния текст. Тъй като това не се предоставя от Meta Ad Library, ние трябва сами да направим това определяне точно, бързо и евтино.

Има няколко безплатни готови метода, които отговарят на третия критерий за цена: LanguageDetector, fastText, LangDetect, LangID и GCLD3. За да измерим как са се справили с другите две, ние обединихме два набора от данни с отворен код, обозначени („едно“ и „две“), съставени от данни, извлечени от Wikipedia. Между двете има 32 337 точки с данни на 28 езика.¹

Пуснахме данни от всички езици през моделите, за да оценим тяхната възможност за обобщаване. Тъй като английският и испанският са най-важните езици за политическа комуникация в Съединените щати, ние допълнително изчислихме претеглена мярка за ефективност с английски и испански, претеглени с коефициент три. И при двете мерки точността беше микроосредненият резултат F1. Отчетената скорост е общото време на изпълнение на набора от данни за оценка в секунди и трябва да се тълкува като най-бавно (отгоре) до най-бързо (отдолу).

Моделът fastText постигна най-високата сурова и претеглена точност. Това, в комбинация с това, че е вторият най-бърз модел, особено по-бърз от всички останали, с изключение на най-малко точния модел LanguageDetector, го направи най-добрият кандидат за включване в нашите канали за откриване на език.

Ето „връзка“ към кода за оценка, включително бележник на Colab.

Подобрена класификация на типове реклами

За всяко търсене AdObervatory разбива рекламите по тип. Тези типове представляват целта на рекламата (която е отделна от нейната тема, въпреки че понякога са свързани.) В момента категоризираме рекламите в 5 типа:

  • Свързване: Тези реклами се стремят да накарат зрителя да сподели своята информация за контакт, за да може да се свърже с него по-късно. Те често приемат наклонени форми, като например искане от зрителя да подпише петиция или картичка за рожден ден.
  • Показване:Тези реклами карат зрителя да предприеме действие във физическия свят, като например присъствие на митинг или гласуване.
  • Дарете:Тези реклами имат за цел да накарат аудиторията да дари пари незабавно и да не предлага стоки или услуги в замяна.
  • Купете: Тези реклами продават стоки или услуги в замяна на пари, въпреки че тази размяна може да бъде изразена като дарение или „такса за доставка“.
  • Убеждаване: Тези реклами не се стремят да накарат потребителя да предприеме незабавно действие. Следователно заключаваме, че тяхната единствена цел е да убедят аудиторията да поддържа някаква вяра. Това до известна степен е критерий за изключване.

Тази разбивка предоставя допълнителна информация за цифровата стратегия на кампанията. В по-ранен „блог“ подчертахме разликите между президентските кампании на Тръмп и Байдън въз основа на използваните от тях видове реклами.

Подобно на моделирането на темата, класификацията на типа реклама е задача за класифициране на многоезичен текст. За разлика от това, класификацията на типове не е необходимо да бъде разширяема, което означава, че е малко вероятно да се появят нови типове. Това го прави проблем с много класове, а не с много етикети. Следователно остават три от петте спецификации: прецизни, ефективни и многоезични.

За да обучим класификационен модел, имаме нужда от етикетирани данни за обучение. Изправени пред подобни ограничения около ресурсите за човешки преглед, ние етикетирахме данните с помощта на полуконтролирана евристика. Тази евристика се възползва от връзки и бутони, които често се появяват в мета реклами. Съдържанието им е силен индикатор за целта на рекламата. Тъй като много реклами споделят една и съща връзка и тип бутон, етикетирането на най-често срещаните може да намали времето за ръчен преглед. След това можем да използваме съпоставянията тип връзка/бутон, обозначени от човека, за да етикетираме текста на всички реклами, където се показват тези връзки и бутони. С тези етикетирани данни можем да обучим класификатор за машинно обучение да обобщава тези етикети.

От първоначален етикетиран набор от данни от 50 000 текста с 80–10–10 влак-тест-валидиране разделяне, ние обучихме два потенциални заместващи модела за текущия Naive Bayes класификатор с tf-idf функции в производството. Първият е двупосочен LSTM с ReLu активиране. Вторият е модел на DistilBERT с distilbert-base-multilingual-cased предварително обучени вграждания на изречения, обучени с помощта на API за обучение на HuggingFace. Подробните параметри на обучението са изброени по-долу.

Следващата таблица сравнява производителността на двата нови модела и компромиса между тях; трансформаторният модел е ~17% по-точен, но почти 10 пъти по-бавен.

Разходи (и промени в разходите) с течение на времето

Въпреки че фигурата за търсене позволява на потребителите да се задълбочават в конкретни моментни снимки на данните, има и стойност в получаването на изглед от птичи поглед на възникващите тенденции. Написахме скрипт, който създава визуализации на най-добрите реклами, спонсори, теми и типове по разходи и импресии, както и техните промени всяка седмица. Прегледът тук може да бъде добра отправна точка за разбиране на това кой в ​​момента е най-активен в политическата рекламна екосистема Meta и какви промени са в ход.

За да ви покажем какъв вид прозрения могат да бъдат събрани, ще използваме метарекламни данни на английски език от седмицата от 1 февруари 2023 г. до 8 февруари 2023 г. като пример. През тази седмица America’s Plastic Makers беше най-добрият спонсор по брой реклами, изразходвана сума и втори по импресии. America’s Plastic Makers е страница във Facebook, управлявана от Американския съвет по химикали, търговска асоциация на производителите на пластмаси. На второ място е Hulu, който не е типичен потребител на политическа реклама. Въпреки това през този период те рекламират издаването на документалната си поредица „Проектът 1619“, която има политически последици. Загрижено виждаме също така три медийни организации, които са оценени като „ниско доверие“ от Media Bias Fact Check: Newsmax, China Economic Daily и PragerU сред водещите рекламни спонсори по импресии през този времеви прозорец.

Разглеждането на промяната в разходите в сравнение с предходната седмица разкрива малко по-различна картина. Американските производители на пластмаса увеличиха разходите си с около 23% спрямо предходната седмица, почти удвоявайки импресиите. Въпреки това, най-голямата промяна в разходите за реклама (на спонсори, които са похарчили поне $500 предходната седмица) е страницата на Джули Хартман с повече от 25%. Джули Хартман е млад либерал, превърнал се в консерватор, чийто подкаст започна да се излъчва под Salem Media Group в края на ноември. По време на периода на събиране на данни тя пусна четири епизода, обхващащи теми като лаптопа на Хънтър Байдън, китайските балони и преместването на имигранти без документи в Ню Йорк. На второ място е UNITED24.Media, организация за набиране на средства за войната в Украйна. Virginia Unified утрои импресиите от предходната седмица, първата им седмица в съществуването, с реклами, противопоставящи се на законопроекта на щата Вирджиния, който ще намали минималната работна заплата за младежите.

Въпреки че обикновено не разглеждаме отделни реклами, може да бъде полезно да прегледате единичните реклами с най-високи разходи. Сред десетте най-скъпи реклами за седмицата беше тази реклама по-долу от американските производители на пластмаса, които се опитват да ребрандират пластмасата като устойчива. През месец февруари те изпомпиха между $50k и $60k само в тази реклама и тя е една от десетките, които излъчиха като част от по-голямата кампания Greenwashing.

Друга реклама в топ 10 на най-скъпите, спонсорирана от „консервативната“ America Strong and Free PAC, включва това антикитайско послание. PAC е основана от бившия републикански губернатор на Арканзас Аса Хътчинсън, който оттогава „обяви“ кандидатура за президент през 2024 г.

Вероятно благодарение на американските производители на пластмаса, опазването на околната среда беше водещата тема по импресии и втората най-висока за разходи.

Защитата на околната среда също имаше една от най-големите промени във впечатленията, надмината само от Националната сигурност. Разходите за национална сигурност се удвоиха до повече от три пъти импресиите, докато защитата на околната среда имаше почти същия ръст на импресиите при една пета от увеличението на разходите.

Откриване на кампания

Наблюдавахме интересни тенденции с изгледа на голямата картина, но можем да копаем и по-дълбоко. Дълбоките разследвания отнемат време и често могат да доведат до задънени улици. За да помогнем при определянето на ползотворни линии на запитване, създадохме инструменти за извеждане на ключови думи и наименувани обекти от реклами в Meta AdLibrary. Честотата на употреба и цената на употреба за тях са добри показатели за важни рекламни кампании.

Ключовите думи се определят с помощта на KeyBert. Първо, текстът се вгражда както на ниво n-грам, така и на ниво документ (т.е. преобразува се в цифрово представяне) с помощта на предварително обученото paraphrase-multilingual-MiniLM-L12-v2 вграждания. N-грамите са групи от последователни думи с определена дължина. За този анализ разглеждаме би- и триграми, последователности от две и три думи. Стоп думите, думите с минимално значение за смисъла на текста и думите, които се появяват в по-малко от пет документа, се премахват от разглеждане. Ключовите думи се избират с помощта на Максимална маргинална релевантност, която взема предвид косинусното сходство между n-грамата и документа и желаното ниво на разнообразие в избраните термини.

От това генерираме таблица за общите разходи, реклами и спонсори за всеки набор от ключови думи. Най-горният е „месецът на черната история“, който започва в началото на събирането на данни. Шестдесет и пет различни рекламодатели са похарчили повече от $21 000 за 381 уникални реклами, съдържащи тези ключови думи. По-надолу в списъка е колекция от ключови думи, свързани с пластмасите, от Американския съвет по химия, организацията зад страницата на производителите на пластмаса на Америка, спомената по-рано.

Разпознаването на именуван обект има за цел да извлече собствени съществителни от текст. Използвахме конвейера на езиковия модел en_core_web_trf на spaCy, деактивирайки другите модели, за да подобрим скоростта и филтрирането по етикетите EVENT, LAW, LOC (местоположение), NORP (Националности или религиозни или политически групи), ОРГ(организация), ЛИЦЕ и ПРОДУКТ. Много очаквани наименувани лица бяха често срещани в данните като Конгреса, Камарата на представителите, демократите, Тръмп и Байдън.

Илхан (Омар) беше сред най-често срещаните, споменати 207 пъти, най-много от всеки законодател. Като прогресивна чернокожа мюсюлманка, тя често е набелязана, както в примерната реклама по-долу.

Заключение

Тези промени ще доведат до по-добра представа за тенденциите в политическите реклами чрез по-точна езикова класификация, идентифициране на теми, седмични обобщения на тенденциите и извличане на ключови думи и наименувани обекти. Те са някои от потенциално множество допълнителни функции, които могат да бъдат включени във версията на AdObservatory от 2024 г., ако има подновено финансиране.

За NYU „Киберсигурност за демокрация“

Киберсигурността за демокрация е базирано на изследвания, безпартийно и независимо усилие за излагане на онлайн заплахи за нашата социална тъкан - и препоръчване как да им се противопоставим. Той е част от Центъра за киберсигурност към Инженерния факултет Тандон на Нюйоркския университет.

Искате ли повече информация за нашата работа? Посетете Cybersecurity for Democracy онлайн и вижте как инструменти, данни, разследвания и анализи подхранват усилията за отчетност на платформата.

Бележки под линия

  1. За тези, които се интересуват от много по-голям набор от данни с милиони записи, има този един