Практически уроци

Текстово базирано причинно-следствено заключение

Урок за анализиране на дезинформация за измама на избирателите чрез оценка на причинно-следствения ефект с текст като лечение и объркващо действие

Научната фантастика ни казва, че ширещата се дезинформация е предзнаменование за пропадането на обществото в антиутопия. Може да се твърди, че дезинформацията дестабилизира демокрацията („Morgan 2018“, „Farkas & Schou 2019“). Осезаемо е, че хората, които пренебрегват медицинските доказателства, оказват отрицателно въздействие върху общественото здраве. Например, хора, които са готови да игнорират доказателства, могат да изберат да откажат ваксини и по този начин да застрашат живота на другите и своя собствен. Човек трябва да бъде предпазлив, защото научната дезинформация е широко разпространена, но е трудно хората да бъдат държани отговорни, когато достъпът до надеждни новинарски материали е нарушен от наплива от фалшиви новини. По-коварна форма на дезинформация е подкопаването на реалността за част от населението; вид масова истерия, която улавя когнитивно уязвимите в алтернативна реалност. Говоря за сюрреалистичните твърдения за измама на гласоподавателите по време на „последните американски избори“, когато подлизурите на Тръмп отказаха да приемат, че той е загубил изборите. Фалшивите новини около избирателните измами имаха неоспоримо подпалващо въздействие върху последвалото „въстание от 6 януари“, трагично събитие, което изкрещя антиутопичното общество.

„Хана Аренд“, политическият философ, твърди, че е необходимо хората да се занимават с политика като част от добрия живот. В „Човешкото състояние” Аренд казва, че не е достатъчно да работиш и да прекарваш време с тези, които обичаш, трябва да се включиш и в политическия живот („Аренд, 1958”). Има много американци, които следват този дух и се занимават с политика; разглеждайки го като свое право и отговорност като гражданин. За съжаление, някои от тях са податливи на грешно мислене и стават жертва на странни конспирации като QAnon. В „Мрежова пропаганда“ от Бенклер, Фарис и Робъртс авторите твърдят, че обратната връзка на пропагандата е частично подхранвана от желанието на хората да избегнат когнитивния дискомфорт. С други думи, хората ще търсят информация, която укрепва техния мироглед, като същевременно пренебрегват или отхвърлят доказателствата за противното. В епидемиологичен смисъл фалшивите новини действат като вектор на болестта, разпространявайки опасна дезинформация и насищайки обществената сфера с противоречиви сметки, които правят почти невъзможно разпознаването на истината.

Но какво общо има политиката с науката за данните? Като изследовател, който се интересува от дезинформация, аз естествено се стремя да използвам инструменти за наука за данни, за да отговоря на въпроси от социален и политически интерес. От непосредствен интерес е разбирането на връзката между социалните медии и фалшивите новини. Има твърдения, че токсичният характер на социалните медии, който се ръководи от шокираща стойност и гласуване в полза, оказва влияние върху разпространението на фалшиви новини. По-конкретно, гледайки Twitter, аз се съмнявам дали фалшивите новини имат причинно-следствено въздействие върху резултата от броя на ретуитовете. Споделянето на фалшиви новини води ли до по-голям брой ретуитове? Този урок е резултат от моя опит да отговоря на този въпрос и е продължение на предишна статия за причинно-следствени изводи с помощта на НЛП.

В тази статия, за да оценя причинно-следствените ефекти с помощта на текст, използвам набора от данни на Twitter „VoterFraud2020“, куриран от „Jacobs Technion — Cornell Institute“. Този набор от данни беше направен публично достъпен от изследователите и споделен на това табло, оригиналната статия се приписва на Abilov et al. (2021). Започвам с обсъждане на данните и описание на предварителния анализ. След това представям алгоритъма за причинно-следствен текст и преминавам през съответното изследване върху причинно-следствените ефекти на езиковите свойства (Pryzant, 2021). Освен това разглеждам насоки за използване на данни от наблюдения за причинно-следствени изводи и описвам подробно процедурата за оценка на алгоритъма за причинно-следствен текст. След това излагам рамката за причинно-следствения експеримент, който води директно в урок за това как да настроите и използвате инструмента за причинно-следствен текст (който разклонявам и адаптирам от оригиналното репо). Аз също покривам стъпките, необходими за справяне с предложения причинен въпрос с алгоритъма за причинно-следствен текст. И накрая, обсъждам накратко резултатите и разглеждам възможните разширения.

Описание на данните

Наборът от данни с отворен код „Cornell VoterFraud2020 Twitter“ съдържа 7,6 милиона туита и 25,6 милиона ретуита от 2,6 милиона потребители, всички свързани с твърденията за измама на гласоподаватели между 23 октомври 2020 г. до 16 декември 2020 г. Поради правилата за поверителност на Twitter само идентификаторите на туитове и потребителските идентификатори се споделят; въпреки това Хранилището на GitHub за набора от данни включва скриптове за хидратиране на данните. За този експеримент се съсредоточих само върху 7,6 милиона оригинални туитове. След като туитовете бяха събрани, беше необходимо да се направи известна предварителна обработка, за да се почисти текстът на туитовете и да се извлекат URL адреси. Всички URL адреси бяха в съкратения формат на Twitter на „t.co“ и затова трябваше да бъдат разрешени. За да се разбере по-добре популярността на разрешените URL адреси, на всеки URL адрес беше даден ранг на Alexa от анализа на статистиката на уеб трафика на Amazon.

Media Cloud е инструмент за анализ на медийно съдържание с отворен код, разработен в Berkman Klein Center for Internet & Society в Харвардския университет. Тази платформа има „подбрани списъци с източници“ за американски медийни източници, разделени по политическа принадлежност, обхващащи „ляво“, „центристко-ляво“, „център“, „центристко-дясно“ и „дясно“. Използвайки тези списъци с източници на новини в САЩ, направих кръстосана препратка към URL адресите, разрешени от набора от данни за туитове за измами на избиратели. Това е избрано за URL адреси, които водят конкретно към новинарски статии. Media Cloud има страхотни възможности за разследване на новинарски медии, така че успях да използвам заявки в Media Cloud, за да определя броя на споделянията във връзка с медиите и броя на споделянията във Facebook на изолираните статии. В допълнение към тези метаданни на статията, изтрих пълния текст на всички новинарски статии, които все още бяха онлайн по това време.

Тези стъпки ми дадоха комбиниран набор от данни от оригинални туитове, които споделяха новинарски статии, с пълния текст на новинарските статии, метаданни на статии, метаданни на туитове и класиране на Alexa за URL адресите. За да бъде ясно, наборът от данни от 7,6 милиона туита беше съкратен, така че всеки туит да имаше съответна новинарска статия. Целта на събирането на пълния текст на статиите беше да се извърши моделиране на теми с „латентно разпределение на Дирихле (LDA)“, за да се види дали е възможно да се изолират фалшивите новинарски статии. Освен това наборът от данни на VoterFraud2020 от 2,6 милиона потребители също съдържа общността или клъстера на всеки потребител, както е определено от алгоритъм за откриване на общност (напр. метод на Лувен). Като се имат предвид множеството потоци от данни и богатството на получения набор от данни за статии в туитове, беше необходимо да се извърши предварителен анализ, който е разгледан по-долу.

Предварителен анализ

Първо, като се имат предвид самите туитове, текстът на туитовете може да има стойност при идентифицирането на фалшиви новини. Затова започнах с тематично моделиране на текста на туита с LDA, за да добия обща представа за съдържанието на дискурса в Twitter.

Резултатите от модела LDA подчертаха няколко теми, които бяха изрично относно аспекти на разговора за дезинформация за измама на гласоподавателите. Например, една забележителна тема, която беше изолирана от другите теми, беше за алтернативния десен хаштаг „#stopthesteal“. Забележителна беше също така изолираната тема за проверка на фактите на Wall Street Journal и New York Times. Интересното е, че туитове, които твърдят, че имат доказателства за измама, се припокриват значително с туитове от десни новинарски източници, като Fox News. Като цяло има няколко нишки на дезинформация, вариращи от събиране на бюлетини, конспирации относно софтуера за гласуване, клетвени декларации, твърдящи измама, и слухове за военно участие.

Анализът на потребителските общности с алгоритъм за откриване на общността предостави 5 отделни общности, които варират в броя на потребителите, както е показано по-долу.

Групите за усилване бяха тези, които прокараха дневния ред за измама на гласоподавателите, а чуждестранните групи представляват потенциално чуждо влияние и са малки в сравнение.

Фокусирайки се върху разпространението на фалшиви новини, тези пет общности се държаха различно, когато ставаше въпрос за споделяне на URL адреси на новинарски статии. Метаданните на Media Cloud съдържаха броя на връзките към медиите, който представлява броя пъти, когато дадена статия е била свързана с други медийни източници. Статия с много вътрешни връзки може да се счита за по-масова. Графиката по-долу показва тенденцията на броя на медийните връзки във времето за трите най-големи общности.

Горните времеви серии предполагат, че лявоцентристката общност е склонна да споделя статии, които са по-„основни“ в сравнение с двете общности на усилвателите. Въпреки че лявоцентристката общност е по-вероятно да споделя основни статии, те не са събрали голям брой ретуитове. Това е показано по-долу във времеви серии от среден брой ретуитове по общност.

Всъщност това е третата по големина общност „Amplifiers_1“, която има най-висок брой ретуитове за споделени URL адреси, въпреки че представлява само 11,5% от потребителите. Притеснението тук е, че дори ако центристите отляво се опитваха да проверят фактите, които разпространяват фалшивите новини за измама на гласоподавателите, те не получиха голяма видимост в Twitter. Също така е изненадващо да осъзнаем, че сравнително малката група от „Amplifiers_1“ беше силно влиятелна в разпространението на информация, въпреки че не споделяше основните медии.

Обикновено се приема, че фалшивите новини често са на маргинални уебсайтове, далеч от мейнстрийма. След като се изчисли ранга на Alexa или популярността на всеки URL адрес на новинарска статия, беше възможно да се разгледа връзката между „страничността“ на уебсайта и кои общности ретуитват тези странични сайтове. В топлинната карта по-долу рангът на Alexa или „крайният резултат“ е претеглен чрез броя на ретуитовете и разпределението на общността по теми е картографирано.

Тук можем да видим, че групата „Amplifier_1“ не само събира най-големия брой споделяния на ретуитове, но също така споделя най-странните уебсайтове. Тъй като се интересуваме от причинно-следствения въпрос дали третирането на фалшивите новини има причинно-следствен ефект върху резултата от броя на ретуитовете, връзката между страничните резултати и статиите с фалшиви новини също представлява интерес.

В този момент стана необходимо да се погледне действителният текст на новинарските статии, за да се помогне по-добре да се класифицират фалшивите новини. Процесът на тематично моделиране на новинарските статии с LDA доведе до това, че пет от седемте теми са изрично фалшиви новинарски статии. Това позволи етикетирането на всеки URL адрес и по този начин всеки туит като фалшива новина или не. Този етикет, извлечен от НЛП, се използва като прокси етикет в настройката на каузалния експеримент, който е описан по-късно. Освен това, за да тествам полезността на алгоритъма за причинно-следствен текст, маркирах и 100 от най-популярните URL адреси за фалшиви новини. Това етикетиране покриваше 18% от набора от данни за туитове и статии и ми даде приблизително 28 000 двойки туитове и статии, които имаха както прокси етикети чрез моделиране на теми, така и истински етикети чрез ръчна анотация. Наличието както на етикети за прокси лечение, така и на истински етикети за лечение позволява сравнителен анализ на алгоритъма за причинно-следствен текст за тази задача. В следващите три раздела ще обсъдя подробностите на алгоритъма за каузален текст и ще представя някои от каузалните понятия, необходими за разбиране на инструмента.

Алгоритъм за причинно-следствен текст

Алгоритъмът за каузален текст, използван в този урок, е създаден от Pryzant et al. (2021), то е въведено като „TEXTCAUSE“ в документ, озаглавен „Причинно-следствени ефекти на лингвистичните свойства“. Този каузален алгоритъм използва друг инструмент - CausalBERT, който първоначално е проектиран от Veitch et al. (2020). CausalBERT е разработен за създаване на текстови вграждания за причинно-следствени изводи; по същество авторите са проектирали начин за използване на езикови модели на AI за коригиране на текст при тестване за причинно-следствена връзка.

Алгоритъмът за причинно-следствен текст има два компонента, първо използва дистанционно наблюдение за подобряване на качеството на прокси етикетите и второ, CausalBERT се използва за коригиране на текста. Призант и др. се опита да формализира причинно-следствения ефект от намерението на писателя, заедно с установяването на предположенията, необходими за идентифициране на причинно-следствения ефект от данните от наблюденията. Друг принос на тази работа е, че те предложиха оценител за тази настройка, където отклонението е ограничено при коригиране за текст.

Наборът от данни VoterFraud2020 представлява данни от наблюдение, при които туитовете са получени без намеса. Тъй като измерването на причинно-следствения ефект изисква изпълнението на допускането при ceteris paribus, при което всички ковариати се поддържат фиксирани, трябва да разсъждаваме относно интервенциите. Призант и др. описват две предизвикателства пред оценката на причинно-следствените ефекти от данните от наблюденията. Първо, има нужда от „формализиране на причинно-следствения ефект на интереса чрез уточняване на хипотетичната намеса, на която той съответства“. (Pryzant et al., 2021). Това предизвикателство се преодолява чрез представяне на интервенция върху писателя на текст, където им се казва да използват различно езиково свойство.

Второто предизвикателство пред причинно-следствените изводи е идентификацията, при която действителното езиково свойство, което ни интересува, може да бъде измерено само чрез шумен прокси (напр. етикети на теми). Следователно проучването също така установи предположенията, необходими за възстановяване на истинските причинно-следствени ефекти на лингвистичните свойства от шумните прокси етикети. Създателите на алгоритъма за причинно-следствен текст се коригират за объркване в текста с CausalBERT и доказват, че този процес ограничава отклонението на причинно-следствените оценки. В моята предишна статия за причинно-следствената връзка и НЛП обсъдих подробно въпроса за объркването поради текст.

Причинно-следствени изводи с данни от наблюдения

Когато се обсъжда причинно-следствено заключение с данни от наблюдения, е необходимо да се говори за средния ефект от лечението (ATE). Както се вижда на изображението по-долу, ATE е разликата в потенциалните резултати между реалния свят (T=1) и съпоставителния свят (T=0). По-рано описах рамката на потенциалните резултати по интуитивен начин в две статии: Причинно-следствени изводи с помощта на NLP и CausalML за иконометрия: причинно-следствени гори.

Въпреки това, както споменахме, ние също сме загрижени за объркването. За справяне с объркващи фактори (W), формулата за настройка на задната врата (Pearl, 2009) може да се използва за пренаписване на ATE по отношение на всички наблюдавани променливи: T за лечение и Y за резултата. Тази смущаваща връзка се вижда на изображението по-долу, където смущаващият фактор W има ефект както върху лечението, така и върху резултата.

Объркващият ефект на W води до фалшива корелация, която може също да се нарече „отворени задни пътеки, които предизвикват непричинно-следствени асоциации“ (Pryzant et al., 2021). По-рано съм обсъждал фалшивите корелации и задните пътища в статия за подобряване на моделите на НЛП с причинно-следствена връзка. Формулата за настройка на задната врата за ATE е показана на изображението по-долу.

Ако приемем, че объркващият фактор W е дискретен, тогава данните могат да бъдат групирани в стойности на W, може да се изчисли средната разлика в потенциалните резултати и накрая, вземаме средната стойност за групите на W .

Призант и др. (2021) предлагат следния причинно-следствен модел на текст и резултати:

Текстът е представен от W, което има лингвистичното свойство T (като лечение) и други качества Z (като ковариати). Тук Z може да бъде темата, настроението, дължината или други качества на даден текст. Този каузален модел е изграден с литературния аргумент, че езикът е предмет на две перспективи: текстът, както е предвиден от автора, и текстът, както е интерпретиран от читателя. Втората перспектива на читателя е показана от T_tilde и Z_tilde — където T_tilde представлява обработката, получена от читателя, а Z_tilde представлява другите качества на текста W, както се възприема от читателя. Резултатът Y се влияе от променливите тилда вместо Z и T директно. Променливата T_hat представлява прокси етикета, получен от текста W, който може да бъде етикет на тема.

Хипотетичната намеса върху лечението е да се поиска от писателя да използва (или да не използва) лингвистично свойство T, където T е двоичен избор. Не е възможно да се използват данни от наблюдения за улавяне на ненаблюдаваните езикови характеристики на Z, тъй като той е свързан с T. Въпреки това е възможно да се оценят езиковите свойства, както се възприемат от читателя, което е представено от променливите тилда. ATE от гледната точка на читателя се определя като:

За да се изчисли причинно-следственият ефект от интереса, ATE от гледната точка на писателя, Pryzant et al. (2021) разработи теорема (теорема 1), която използва ATE от гледната точка на читателя, изчислена от T_tilde. Те дефинират Z_tilde като функция на текста W, както се вижда на изображението по-долу, където потенциалните резултати от Y са еквивалентни, дадени или на W, или на двете T_tilde и Z_tilde.

След като дефинираме Z_tilde като такъв, е възможно да дефинираме ATEᵣₑₐ като следното уравнение:

Казва се, че ATEᵣₑₐ е равен на ATE𝓌ᵣᵢ, а текстът W се разделя на информацията, която читателят използва, за да възприеме променливите тилда. Z_tilde представлява объркващи свойства, тъй като влияе на резултата и е свързан с T_tilde. За да бъде ясно, тази теорема е валидна само при определени допускания, от които има три. Първо, ненаблюдаваното объркване (W) блокира задните пътища между T_tilde и резултата Y. Второ, трябва да приемем, че T = T_tilde, тоест има споразумение за намерение (ATE𝓌ᵣᵢ) и възприятие (ATEᵣₑₐ). Последното предположение е предположението за положителност (или припокриване), което е, че вероятността за лечението е между 0 и 1. Предоставих интуитивно обяснение на предположението за положителност в друга статия за причинно-следствената връзка.

Друго усложнение е, че не можем да наблюдаваме възприятието на читателя, в допълнение към това, че не можем директно да наблюдаваме намерението на писателя; следователно, необходимостта от пълномощници. За T_tilde е възможно да се използва прокси T_hat за изчисляване на причинно-следствения ефект от интерес, където T_tilde се замества с T_hat в предишното уравнение, за да изчислите оценка (ATEₚᵣₒₓᵧ).

В този момент е необходимо да коригирате оценката за объркване, с други думи, да коригирате ATEₚᵣₒₓᵧ за Z_tilde. Това става възможно с помощта на CausalBERT, предварително обучен езиков модел, за измерване на T_hat. Другото предимство на този подход е, че пристрастието, дължащо се на прокси етикета, е ограничено, така че е доброкачествено - „може само да намали величината до ефекта, но няма да промени знака.“. Призант и др. (2021), наричат ​​това теорема 2 и заявяват, че „по-точен прокси ще доведе до по-ниско отклонение на оценката.“.

Причинно-следствена оценка

Сега, след като обсъдихме как да използваме данни от наблюдения за причинно-следствени изводи с текст, практическата част е процедурата за оценка. Алгоритъмът за причинно-следствен текст има две важни характеристики: подобряване на прокси етикетите и настройка за текст. Подходът за подобряване на точността на прокси етикетите се основава на факта, че отклонението е ограничено. Прокси етикетите са подобрени с помощта на дистанционно наблюдение, което е вдъхновено от работата по „въвеждане на лексикон“ и разпространение на етикети. Целта е да се подобри извикването на прокси етикети чрез обучение на класификатор да предсказва прокси етикета, след което да се използва този класификатор за повторно етикетиране на примери, които са етикетирани с T=0, но изглеждат като T=1. По същество етикетите на прокси сървъра се етикетират отново, ако е необходимо.

Втората характеристика на алгоритъма за каузален текст е, че той се настройва за текста, използвайки предварително обучен езиков модел. ATEₚᵣₒₓᵧ се измерва с помощта на текста (W), подобрените прокси етикети (T_hat*) и резултатите (Y). Това разчита на теорема 1, която, както беше описано по-рано, показва как да се коригират за объркващите части от текста. Призант и др. (2021) използват модел DistilBERT, за да създадат представяне на текста с вграждания и след това да изберат вектора, съответстващ на добавен класификационен токен, [CLS]. Pryzant et al. използвайте трансформаторна реализация на Huggingface на DistilBERT, която има 66M параметъра и векторите за корекция на текста M, добавете 3080 параметъра. След това този модел се оптимизира така, че представянето b(W), директно приближава объркващата информация, Z_tilde. Един оценител, Q, е обучен за очаквания условен резултат, както се вижда на изображението по-долу.

В това уравнение е показано, че оценителят Q е еквивалентен на очаквания условен резултат за Y, когато се даде проксито T_hat, което само по себе си се основава не само на лечението, t, но също и моделното представяне на Z_tilde(b(W)) и ковариатите C. Прокси оценителят, Q_hat, е еквивалентен към параметризираната сума на член на отклонение (b) и два вектора (Mᵇₜ,Mᶜₜ), които разчитат на представяне b(W)и вектор c. Векторът c е вектор с „единно горещо кодиране“ на ковариати C, а двете Mₜ се научават за стойност t на лечението. Обучителната цел на този модел е да оптимизира:

В това уравнение 𝛩са всички параметри на модела, а L(.) е загубата на кръстосана ентропия, която се използва със самия оценител Q_hat,въз основа на Mвектори. Оригиналната цел за моделиране на маскиран език на BERT (MLM) е представена като R(.), а хиперпараметърът 𝛼 е наказание за целта на MLM. С оценителя Q_hat параметрите Mᵇₜ и Mᶜₜ се актуализират на примери, където подобреният прокси етикет е еквивалентен на t.

Тази настройка е показана на диаграмата по-долу, където W представлява текста, C представлява ковариатите, а моделът CausalBERT е представяне на текста, така че е възможно да се предвидят потенциалните резултати от Y.

В обобщение, оценката с пълния алгоритъм за каузален текст изисква подобрени прокси етикети и каузален модел на текста и резултатите, който извлича и коригира за объркването на Z_tilde. Алгоритъмът също така позволява включването на ковариати C при оценяване на причинно-следствения ефект. Както се вижда на изображението по-горе, векторът c и представянето на модела b(W) се използват за прогнозиране на потенциалните резултати от Y, докато се използва информация от T_hat*, прокси етикета. Представянето b(W) директно приближава объркващата информация (Z_tilde), което му позволява да се коригира за текста.

След като оценителят Q_hatе монтиран, е възможно да се изчисли hatted ATEₚᵣₒₓᵧ, както се вижда в уравнението по-долу:

ATE, който се извлича с този метод, може да се използва за определяне на причинно-следствения ефект от гледната точка на читателя, който сам по себе си се приема за еквивалентен на причинно-следствения ефект от гледната точка на писателя. Точността на този ATE зависи от това колко точни са прокситата и колко добре CausalBERT се настройва за текста. Следващият раздел описва експерименталната рамка, използвана за тестване на причинно-следствения ефект на фалшивите новини върху броя на ретуитовете.

Експериментална рамка

Причинно-следственият въпрос е дали фалшивите новини имат причинно-следствен ефект върху броя на ретуитовете. Преди няколко години едно „много популярно проучване в Science“ твърди, че в социалните медии фалшивите новини се разпространяват по-бързо от истинските. Това проучване обаче не разчита на причинно-следствен анализ. Има възможност резултатите да са базирани на фалшиви корелации между объркващите фактори и броя на ретуитовете. Например, общността, към която принадлежи потребителят, не беше разследвана, нито пък популярността на новинарския сайт. Някои общности може да са по-уязвими към разпространение на фалшиви новини и хората може да са по-склонни да споделят популярни новинарски сайтове. Освен това езикът е сложен и текстът на туитовете може да действа като объркващ фактор, така че трябва да контролираме темата, стила на писане, тона и дължината на туита. Следователно има стойност в проектирането на причинно-следствено проучване, при което възможните объркващи фактори се контролират, а самият текст на туит се коригира за объркващи качества.

Както бе споменато по-рано, има две предизвикателства пред оценката на причинно-следствените ефекти от данните от наблюденията: интервенции и идентификация. Първо, трябва да разсъждаваме относно хипотетичната намеса, която бихме направили върху намерението на писателя, така че той да използва (или да не използва) определено езиково свойство. Необходимо е да се мисли за споделянето на фалшиви новини като за лингвистично свойство, което представлява намерението на автора, тогава може да бъде лечение, T, върху което може да се намеси. По-просто казано, ние разглеждаме споделянето на URL адрес, който препраща към фалшиви новини, като лингвистично свойство, където намесата би била да кажем на потребителя да сподели истинска новинарска статия (T=0) вместо фалшива новинарска статия (T=1 ). Докато се намесва в това лечение, останалите качества на туита трябва да се поддържат постоянни. Ще наричаме тези други качества на текста Z, така че Z представлява потенциални объркващи фактори като тема, стил, тон или дължина. Текстът на туита ще бъде наричан W (или просто „текст“), а допълнителни ковариати, като потребителска общност или ранг на Alexa, ще бъдат обозначени като C. Тази настройка е показана на изображението по-долу.

Прокси обработката е етикет за фалшиви новини, както е определено от тематичното моделиране на статиите с LDA. Тъй като наборът от данни има златни етикети за статиите с фалшиви новини, има две променливи за лечение (T_true и T_proxy), така че да е възможно да се направи сравнителен анализ на T_proxy срещу T_true. И накрая, резултатът Y е броят на ретуитовете. За първи тест променливата C е категорична, където се използва число за представяне на потребителската общност. Всички останали променливи, с изключение на текста, са двоични числови показатели (0 или 1). За втори тест рангът на Alexa се използва като ковариант C и ние разглеждаме конкретно една общност: „Amplifiers_1“. В този тест рангът на Alexa за всеки url се превръща в категорична променлива чрез групиране на стойностите по квантил. Следващият раздел описва как адаптирах алгоритъма за причинно-следствен текст за този урок и обяснява как да тълкувам резултатите.

Оценяване на причинно-следствения ефект

Призант и др. (2021 г.) сподели „алгоритъма за причинно-следствен текст“ в GitHub, който използва „имплементация на Pytorch на CausalBERT“. За този урок беше необходимо да се адаптира оригиналният пакет с каузален текст, тъй като той беше специално пригоден за каузалните експерименти, описани в уводния документ. Освен това не изглежда да се поддържа (актуализира) от авторите, така че трябваше да актуализирам изискванията. Също така опростих изхода и премахнах страничните симулационни части, които не бяха необходими за този урок. Останалите промени бяха незначителни и бяха направени в процеса на отстраняване на грешки. Като цяло направих много малко промени в оригиналния алгоритъм, моята адаптация може да бъде «достъпна в GitHub. Ако намирате този алгоритъм за полезен, моля, маркирайте оригиналното хранилище на Pryzant et al. за „алгоритъма за причинно-следствен текст“.

Инструментът работи от командния ред и предлагам да го стартирате с GPU, за да използвате скоростта за дълбоко обучение. Тук обяснявам как да настроя Colab (за да използвам безплатния GPU екземпляр) и да стартирам алгоритъма за причинно-следствен текст. Първо обаче, данните трябва да са в правилния формат. Инструментът приема „.tsv“ файл с пет колони за пет променливи: T_proxy, T_true, C, Y, текст. Ковариатите C трябва да бъдат категорични и представени от прости цели числа. Променливите T_proxy, T_true и резултат, Y, трябва да бъдат двоични числови индикатори (0 или 1). „Текстът“ е просто текстът на туит. Адаптираният алгоритъм за причинно-следствен текст произвежда седем различни стойности на ATE резултат.

Използвайки етикета T_true, алгоритъмът за каузален текст изчислява ATE стойност на „оракул“; това може да се разглежда като истинската ATE, която ще действа като базова линия. След това се изчислява „некоригирана“ стойност на ATE като допълнителна базова линия, където ATE е очакваната разлика в резултатите, обусловена от T_hatбез отчитане на ковариати. Следващите две стойности са стойности на ATE „T-boost“, където T-boost се отнася за усилване на лечението чрез подобряване на прокси етикетите. Прокси етикетите се подобряват по два начина от два различни класификатора. Единият класификатор работи само с положителни и немаркирани данни, докато другият е директна регресия, по-специално класификаторът за стохастичен градиент на спускане на Sci-kit Learn. Следващата ATE стойност е тази, за която текстът е коригиран, това е стойността „W adjust“. Последните две стойности на ATE съчетават T-повдигането с корекция на текста за една стойност на ATE за тип класификатор. Тези две последни стойности представляват пълния алгоритъм „TEXTCAUSE“, проектиран от Pryzant et al. (2021 г.).

Първата стъпка е да инсталирате необходимите пакети в Colab. Това се прави със следния един ред код:

!pip install sklearn transformers tensorflow

След това проверяваме дали GPU е наличен.

import torch
if torch.cuda.is_available():
   device = torch.device("cuda")
   print('There are %d GPU(s) available.' %       torch.cuda.device_count())
   print('We will use the GPU:', torch.cuda.get_device_name(0))
   !nvidia-smi
else:
   print('No GPU available, using the CPU instead.')
   device = torch.device("cpu")

Файлът „.tsv“ с данните трябва да бъде записан в Google Drive за лесен достъп. Просто монтираме устройството, за да получим достъп до файловете.

from google.colab import drive
drive.mount('/content/gdrive')

След това отиваме до папката, в която са запазени данните.

%cd gdrive/My Drive/my_folder

След това клонираме адаптираното репо за алгоритъма за причинно-следствен текст от GitHub.

!git clone https://github.com/haayanau/causal-text.git

След като пакетът с каузален текст бъде клониран, е необходимо да отидете до директорията, където се намира основният скрипт.

%cd causal-text/src

Изпълнението на алгоритъма е много просто, изпълнете следната команда с пътя, водещ до файла „.tsv“. Аргументът „run_cb“ означава, че CausalBERT ще се използва за коригиране на текста. Моделите се обучават за по 3 епохи.

!python main.py --run_cb --data /content/gdrive/MyDrive/my_folder/my_data.tsv

Тази команда води до седем вида ATE стойности, както е описано по-рано. Pryzant et al. (2021) предупреждават, че „оценките на ATE губят вярност, когато проксито е по-малко от 80% точно“. Те също така твърдят, че е от решаващо значение да се коригират объркващите части от текста и че оценките, които отчитат C без коригиране на текста, може да са по-лоши от некоригираната оценка. Следващият раздел обсъжда накратко резултатите от двата експеримента и предлага някои разширения.

Резултати и разширения

За първия тест разглеждаме ATE на фалшивите новини (T) при броя на ретуитовете (Y), като потребителската общност (C) и текстът на туитовете са объркващи. Има 15 468 наблюдения и резултатите са показани по-долу.

Истинската (оракулска) стойност на ATE предполага, че практически няма причинно-следствен ефект, което е в противоречие с общоприетото очакване, че фалшивите новини се разпространяват по-бързо от истинските новини и биха събрали по-висок брой ретуитове. Некоригираната стойност на ATE също не показва причинно-следствен ефект, въпреки че не отчита ковариата C. По отношение на съвпадението с истинската стойност на ATE, (W коригиране) ATE, което коригира за текст с CausalBERT, е най-близко. Нито една от стойностите от пълния алгоритъм „TEXTCAUSE“ (коригира за текст и подобрява етикетите) не е толкова близка до истинската ATE, колкото стойността за коригиране на W, която не използва подобрените етикети.

Вторият тест разглежда само общността „Amplifiers_1“ и отчита ранга на Alexa като потенциално объркваща ковариата. Има 1485 наблюдения и резултатите са показани по-долу.

Тук отново не изглежда да има причинно-следствен ефект от фалшивите новини върху броя на ретуитовете, след като контролираме ранга на Alexa. Истинската (оракулска) стойност на ATE е леко отрицателна и пълната версия на алгоритъма „TEXTCAUSE“, който използва класификатора „pu“ за T-усилване, произвежда ATE, който най-много съответства на истинската стойност. Тази повишена стойност на лечението (TextCause pu) не само включва подобрени прокси етикети, но също така се коригира за текста с CausalBERT. Некоригираният ATE имаше най-лошото представяне, но всички други стойности на ATE имаха подобно лошо представяне.

Има голяма вероятност да има ненаблюдавани объркващи фактори, които не са били контролирани в този експеримент. Това може да обясни липсата на открит причинен ефект или обратното, просто няма причинно-следствен ефект. На този етап не сме доказали, че има причинно-следствен ефект от фалшивите новини върху броя на ретуитовете, нито сме доказали окончателно, че няма причинно-следствен ефект. Всичко, което направихме, е да поставим под въпрос предположението, популярно от изследователите, че фалшивите новини се разпространяват по-бързо от истинските в социалните медии. Възможно е включването на допълнителни ковариати да подобри експеримента, но ще бъде трудно да се определи кои ковариати да се включат. Има също така възможност размерите на извадката да не са достатъчно големи, особено за втория тест, където имаше само 1485 наблюдения.

Има няколко разширения, които можем да приложим. Започвайки с първия тест, бихме могли да заменим общността на потребителите с ранг на Alexa за ковариата, C. За втория тест, бихме могли да увеличим размера на извадката или дори да сравним между общностите. Би било полезно, ако алгоритъмът за каузален текст може да побере повече от една ковариата (по-висока размерност). Още по-полезно би било, ако алгоритъмът на причинно-следствения текст може да се справи с разнородни ефекти от лечението и да изчисли условния среден ефект от лечението (CATE). Например бихме могли да обусловим потребителската общност, за да видим дали има разлика в CATE в групите.

Последни мисли

Пресечната точка на причинно-следствените изводи и НЛП е завладяваща, а алгоритъмът за причинно-следствен текст е чудесен пример за креативност и инициатива. Надявам се, че това изследване ще продължи да разширява границите на възможното по отношение на методите за оценка на причинно-следствен ефект с текст. По отношение на приложението, алгоритъмът на причинно-следствения текст може да се приложи в различни области като икономика, здравеопазване, маркетинг, обществена политика и дори епидемиология. Има промяна в мисленето около феномена на фалшивите новини, например има „призиви да се третира въпросът като проблем на общественото здраве“ („Донован, 2020“). СЗО е възприела епидемиологичен подход и нарича инцидентите с фалшиви новини „инфодемии“. Всички тези промени предполагат, че може би е време да възприемем причинно-следствен подход към дезинформацията. Изследването на причинно-следствената връзка може да бъде начин за разработване на рамка, вдъхновена от икономиката, за разглеждане на причинно-следствения ефект от дезинформацията върху обществото („Семинар за истинските разходи за дезинформация, TaSC, Shorenstein Center“). Лично аз се интересувам от прилагането на този метод към икономически изследвания, които използват данни от социални медии с отворен код.

Приветствам въпроси и отзиви, моля не се колебайте да се свържете с мен в Linkedin.