Причинно-следственный вывод на основе текста

Практические уроки

Причинно-следственная связь на основе текста

Учебное пособие по анализу дезинформации о мошенничестве избирателей путем оценки причинно-следственной связи с использованием текста в качестве обработки и искажения

Научная фантастика говорит нам, что необузданная дезинформация является предвестником скатывания общества в антиутопию. Можно утверждать, что дезинформация дестабилизирует демократию (Морган 2018, Фаркас и Шоу 2019). Ощутимо, что люди, пренебрегающие медицинскими показаниями, негативно сказываются на общественном здоровье. Например, люди, которые готовы игнорировать доказательства, могут отказаться от вакцин и тем самым поставить под угрозу жизнь других и свою собственную. Следует быть осторожным, потому что научная дезинформация широко распространена, но трудно привлечь людей к ответственности, когда доступ к достоверным новостным материалам искажается потоком фальшивых новостей. Более коварная форма дезинформации — это подрыв реальности для части населения; тип массовой истерии, которая захватывает когнитивно уязвимых в альтернативную реальность. Я говорю о сюрреалистичных заявлениях о фальсификации результатов голосования на последних американских выборах, когда лизоблюды Трампа отказывались признать, что он проиграл выборы. Фейковые новости о фальсификациях на выборах оказали бесспорно зажигательное влияние на последующее восстание 6 января, трагическое событие, которое вопило антиутопическое общество.

Ханна Арендт, политический философ, утверждала, что людям необходимо заниматься политикой как частью хорошей жизни. В Состоянии человека Арендт говорит, что недостаточно работать и проводить время с теми, кого любишь, нужно еще заниматься политической жизнью (Арендт, 1958). Есть много американцев, которые следуют этому духу и занимаются политикой; рассматривая это как свое право и обязанность как гражданина. К сожалению, некоторые из них подвержены ошибочному мышлению и становятся жертвами причудливых заговоров, таких как QAnon. В Сетевой пропаганде Бенклера, Фэриса и Робертса авторы утверждают, что петля обратной связи пропаганды отчасти подпитывается желанием людей избежать когнитивного дискомфорта. Другими словами, люди будут искать информацию, которая подкрепляет их мировоззрение, игнорируя или игнорируя доказательства обратного. В эпидемиологическом смысле фальшивые новости действуют как переносчик болезни, распространяя опасную дезинформацию и насыщая общественную сферу противоречивыми сообщениями, из-за которых почти невозможно установить истину.

Но какое отношение политика имеет к науке о данных? Как исследователь, заинтересованный в дезинформации, я, естественно, стремлюсь использовать инструменты науки о данных для ответа на вопросы, представляющие общественный и политический интерес. Непосредственный интерес представляет понимание связи между социальными сетями и фейковыми новостями. Есть утверждения, что токсичная природа социальных сетей, которая обусловлена шокирующей ценностью и голосованием, влияет на распространение фейковых новостей. В частности, глядя на Твиттер, я задаюсь вопросом, оказывают ли фейковые новости причинное влияние на результат подсчета ретвитов. Приводит ли распространение фейковых новостей к большему количеству ретвитов? Этот урок является результатом моей попытки ответить на этот вопрос и является продолжением предыдущей статьи о причинно-следственном выводе с использованием НЛП.

В этой статье для оценки причинно-следственных связей с помощью текста я использую набор данных Twitter VoterFraud2020, подготовленный Jacobs Technion — Cornell Institute. Этот набор данных был сделан исследователями общедоступным и опубликован на этой панели, оригинальная статья приписывается Abilov et al. (2021). Я начинаю с обсуждения данных и описания предварительного анализа. Далее я представляю каузально-текстовый алгоритм и прохожу соответствующее исследование каузальных эффектов лингвистических свойств (Призант, 2021). Кроме того, я привожу рекомендации по использованию данных наблюдений для каузального вывода и подробно описываю процедуру оценки алгоритма каузального текста. После этого я излагаю основу для каузального эксперимента, который ведет непосредственно к учебнику о том, как настроить и использовать инструмент каузального текста (который я развил и адаптировал из исходного репозитория). Я также расскажу о шагах, необходимых для решения предложенного каузального вопроса с помощью алгоритма каузального текста. Наконец, я кратко обсуждаю результаты и рассматриваю возможные расширения.

Описание данных

Набор данных Cornell VoterFraud2020 Twitter с открытым исходным кодом содержит 7,6 млн твитов и 25,6 млн ретвитов от 2,6 млн пользователей, и все они связаны с заявлениями о мошенничестве на выборах в период с 23 октября 2020 г. по 16 декабря 2020 г. В соответствии с политикой конфиденциальности Twitter только идентификаторы твитов и идентификаторы пользователей являются общими; однако репозиторий GitHub для набора данных включает сценарии для гидратации данных. Для этого эксперимента я сосредоточился только на 7,6 млн исходных твитов. После того, как твиты были собраны, необходимо было выполнить некоторую предварительную обработку, чтобы очистить текст твита и извлечь URL-адреса. Все URL-адреса были в сокращенном формате Twitter t.co, поэтому их нужно было разрешить. Чтобы лучше понять популярность разрешенных URL-адресов, каждому URL-адресу был присвоен рейтинг Alexa на основе анализа статистики веб-трафика, проведенного Amazon.

Media Cloud — это инструмент анализа медиаконтента с открытым исходным кодом, разработанный Центром Беркмана Кляйна по изучению Интернета и общества Гарвардского университета. Эта платформа имеет кураторские списки источников для американских СМИ, разделенных по политической принадлежности, охватывающих левых, левоцентристских, центристских, правоцентристских и правых. Используя эти списки источников новостей США, я сопоставил URL-адреса, полученные из набора данных твитов о мошенничестве избирателей. Это выбрано для URL-адресов, которые связаны конкретно с новостными статьями. Media Cloud обладает большими исследовательскими возможностями для новостных СМИ, поэтому я смог использовать запросы Media Cloud, чтобы определить количество медиа-ссылок в ссылках и количество репостов изолированных статей в Facebook. В дополнение к метаданным этой статьи я скопировал полный текст всех новостных статей, которые в то время все еще были онлайн.

Эти шаги дали мне комбинированный набор данных исходных твитов, в которых были опубликованы новостные статьи, с полным текстом новостных статей, метаданными статей, метаданными твитов и рейтингом Alexa для URL-адресов. Чтобы было ясно, набор данных из 7,6 млн твитов был урезан таким образом, что у каждого твита была соответствующая новостная статья. Цель сбора полного текста статей состояла в том, чтобы выполнить тематическое моделирование с помощью скрытого распределения Дирихле (LDA), чтобы увидеть, можно ли изолировать статьи с фейковыми новостями. Кроме того, набор данных VoterFraud2020 о 2,6 млн пользователей также содержал сообщества или кластеры каждого пользователя, определенные алгоритмом обнаружения сообщества (например, метод Лувена). Учитывая множественные потоки данных и богатство результирующего набора данных твитов и статей, необходимо было провести некоторый предварительный анализ, который рассматривается далее.

Предварительный анализ

Во-первых, учитывая сами твиты, текст твитов может иметь значение для выявления фейковых новостей. Поэтому я начал с тематического моделирования текста твита с помощью LDA, чтобы получить общее представление о содержании дискурса в Твиттере.

Результаты модели LDA выявили несколько тем, которые явно касались аспектов разговора о дезинформации о мошенничестве избирателей. Например, одна заметная тема, которая была изолирована от других тем, касалась хэштега альтернативных правых «#stopthesteal». Также примечательной была такая же изолированная тема проверки фактов Wall Street Journal и New York Times. Интересно, что твиты, в которых утверждалось, что есть доказательства мошенничества, сильно перекликались с твитами из правых источников новостей, таких как Fox News. В целом существует несколько потоков дезинформации, начиная от сбора бюллетеней, заговоров о программном обеспечении для голосования, письменных показаний, подтверждающих мошенничество, и слухов о причастности военных.

Анализ сообществ пользователей с помощью алгоритма обнаружения сообществ позволил выделить 5 отдельных сообществ с разным количеством пользователей, как показано ниже.

Группы усилителя были теми, кто продвигал программу мошенничества на выборах, а иностранные группы представляют потенциальное иностранное влияние и крошечны по сравнению с ними.

Сосредоточившись на распространении фейковых новостей, эти пять сообществ по-разному вели себя, когда дело дошло до обмена URL-адресами новостных статей. Метаданные Media Cloud содержали количество ссылок на медиа, которое представляет собой количество ссылок на статью из других медиаисточников. Статью с большим количеством ссылок можно считать более популярной. На приведенном ниже графике показана динамика количества ссылок в СМИ в течение времени для трех крупнейших сообществ.

Приведенный выше временной ряд показывает, что левоцентристское сообщество, как правило, делилось статьями, которые были более «мейнстримными», по сравнению с двумя сообществами усилителей. Хотя левоцентристское сообщество с большей вероятностью делилось популярными статьями, они не набрали большого количества ретвитов. Это показано ниже во временном ряду среднего количества ретвитов по сообществу.

Фактически, это третье по величине сообщество «Усилители_1», которое имеет наибольшее количество ретвитов для общих URL-адресов, несмотря на то, что оно составляет всего 11,5% пользователей. Беспокойство здесь заключается в том, что, даже если левоцентристы пытались проверить тех, кто распространяет фальшивые новости о мошенничестве на выборах, они не получили должного внимания в Твиттере. Также поразительно осознавать, что относительно небольшая группа «Усилители_1» оказала большое влияние на распространение информации, несмотря на то, что не делилась основными средствами массовой информации.

Принято считать, что фейковые новости часто появляются на второстепенных веб-сайтах, далеких от мейнстрима. Рассчитав рейтинг Alexa или популярность URL-адреса каждой новостной статьи, можно было посмотреть на взаимосвязь между «необычным» веб-сайтом и тем, какие сообщества ретвитят эти второстепенные сайты. На приведенной ниже тепловой карте рейтинг Alexa или «базовый балл» взвешивается по количеству ретвитов, а распределение сообщества по темам отображается на карте.

Здесь мы видим, что группа «Усилитель_1» не только набирает наибольшее количество ретвитов, но и имеет наибольшее количество второстепенных веб-сайтов. Поскольку нас интересует причинно-следственный вопрос о том, оказывает ли обработка фейковых новостей причинно-следственный эффект на результат подсчета ретвитов, также представляет интерес взаимосвязь между дополнительными оценками и фейковыми новостными статьями.

В этот момент стало необходимо смотреть на фактический текст новостных статей, чтобы лучше классифицировать фейковые новости. Процесс моделирования тем новостных статей с помощью LDA привел к тому, что пять из семи тем оказались откровенно поддельными новостными статьями. Это позволяло помечать каждый URL-адрес и, следовательно, каждый твит как поддельные новости или нет. Эта производная от НЛП метка используется в качестве прокси-метки в настройке каузального эксперимента, который будет описан ниже. Кроме того, чтобы проверить полезность алгоритма каузального текста, я также пометил 100 самых популярных URL-адресов для фейковых новостей. Эта маркировка покрывала 18% набора данных твит-статья и дала мне примерно 28 000 пар твит-статья, которые имели как прокси-метки с помощью тематического моделирования, так и настоящие метки с помощью ручного аннотирования. Наличие как прокси-меток обработки, так и истинных меток обработки позволяет оценить алгоритм причинно-следственного текста для этой задачи. В следующих трех разделах я буду обсуждать детали алгоритма каузального текста и вводить некоторые каузальные концепции, необходимые для понимания этого инструмента.

Алгоритм каузального текста

Алгоритм каузального текста, используемый в этом руководстве, был создан Pryzant et al. (2021), он был представлен как TEXTCAUSE в статье Причинные эффекты лингвистических свойств. Этот каузальный алгоритм использует другой инструмент — CausalBERT, изначально разработанный Veitch et al. (2020). CausalBERT был разработан для создания вложений текста для причинно-следственного вывода; по сути, авторы разработали способ использования языковых моделей ИИ для корректировки текста при проверке на причинно-следственную связь.

Алгоритм каузального текста состоит из двух компонентов: во-первых, он использует дистанционное наблюдение для улучшения качества прокси-меток, а во-вторых, CausalBERT используется для корректировки текста. Призант и др. попытался формализовать причинный эффект намерения писателя, а также установил предположения, необходимые для выявления причинного эффекта на основе данных наблюдений. Еще одним вкладом этой работы является то, что они предложили оценщик для этой настройки, где смещение ограничено при корректировке текста.

Набор данных VoterFraud2020 представляет собой данные наблюдений, где твиты были получены без вмешательства. Поскольку измерение причинного эффекта требует выполнения предположения при прочих равных условиях, когда все ковариаты остаются фиксированными, мы должны рассуждать о вмешательствах. Призант и др. опишите две проблемы, связанные с оценкой причинных эффектов на основе данных наблюдений. Во-первых, необходимо формализировать интересующий причинный эффект, указав гипотетическое вмешательство, которому он соответствует. (Призант и др., 2021). Эта проблема преодолевается путем представления вмешательства в автор текста, когда им предлагается использовать другое лингвистическое свойство.

Второй проблемой для причинно-следственного вывода является идентификация, когда фактическое лингвистическое свойство, которое нас интересует, может быть измерено только зашумленным прокси (например, ярлыками темы). Таким образом, исследование также установило предположения, необходимые для восстановления истинных причинно-следственных эффектов лингвистических свойств от зашумленных прокси-меток. Создатели алгоритма каузального текста корректируют путаницу в тексте с помощью CausalBERT и доказывают, что этот процесс ограничивает погрешность каузальных оценок. В моей предыдущей статье о каузальности и НЛП я подробно обсуждал проблему путаницы из-за текста.

Причинно-следственная связь с данными наблюдений

При обсуждении причинно-следственной связи с данными наблюдений необходимо говорить о среднем эффекте лечения (ATE). Как видно на изображении ниже, ATE — это разница в потенциальных результатах между реальным миром (T = 1) и вымышленным миром (T = 0). Ранее я интуитивно описывал структуру потенциальных результатов в двух статьях: Причинный вывод с использованием НЛП и CausalML для эконометрики: каузальные леса.

Однако, как уже упоминалось, нас также беспокоит путаница. Чтобы справиться с искажающими факторами (Wᵢ), можно использовать формулу корректировки бэкдора (Pearl, 2009), чтобы переписать ATE с точки зрения всех наблюдаемых переменных: Tᵢ для лечения и Yᵢ для результата. Эта смешанная связь видна на изображении ниже, где вмешивающийся фактор Wᵢ влияет как на лечение, так и на результат.

Вмешивающийся эффект Wᵢ приводит к ложной корреляции, которую также можно обозначить как открытые лазейки, вызывающие некаузальные ассоциации (Pryzant et al., 2021). Ранее я обсуждал ложные корреляции и обходные пути в статье об улучшении моделей НЛП с помощью причинно-следственных связей. Формула корректировки бэкдора для ATE показана на изображении ниже.

Если мы предположим, что вмешивающийся фактор Wᵢ является дискретным, то данные можно сгруппировать по значениям W, можно рассчитать среднюю разницу в потенциальных результатах и, наконец, мы возьмем среднее значение по группам W. .

Призант и др. (2021) предлагают следующую каузальную модель текста и исходов:

Текст представлен W, который имеет лингвистическое свойство T (как обработка) и другие качества Z (как ковариаты). Здесь Z может быть темой, настроением, длиной или другими качествами текста. Эта каузальная модель построена на литературном аргументе, согласно которому язык подчиняется двум точкам зрения: тексту, задуманному автором, и тексту, интерпретируемому читателем. Вторая перспектива читателя показана T_tilde и Z_tilde, где T_tilde представляет обращение, полученное читателем, а Z_tilde представляет другие качества текста W, воспринимаемые читателем. На результат Y влияют переменные с тильдой, а не напрямую Z и T. Переменная T_hat представляет метку прокси, полученную из текста W, который может быть меткой темы.

Гипотетическое вмешательство в обработку состоит в том, чтобы попросить автора использовать (или не использовать) лингвистическое свойство Т, где Т — бинарный выбор. Невозможно использовать данные наблюдений для фиксации ненаблюдаемых лингвистических характеристик Z, потому что они коррелируют с T. Однако можно оценить лингвистические свойства так, как их воспринимает читатель, что представлено переменными с тильдой. ATE точки зрения читателя определяется как:

Чтобы рассчитать причинно-следственный эффект интереса, ATE точки зрения автора, Pryzant et al. (2021) разработал теорему (теорема 1), которая использовала ATE точки зрения читателя, рассчитанную по T_tilde. Они определяют Z_tilde как функцию текста W, как показано на изображении ниже, где потенциальные результаты Y эквивалентны при условии W или обоих T_tilde и Z_тильда.

Определив Z_tilde как таковую, можно определить ATEᵣₑₐ как следующее уравнение:

Говорят, что ATEᵣₑₐ равен ATE𝓌ᵣᵢ, а текст W разбивается на информацию, которую читатель использует для восприятия переменных тильды. Z_tilde представляет смешанные свойства, поскольку влияет на результат и коррелирует с T_tilde. Чтобы было ясно, эта теорема верна только при определенных предположениях, которых три. Во-первых, ненаблюдаемое смешение (W) блокирует лазейки между T_tilde и результатом Y. Во-вторых, нам нужно предположить, что T = T_tilde, то есть существует соглашение о намерениях (ATE𝓌ᵣᵢ) и восприятии (ATEᵣₑₐ). Последнее допущение — это допущение о положительности (или перекрытии), которое заключается в том, что вероятность лечения находится в диапазоне от 0 до 1. Я представил интуитивное объяснение допущения о положительности в другой статье о причинно-следственных связях.

Еще одна сложность заключается в том, что мы не можем наблюдать за восприятием читателя, в дополнение к тому, что мы не можем непосредственно наблюдать за намерением автора; следовательно, необходимость в прокси. Для T_tilde можно использовать прокси T_hat для расчета интересующего причинно-следственного эффекта, где T_tilde заменяется на T_hat в предыдущем уравнении для расчета оценки (ATEₚᵣₒₓᵧ).

На этом этапе необходимо настроить оценку для смешения, другими словами, настроить ATEₚᵣₒₓᵧ для Z_tilde. Это стало возможным благодаря предварительно обученной языковой модели CausalBERT для измерения T_hat. Другое преимущество этого подхода заключается в том, что смещение из-за прокси-лейбла ограничено, так что оно безвредно — он может только уменьшить величину эффекта, но не изменит знак. Призант и др. (2021), ссылайтесь на это как на теорему 2 и заявляйте, что более точный прокси даст меньшее смещение оценки.

Причинная оценка

Теперь, когда мы обсудили, как использовать данные наблюдений для причинно-следственной связи с текстом, практическая часть — это процедура оценки. Алгоритм каузального текста имеет две важные особенности: улучшение прокси-меток и корректировку текста. Подход к повышению точности прокси-меток основан на том факте, что смещение ограничено. Прокси-метки улучшаются с помощью удаленного наблюдения, которое было вдохновлено работой по индукции лексики и распространению меток. Цель состоит в том, чтобы улучшить отзыв прокси-меток, обучив классификатор предсказывать прокси-метку, а затем использовать этот классификатор для перемаркировки примеров, которые были помечены T = 0, но выглядят как T = 1. По сути, метки прокси при необходимости перемаркируются.

Вторая особенность алгоритма каузального текста заключается в том, что он подстраивается под текст с использованием предварительно обученной языковой модели. ATEₚᵣₒₓᵧ измеряется с помощью текста (W), улучшенных меток прокси (T_hat*) и результатов (Y). Это основано на теореме 1, которая, как описано ранее, показывает, как корректировать смешанные части текста. Призант и др. (2021) используют модель DistilBERT для создания представления текста с вложениями, а затем выбирают вектор, соответствующий добавленному классификационному токену [CLS]. Призант и др. используйте реализацию преобразователей Huggingface для DistilBERT, которая имеет 66 миллионов параметров, и векторы для корректировки текста Mₜ, добавьте 3080 параметров. Затем эта модель оптимизируется таким образом, что представление b(W) непосредственно аппроксимирует искажающую информацию Z_tilde. Оценщик Q обучен ожидаемому условному результату, как показано на изображении ниже.

В этом уравнении показано, что оценщик Q эквивалентен ожидаемому условному результату для Y при заданном прокси T_hat, который сам по себе основан не только на обработке, t, но также и модельное представление Z_tilde(b(W)), и ковариаты C. Прокси-оценка, Q_hat, эквивалентна к параметризованной сумме члена смещения (b) и двух векторов (Mᵇₜ,Mᶜₜ ), которые основаны на представлении b(W)и вектор c. Вектор c представляет собой вектор горячего кодирования ковариат C, а два Mₜ изучаются для значения t обработки. Целью обучения этой модели является оптимизация:

В этом уравнении 𝛩 — это все параметры модели, а L(.) — потери кросс-энтропии, которые используются с оценкой Q_hat, основанной на Мₜвекторы. Исходная цель моделирования маскированного языка BERT (MLM) представлена как R (.), а гиперпараметр 𝛼 является штрафом для цели MLM. С помощью средства оценки Q_hat параметры Mᵇₜ и Mᶜₜ обновляются в примерах, где улучшенная метка прокси эквивалентна t.

Эта установка показана на диаграмме ниже, где W представляет текст, C представляет ковариаты, а модель CausalBERT представляет собой представление текста, позволяющее предсказать потенциальные результаты Y.

Таким образом, оценка с помощью алгоритма полного причинно-следственного текста требует улучшенных прокси-меток и причинно-следственной модели текста и результатов, которая извлекает и корректирует смешение Z_tilde. Алгоритм также позволяет включать ковариаты C при оценке причинного эффекта. Как видно на изображении выше, вектор c и представление модели b(W) используются для прогнозирования потенциальных результатов Y при использовании информация из T_hat*, метки прокси. Представление b(W) непосредственно аппроксимирует искажающую информацию (Z_tilde), что позволяет подстраиваться под текст.

После того, как оценщик Q_hat установлен, можно рассчитать ATEₚᵣₒₓᵧ со шляпой, как показано в приведенном ниже уравнении:

ATE, полученный с помощью этого метода, можно использовать для определения причинного эффекта точки зрения читателя, который сам по себе считается эквивалентным причинному эффекту точки зрения писателя. Точность этого ATE зависит от того, насколько точны прокси и насколько хорошо CausalBERT подстраивается под текст. В следующем разделе описывается экспериментальная структура, используемая для проверки причинного влияния фальшивых новостей на количество ретвитов.

Экспериментальная структура

Причинный вопрос заключается в том, влияют ли фейковые новости на количество ретвитов. Несколько лет назад очень популярное исследование в науке утверждало, что в социальных сетях фейковые новости распространяются быстрее, чем настоящие. Это исследование, однако, не опирается на причинно-следственный анализ. Есть вероятность, что результаты были основаны на ложных корреляциях между искажающими факторами и количеством ретвитов. Например, ни сообщество, к которому принадлежал пользователь, ни популярность новостного сайта не исследовались. Некоторые сообщества могут быть более уязвимы для распространения фальшивых новостей, и люди могут с большей вероятностью делиться популярными новостными сайтами. Более того, язык сложен, и текст твитов может сбивать с толку, поэтому нам нужно контролировать тему, стиль написания, тон и длину твита. Поэтому имеет смысл разработать причинно-следственное исследование, в котором контролируются возможные искажающие факторы, а сам текст твита корректируется с учетом искажающих качеств.

Как упоминалось ранее, при оценке причинных эффектов на основе данных наблюдений возникают две проблемы: вмешательство и идентификация. Во-первых, нам нужно рассуждать о гипотетическом вмешательстве, которое мы могли бы сделать в намерения автора, чтобы он использовал (или не использовал) конкретное лингвистическое свойство. Необходимо думать о распространении фальшивых новостей как о лингвистическом свойстве, которое представляет намерение автора, тогда это может быть обработка, Т, на которую можно вмешаться. Проще говоря, мы рассматриваем совместное использование URL-адреса, который ссылается на поддельные новости, как лингвистическое свойство, где вмешательство будет заключаться в том, чтобы сообщить пользователю поделиться настоящей новостной статьей (T = 0), а не поддельной новостной статьей (T = 1). ). При вмешательстве в эту обработку остальные качества твита должны оставаться постоянными. Мы будем ссылаться на эти другие качества текста как на Z, так что Z представляет собой потенциальные смешанные факторы, такие как тема, стиль, тон или длина. Текст твита будет обозначаться как W (или просто «текст»), а дополнительные ковариаты, такие как сообщество пользователей или рейтинг Alexa, будут обозначаться как C. Эта настройка показана на изображении ниже.

Прокси-обработка — это ярлык фальшивых новостей, что определяется моделированием темы статей с помощью LDA. Поскольку в наборе данных есть золотые метки для поддельных новостных статей, есть две переменные обработки (T_true и T_proxy), чтобы можно было сравнить T_proxy против T_true. Наконец, результатом Y является количество ретвитов. Для первого теста переменная C является категориальной, где число используется для представления сообщества пользователей. Все остальные переменные, кроме текста, являются двоичными числовыми индикаторами (0 или 1). Во втором тесте рейтинг Alexa используется в качестве ковариации C, и мы рассматриваем отдельное сообщество: «Усилители_1». В этом тесте рейтинг Alexa для каждого URL-адреса превращается в категориальную переменную путем объединения значений по квантилям. В следующем разделе подробно рассказывается, как я адаптировал алгоритм каузального текста для этого руководства, и объясняется, как интерпретировать результаты.

Оценка причинного эффекта

Призант и др. (2021) поделился «алгоритмом каузального текста на GitHub, в котором использовалась реализация CausalBERT от Pytorch. Для этого руководства необходимо было адаптировать исходный пакет каузального текста, поскольку он был специально адаптирован для каузальных экспериментов, описанных во вводной статье. Кроме того, похоже, что авторы не поддерживают (не обновляют) его, поэтому мне пришлось обновить требования. Я также упростил вывод и удалил посторонние части моделирования, которые не нужны для этого урока. Остальные изменения были незначительными и были внесены в процессе отладки. В целом, я внес очень мало изменений в исходный алгоритм, моя адаптация доступна на GitHub. Если вы находите этот алгоритм полезным, отметьте исходный репозиторий Pryzant et al. для алгоритма каузального текста.

Инструмент запускается из командной строки, и я предлагаю запустить его с графическим процессором, чтобы использовать скорость для глубокого обучения. Здесь я объясню, как настроить Colab (чтобы использовать бесплатный экземпляр графического процессора) и запустить алгоритм каузального текста. Во-первых, данные должны быть в правильном формате. Инструмент принимает файл «.tsv» с пятью столбцами для пяти переменных: T_proxy, T_true, C, Y, текст. Ковариаты C должны быть категоричными и представляться простыми целыми числами. Переменные T_proxy, T_true и результат Y должны быть двоичными числовыми индикаторами (0 или 1). «Текст» — это просто текст твита. Адаптированный алгоритм причинно-следственной связи выдает семь различных значений результатов ATE.

Используя метку T_true, алгоритм каузального текста вычисляет значение ATE оракула; это можно рассматривать как истинный ATE, который будет действовать как базовый уровень. Затем в качестве дополнительного базового уровня рассчитывается нескорректированное значение ATE, где ATE — это ожидаемая разница в результатах, обусловленная T_hat, без учета ковариат. Следующие два значения представляют собой значения ATE T-boost, где T-boost относится к усилению лечения за счет улучшения прокси-меток. Прокси-метки улучшаются двумя способами с помощью двух разных классификаторов. Один классификатор работает только с положительными и немаркированными данными, а другой представляет собой прямую регрессию, в частности классификатор стохастического градиентного спуска Sci-kit Learn. Следующее значение ATE — это значение, для которого был скорректирован текст, это значение W Adjust. Последние два значения ATE сочетают в себе усиление T с корректировкой текста для одного значения ATE для каждого типа классификатора. Эти последние два значения представляют собой полный алгоритм TEXTCAUSE, разработанный Pryzant et al. (2021).

Первый шаг — установить необходимые пакеты в Colab. Это делается с помощью следующей единственной строки кода:

!pip install sklearn transformers tensorflow

Затем мы проверяем, доступен ли графический процессор.

import torch if torch.cuda.is_available(): device = torch.device("cuda") print('There are %d GPU(s) available.' % torch.cuda.device_count()) print('We will use the GPU:', torch.cuda.get_device_name(0)) !nvidia-smi else: print('No GPU available, using the CPU instead.') device = torch.device("cpu")

Файл «.tsv» с данными следует сохранить на Google Диске для быстрого доступа. Мы просто монтируем диск, чтобы получить доступ к файлам.

from google.colab import drive drive.mount('/content/gdrive')

Затем переходим в папку, в которой сохранены данные.

%cd gdrive/My Drive/my_folder

Далее мы клонируем адаптированный репозиторий для алгоритма каузального текста с GitHub.

!git clone https://github.com/haayanau/causal-text.git

После того, как пакет causal-text был клонирован, необходимо перейти в каталог, где находится основной скрипт.

%cd causal-text/src

Запустить алгоритм очень просто, выполните следующую команду с путем, ведущим к файлу «.tsv». Аргумент «run_cb» означает, что CausalBERT будет использоваться для корректировки текста. Модели обучаются по 3 эпохи каждая.

!python main.py --run_cb --data /content/gdrive/MyDrive/my_folder/my_data.tsv

Эта команда приводит к семи типам значений ATE, как описано ранее. Pryzant et al. (2021) предупреждают, что оценки ATE теряют точность, когда прокси точен менее чем на 80%. Они также заявляют, что важно скорректировать смешанные части текста, и что оценки, учитывающие C без корректировки текста, могут быть хуже, чем нескорректированная оценка. В следующем разделе кратко обсуждаются результаты двух экспериментов и предлагаются некоторые расширения.

Результаты и расширения

Для первого теста мы смотрим на ATE фейковых новостей (T) по количеству ретвитов (Y), с сообществом пользователей (C) и текстом твита в качестве искажающих факторов. Есть 15 468 наблюдений, и результаты показаны ниже.

Истинное (оракуловое) значение ATE предполагает, что причинно-следственный эффект практически отсутствует, что противоречит популярному мнению о том, что фальшивые новости распространяются быстрее, чем настоящие новости, и принесут больше ретвитов. Нескорректированное значение ATE также не показывает причинно-следственный эффект, несмотря на то, что не учитывается ковариата C. С точки зрения соответствия истинному значению ATE ближе всего подходит ATE (W Adjust), который корректируется для текста с помощью CausalBERT. Ни одно из значений полного алгоритма «TEXTCAUSE» (корректировка текста и улучшение меток) не является настолько близким к истинному ATE, как значение корректировки W, которое не использует улучшенные метки.

Во втором тесте рассматривалось только сообщество «Усилители_1» и учитывалось, что рейтинг Alexa является потенциально сбивающей с толку ковариантой. Есть 1485 наблюдений, и результаты показаны ниже.

И здесь снова не наблюдается причинно-следственного влияния фальшивых новостей на количество ретвитов, если мы контролируем рейтинг Alexa. Истинное (оракуловое) значение ATE умеренно отрицательное, а полная версия алгоритма «TEXTCAUSE», который использует классификатор «pu» для T-boosting, дает ATE, наиболее точно соответствующее истинному значению. Это повышенное значение обработки (TextCause pu) не только включает улучшенные метки прокси, но также корректирует текст с помощью CausalBERT. Нескорректированный ATE имел наихудшую производительность, однако все остальные значения ATE имели столь же плохую производительность.

Существует большая вероятность того, что существуют ненаблюдаемые искажающие факторы, которые не учитывались в этом эксперименте. Это может объяснить отсутствие обнаруженного причинного эффекта или, наоборот, причинного эффекта просто нет. На данный момент мы не доказали причинно-следственную связь фейковых новостей с количеством ретвитов, а также не доказали окончательно отсутствие причинно-следственной связи. Все, что мы сделали, — это поставили под сомнение распространенное исследователями предположение о том, что фальшивые новости распространяются в социальных сетях быстрее, чем настоящие. Возможно, включение дополнительных ковариат улучшит эксперимент, однако будет сложно определить, какие ковариаты включить. Также существует вероятность того, что размеры выборки были недостаточно большими, особенно для второго теста, где было всего 1485 наблюдений.

Есть несколько расширений, которые мы могли бы реализовать. Начиная с первого теста, мы могли бы заменить ковариант C сообществом пользователей с рейтингом Alexa. Для второго теста мы могли бы увеличить размер выборки или даже сравнить разные сообщества. Было бы полезно, если бы алгоритм каузального текста мог учитывать более одной ковариаты (более высокой размерности). Еще полезнее было бы, если бы алгоритм каузального текста мог обрабатывать разнородные эффекты лечения и вычислять условный средний эффект лечения (CATE). Например, мы могли бы обусловить сообщество пользователей, чтобы увидеть, есть ли разница в CATE между группами.

Заключительные мысли

Пересечение каузального вывода и НЛП завораживает, а алгоритм каузального текста — отличный пример творчества и инициативы. Я надеюсь, что это исследование продолжит расширять границы возможного в отношении методов оценки причинно-следственной связи с текстом. С точки зрения применения алгоритм каузального текста может применяться в различных областях, таких как экономика, здравоохранение, маркетинг, государственная политика и даже эпидемиология. Происходит сдвиг в осмыслении феномена фейковых новостей, например, звучат призывы относиться к проблеме как к проблеме общественного здравоохранения (Donovan, 2020). ВОЗ применила эпидемиологический подход и называет случаи распространения фейковых новостей инфодемией. Все эти изменения предполагают, что, возможно, пришло время применить причинно-следственный подход к дезинформации. Изучение причинно-следственной связи может быть способом разработки основанной на экономике концепции для изучения причинно-следственного воздействия дезинформации на общество (Семинар по истинной цене дезинформации, TaSC, Shorenstein Center). Лично я заинтересован в применении этого метода к экономическим исследованиям, в которых используются данные социальных сетей из открытых источников.

Я приветствую вопросы и отзывы, пожалуйста, не стесняйтесь связаться со мной на Linkedin.