Вы получаете то, что видите!

Разрешение местоимений к определенным предметам / объектам в данном предложении всегда было открытой темой исследования в компьютерной лингвистике и обработке естественного языка. Это требует сложных рассуждений из различных информационных источников и контекстных знаний.

Чтобы решить эту проблему, в статье То, что вы видите, то и получаете: разрешение визуальной привязки местоимений в диалогах определяется задача визуально-ориентированного разрешения совместной ссылки местоимений (PCR). в диалогах. Он выделяет VisCoref и VisPro (модель и набор данных соответственно), чтобы исследовать, как визуальную информацию можно использовать для определения местоимений с помощью глубокого обучения.

В данной статье решается проблема соотнесения местоимений, в частности, в диалогах. Предыдущие работы достигли значительно высокой точности формального письменного текста, но не диалогов. Причина в том, что в диалоге требуется гораздо больше информации об окружающей среде и контексте, чем в формальном отрывке текста. Например, если два человека разговаривают друг с другом, они могут просто сослаться на объект, который находится перед их глазами, используя местоимение «он», или просто указав на объект. Таким образом, в данной статье предлагается первая в своем роде модель, наряду с набором данных, для совместной ссылки местоимений с использованием изображения вместе с текстовым диалогом.

Набор данных VisPro

Набор данных VisPro можно рассматривать как обновленную версию набора данных VisDial, в которой каждое изображение сопровождается диалоговой записью, обсуждающей это изображение. Однако VisPro улучшил этот набор данных, добавив к каждому изображению «подпись», которую можно рассматривать как метаданные изображения.

Набор данных также был предварительно обработан, чтобы избежать дублирования фраз-кандидатов. Он только выбирает словосочетания с существительными высотой два в деревьях синтаксического анализа. В качестве примера рассмотрим следующее предложение: «Девушка с зонтиком идет по дороге». Набор данных выберет в качестве кандидатов «девушку», «зонт» и «дорогу»; вместо «Девушка с зонтом» и «дорога». Таким образом, наличие ограниченной высоты в два в синтаксическом (синтаксическом) дереве помогает уменьшить путаницу в доступных параметрах.

Другой важной задачей предварительной обработки является сохранение только тех диалогов, которые содержат от четырех до десяти местоимений. Это помогает решить проблему взрыва местоимений (что приводит к повторению местоимений) и проблему слишком малого количества местоимений (которые мало, бесполезны для задачи).

Модель VisCoref

Функция оценки модели F (n, p) разделена на две части, показанные ниже:

В приведенном выше уравнении 'Fc' и 'Fp' - это контекстные и визуальные функции оценки соответственно и элементы управления. важность визуальной информации. Чтобы обеспечить хороший баланс между визуальной и контекстной информацией, для параметра ‘λvis’ установлено значение 0,4 .

Теперь давайте попробуем понять, что такое контекстная оценка и визуальная оценка и как она выполняется.

Контекстная оценка

Модель сначала кодирует всю контекстную информацию во всех кандидатов и целевых местоимений с помощью «модуля представления упоминания», который обозначен пунктирной линией на рисунке 3. Двунаправленный LSTM используется для выполнения этого кодирования и создания взвешенные вложения.

Вложения «en» и «ep», показанные на рисунке 3, вычисляются с помощью двунаправленного LSTM и механизм внутреннего внимания. После того, как эти отдельные вложения слов объединены, вычисляется контекстная функция оценки «Fc».

Визуальная оценка

Модуль обнаружения объектов используется для идентификации меток объектов на изображениях, таких как «человек», «кошка» или «окно». Эти идентифицированные метки преобразуются в векторные представления с использованием того же процесса кодирования, который выполняется в модуле контекстного встраивания.

Эти метки объектов проверяются на соответствие текстовым фразам-кандидатам, независимо от того, ссылаются ли на них текстовые фразы. Это делается путем вычисления вероятности фразы, соответствующей каждому обнаруженному объекту на изображении. Эта возможность преобразуется в вероятность путем передачи оценок через функцию softmax. Затем соответствующей текстовой фразе присваивается метка, имеющая наивысший балл softmax.

Теперь предположим, что две фразы p1 и p2 относятся к одному и тому же обнаруженному объекту. Тогда соответствующие значения softmax для p1 и p2 должны быть одинаково большими.

Таким образом, всем соответствующим ярлыкам присваивается индивидуальная оценка, которая затем объединяется для создания общей функции визуальной оценки «Fv».

Затем рассчитывается общий балл путем вычисления средневзвешенного значения «Fc» и «Fv».

Детали реализации

Для исходных словесных представлений авторы использовали конкатенацию 300-мерных встраиваний GloVe (Pennington et al., 2014) и встраивания ELMo (Peters et al., 2018). Слова вне словарного запаса инициализируются нулевыми векторами. Для обнаружения объектов использовалась модель SSD RESNET 50 fpn coco от TensorFlow. Сети прямой связи для контекстной оценки и визуальной оценки имеют два 150-размерных скрытых слоя и один 100-размерный скрытый слой, соответственно. Для обучения модели использовались функция кросс-энтропийных потерь и оптимизатор Адам (Кингма и Ба, 2015), чтобы добиться более быстрой сходимости.

Во время обучения авторы разделили набор данных на две категории - «Обсуждаемые» и «Не обсуждаемые». Разница между ними в том, что в первом случае правильные антецеденты местоимения появлялись в тексте диалога; а в последнем они этого не сделали.

Оценка модели:

В документе сравнивается производительность VisCoref с пятью другими базовыми моделями:

1. Детерминированная модель (Raghunathan et al., 2010)

2. Статистическая модель (Clark and Manning, 2015).

3. Модель Deep-RL (Кларк и Мэннинг, 2016)

4. Сквозная модель (Lee et al., 2018)

5. Сквозная + визуальная (He et al., 2016)

VisCoref со значительным отрывом превосходит все эти модели, что говорит о том, что визуальная информация действительно весьма выгодна.

Из таблицы результатов видно, что оценка F1 модели VisCoref выше, чем у всех ранее опубликованных базовых моделей.

Пример из практики

Это исследование того, как модель VisCoref работает по сравнению со сквозной моделью (Lee et al., 2018) на выборке из набора данных VisPro.

В. "Есть ли на нем буквы или числа?"

Учитывая местоимение it, сквозная модель (Lee et al., 2018) выбирает любое написание из диалога, а модель VisCoref выбирает "сине-бело-красный шлейф" из фраз кандидата. Без изображения даже человек не сможет различить эти две фразы-кандидата. Однако, когда изображение принимается во внимание, мы немедленно наблюдаем поезд на изображении и, таким образом, сообщаем «синий, белый и красный поезд» как правильную фразу-кандидат.

Таким образом, это исследование подтверждает важность визуальной информации в диалоге как для человека, так и для машины!

Связанных с работой

Многопроходное сито для разрешения кореферентности (Рагхунатан и др., 2010)

Многие из существующих моделей разрешения кореферентности определяют, являются ли два упоминания со-референтными, с помощью одной функции над набором функций, что приводит к неправильным решениям, поскольку характеристики с более низкой точностью преобладают над меньшим числом элементов с высокой точностью. В этой статье предлагается простая архитектура кореферентности, основанная на сите, которая применяет уровни детерминированных моделей кореферентности по одной от самой высокой до самой низкой точности, то есть основанная на правилах система, объединяющая несколько функций для определения того, являются ли два упоминания сореферентными на основе ручного анализа. особенности ремесла. Однако этот метод не применяется в обзоре, поскольку более низкая точность сопоставления компенсируется визуальной информацией, то есть изображением.

Entity-Centric Coreference Resolution with Model Stacking (Clark and Manning, 2015)

В этом документе информация на уровне сущности используется для обучения ориентированной на сущность системы кореференции для изучения политики построения цепочек со-ссылок. Он использует агломеративную кластеризацию, то есть каждая упомянутая пара начинается в своем собственном кластере, а затем такие кластеры могут быть объединены. Следовательно, модель учится на спроектированных человеком функциях уровня сущности между кластерами упоминаний для создания точных цепочек кореферентности. Опять же, в этой статье не используются изображения для сопоставления местоимений, она опирается исключительно на письменный формальный текст.

Глубокое обучение с подкреплением для моделей Coreference с рейтингом упоминаний (Кларк и Мэннинг, 2016)

В этой статье авторы применяют обучение с подкреплением для оптимизации нейронной модели ранжирования упоминаний при совместных ссылках. Эта модель ранжирования упоминаний дает оценку для данной пары, указывающую на совместимость. Для каждого упоминания модель извлекает различные слова, такие как предыдущее слово или все слова в своем предложении, и создает вложения; которые затем передаются в нейронную сеть с прямой связью с несколькими скрытыми слоями блоков ReLU, которые полностью связаны с предыдущими слоями. В этой статье делается попытка кореференции путем гиперпараметрической настройки этой нейронной сети. Чтобы настроить гиперпараметры, он использует обучение с подкреплением для определения наилучшего входного параметра для выбора модели. Это совершенно другой подход к совместной ссылке по сравнению со ссылкой на изображение.

Разрешение кореферентности высшего порядка с грубым выводом (Ли и др., 2018)

В этой статье вводится полностью дифференцируемое приближение к выводу более высокого порядка для разрешения кореферентности. Он использует предшествующее распределение из архитектуры ранжирования диапазона в качестве механизма внимания для итеративного уточнения представлений диапазона. В предыдущих статьях принимаются независимые решения о связях кореферентности, и, следовательно, они чувствительны к предсказанию кластеров, которые являются локально согласованными, но глобально несовместимыми. Это современный метод разрешения кореферентности. Он прогнозирует кластеры кореференции через сквозную нейронную сеть, которая использует предварительно обученные вложения слов и контекстную информацию. Эта аналогичная концепция используется при создании вложений в контекстную часть модели обзора.

Разрешение визуальной кореференции в визуальном диалоге с использованием нейронных модульных сетей (Коттур и др., 2018)

В этой статье основное внимание уделяется разрешению визуальной кореферентности, которое включает определение того, какие слова, обычно словосочетания с существительными и местоимения, совместно ссылаются на один и тот же экземпляр объекта / объекта в изображении. Авторы представляют сетевую архитектуру нейронных модулей для визуального диалога, представляя два новых модуля - «Ссылка» и «Исключить», которые выполняют явное разрешение кореферентности на уровне более тонких слов. «Ссылка» помогает извлекать метки объектов из изображения, а «Исключить» удаляет те метки-кандидаты, которые не относятся к какому-либо объекту в изображении. Это единственная статья, в которой используется идея включения данных изображения вместе с текстом. Следовательно, модель очень похожа на модель в обзорном документе. Помимо создания кодировок и встраивания слов, внутренняя архитектура модели в этой статье отличается от той, что была в статье, рассматриваемой в этом обзоре.

Спасибо за внимание! Я хотел бы услышать ваш отзыв!

Примечание. Это бумажный обзор следующей публикации - То, что вы видите, то и получаете: разрешение визуальной привязки местоимений в диалогах »Синьтун Юй, Хунмин Чжан , Янцю Сон, Ян Сон и Чаншуй Чжан опубликовали в EMNLP 2019 длинную статью. Этот блог был адаптирован из статьи, и все исследовательские работы принадлежат вышеупомянутым авторам.