Разрешаването на местоимения към определени субекти/обекти в дадено изречение винаги е било отворена изследователска тема в компютърната лингвистика и обработката на естествен език. Нуждае се от сложни разсъждения от различни източници на информация и контекстуални познания.

За да се атакува този проблем, документът — „„Това, което виждате, е това, което получавате: Визуално разпознаване на кореферентни местоимения в диалози““дефинира задачата за визуално разпознаване на кореферентни местоимения (PCR) в диалози. Той очертава „VisCoref“ и „VisPro“ (съответно модел и набор от данни), за да проучи как визуалната информация може да бъде използвана за разрешаване на местоимения с помощта на дълбоко обучение.

Този документ решава проблема с местоименията, особено в диалозите. Предишната работа постигна значително висока точност на официалния писмен текст, но не и на диалозите. Причината е, че е необходима много повече информация за средата и контекста в един диалог, за разлика от официален текст. Например, ако двама души разговарят помежду си, те могат просто да се позоват на обект, който е пред очите им, използвайки местоимението „то“ или просто като посочат обекта. Следователно, тази статия предлага първия по рода си модел, заедно с набор от данни, за съвместно препращане на местоимения, използвайки изображение заедно с текстов диалог.

Наборът от данни VisPro

Наборът от данни VisPro може да се разглежда като надстроена версия на набора от данни VisDial, където всяко изображение е придружено от диалогов запис, обсъждащ това изображение. Въпреки това VisPro подобри този набор от данни, като добави към всяко изображение „надпис“, който може да се разглежда като метаданни на изображението.

Наборът от данни също е предварително обработен, за да се избегне припокриването на кандидат-съществителни фрази. Той само избира съществителни фрази с височина две в дърветата за разбор. За да цитирате пример, разгледайте следното изречение „Момиче с чадър върви по пътя.“ Наборът от данни ще избере „момиче“, „чадър“ и „пътят“ като кандидати; вместо „Момиче с чадър” и „пътят”. По този начин наличието на ограничена височина от две в синтактичното дърво (разбор) помага за намаляване на объркването в наличните опции.

Друга важна извършена задача за предварителна обработка е запазването само на тези диалози, които имат четири до десет местоимения. Това помага за решаването на проблема с експлозията на местоименията (водещи до повтарящи се местоимения) и проблема с твърде малкото местоимения (които са малко и безполезни за задачата).

Моделът VisCoref

Функцията за оценка на модела F(n, p) е разделена на две части, показани по-долу:

В горното уравнение 'Fc' и 'Fp' са съответно контекстните и визуалните функции за оценяване и контроли значението на визуалната информация. За да се постигне добър баланс между визуалната и контекстуалната информация, ‘λvis е зададен на 0,4.

Сега, нека се опитаме да разберем какво е контекстно оценяване и визуално оценяване и как се извършва.

Контекстуално оценяване

Моделът първо кодира цялата контекстуална информация във всички кандидати и целеви местоимения посредством „модул за представяне на споменаване“, който е обозначен с полето с пунктирана линия на фигура 3. Двупосочен LSTM се използва за извършване на това кодиране и създаване претеглени вграждания.

Вгражданията „en“ и „ep“, показани на фигура 3, се изчисляват посредством двупосочен LSTM и механизъм за внимание от вътрешен обхват. След като тези отделни вграждания на думи се свържат, се изчислява функцията за контекстно точкуване „Fc.

Визуално точкуване

Модул за откриване на обекти се използва за идентифициране на етикети на обекти от изображенията, като например „човек“, „котка“ или „прозорец“. Тези идентифицирани етикети се преобразуват във векторни представяния, като се използва същия процес на кодиране, извършен в модула за контекстуални вграждания.

Тези етикети на обекти се проверяват спрямо кандидатстващите текстови фрази, независимо дали текстовите фрази се отнасят за тях или не. Това се прави чрез изчисляване на възможността за фраза, съответстваща на всеки открит обект в изображението. Тази възможност се преобразува във вероятност чрез предаване на резултатите през функция softmax. Етикетът с най-висок резултат за софтмакс след това се присвоява на съответната текстова фраза.

Сега, да кажем, че две фрази p1 и p2 се отнасят за един и същ открит обект. Тогава съответните меки максимални резултати за p1 и p2 трябва да бъдат еднакво големи.

По този начин на всички съответни етикети се присвоява индивидуален резултат, който след това се комбинира, за да се създаде общата функция за визуално оценяване „Fv.

След това общият резултат се изчислява чрез изчисляване на среднопретеглената стойност на ‘Fc и ‘Fv.

Подробности за изпълнението

За първоначалните представяния на думи авторите са използвали конкатенацията на 300-измерни вграждания на GloVe (Pennington et al., 2014) и вграждането ELMo (Peters et al., 2018). Думите извън речника се инициализират с нулеви вектори. Моделът “SSD RESNET 50 fpn coco” от TensorFlow е използван за откриване на обекти. Мрежите за предаване напред за контекстно оценяване и визуално оценяване имат съответно два скрити слоя със 150 измерения и един скрити слоеве със 100 измерения. За обучение на модели, функцията загуба на кръстосана ентропияи оптимизаторът Adam (Kingma and Ba, 2015) са използвани за постигане на по-бърза конвергенция.

Докато извършват обучение, авторите са разделили набора от данни в две категории — „Обсъждани“ и „Необсъждани“. Разликата между тях е, че в първия случай правилните антецеденти на местоимението се появяват в текста на диалога; а в последния не го направиха.

Оценка на модела:

Документът сравнява производителността на VisCoref с пет други базови модела:

1. Детерминистичен модел (Raghunathan et al., 2010)

2. Статистически модел (Clark and Manning, 2015)

3. Модел Deep-RL (Clark и Manning, 2016)

4. Модел от край до край (Lee et al., 2018)

5. От край до край + Визуално (He et al., 2016)

VisCoref превъзхожда всички тези модели със значителна разлика, което показва, че визуалната информация наистина е доста изгодна.

От таблицата с резултати е видно, че F1 резултатът на модела VisCoref е по-висок от всички публикувани преди това базови модели.

Казус от практиката

Това е проучване на това как моделът VisCoref се представя в сравнение с модела End-to-End (Lee et al., 2018) върху извадка от набора от данни VisPro.

В. „Някакви надписи или цифри върху то?“

Като се има предвид местоимението „то“, моделът от край до край (Lee et al., 2018) избира „всяко писане“ от диалога, докато моделът VisCoref избира „син, бял и червен влак“ от кандидат фразите. Без изображението дори човек не може да направи разлика между тези две кандидат-фрази. Въпреки това, когато изображението се вземе предвид, ние незабавно наблюдаваме влака в изображението и по този начин отчитаме „син, бял и червен влак“ като правилната кандидат-фраза.

По този начин това изследване отново подчертава важността на визуалната информация по време на диалог както за човека, така и за машината!

Свързани с тях дейности

Многопроходно сито за кореферентна разделителна способност (Raghunathan et al., 2010)

Много от съществуващите модели на кореферентна разделителна способност определят дали две споменавания са кореферентни, използвайки една функция върху набор от характеристики, което води до неправилни решения, тъй като характеристиките с по-ниска точност доминират над по-малкия брой такива с висока точност. Този документ предлага проста кореферентна архитектура, базирана на сито, което прилага нива от детерминистични кореферентни модели един по един от най-висока до най-ниска точност, т.е. система, базирана на правила, агрегираща множество функции за определяне дали две споменавания са кореферентни въз основа на ръчно характеристики на занаята. Тази техника обаче не се прилага в документа на проучването, тъй като по-ниската прецизност на съпозоваването е компенсирана от визуалната информация, т.е. изображението.

Резолюция на кореферентна връзка, ориентирана към обекти с подреждане на модели (Кларк и Манинг, 2015)

Този документ използва информация на ниво обект, за да обучи центрирана на обект кореферентна система за изучаване на политика за изграждане на кореферентни вериги. Той използва агломеративно клъстериране, т.е. всяка спомената двойка започва в свой собствен клъстер и по-късно такива клъстери могат да бъдат обединени. Следователно, моделът се учи на проектирани от човека характеристики на ниво обект между клъстери от споменавания, за да създаде точни кореферентни вериги. Отново, този документ не използва изображения за съпоставяне на местоимения, той разчита единствено на писмен формален текст.

Обучение с дълбоко подсилване за кореферентни модели с класиране при споменаване (Кларк и Манинг, 2016)

В тази статия авторите прилагат обучение за подсилване, за да оптимизират невронен модел за класиране на споменаване за съвместно препращане. Този модел за класиране при споменаване създава резултат за дадена двойка, показващ съвместимостта. За всяко споменаване моделът извлича различни думи като предишната дума или всички думи в нейното изречение и създава вграждания; които след това се подават в невронна мрежа за подаване напред с няколко скрити слоя от ReLU единици, които са напълно свързани с предишните слоеве. Начинът, по който тази статия се опитва да направи кореференция, е чрез хиперпараметрична настройка на тази невронна мрежа. За да настрои хиперпараметрите, той използва обучение с подсилване за определяне на най-добрия вход за избор на параметър към модела. Това е напълно различен стилистичен подход за съвместно препращане в сравнение с базираното на изображения съвместно препращане.

Кореферентна резолюция от по-висок порядък с извод от груб към фин (Lee et al., 2018)

Този документ въвежда напълно диференцируемо приближение към извод от по-висок ред за кореферентна резолюция. Той използва предшестващото разпределение от архитектура с класиране на обхват като механизъм за внимание за итеративно прецизиране на представяния на обхват. Предишните статии вземат независими решения относно кореферентните връзки и следователно са податливи на прогнозиране на клъстери, които са локално последователни, но глобално непоследователни. Това е най-съвременният метод за кореферентна резолюция. Той предвижда кореферентни клъстери чрез невронна мрежа от край до край, която използва предварително обучени вграждания на думи и контекстуална информация. Тази подобна концепция се използва при създаването на вгражданията в частта за контекстуално точкуване на модела на проучването.

Визуална кореферентна резолюция във визуален диалог с помощта на невронни модулни мрежи (Kottur et al., 2018)

Този документ се фокусира върху визуална кореферентна разделителна способност, която включва определяне кои думи, обикновено съществителни фрази и местоимения, се отнасят съвместно към един и същи субект/обект в изображение. Авторите представят мрежова архитектура на невронни модули за визуален диалог, като въвеждат два нови модула - Refer и Exclude - които извършват изрична кореферентна резолюция на ниво по-фина дума. „Препращане“ помага за извличане на етикети на обекти от изображение, а „Изключване“ премахва тези кандидат етикети, които не се отнасят към нито един обект в изображението. Това е единственият документ, който използва идеята за включване на данни за изображение заедно с текст. Следователно моделът е много подобен на този в проучването. Освен създаването на кодировките и вграждането на думи, вътрешната архитектура на модела в този документ се различава от тази на документа, обхванат в това проучване.

Благодарим ви, че прочетохте! Ще се радвам да чуя вашите отзиви!

Забележка: Това е рецензия на хартия за следната публикация — „What You See is What You Get: Visual Pronoun Coreference Resolution in Dialogues»“ от Xintong Yu, Hongming Zhang , Yangqiu Song, Yan Song и Changshui Zhang, публикувани като дълга статия в EMNLP 2019. Този блог е адаптиран от статията и цялата собственост върху изследователската работа принадлежи на гореспоменатите автори.