Извлечение отношений из синтаксического анализа NER

Я работаю над проблемой, которая, по крайней мере, требует распознавания именованных объектов, но я не уверен, как пойти дальше анализа NER. То, что я пытаюсь сделать, это проанализировать информацию (вероятно, из твитов) относительно планирования событий. Так, например, я хотел бы иметь возможность автоматически разрешать ответ «да/нет» на вопрос «Битлз играют завтра?» из коротких сообщений типа:

«Битлз отменили завтрашнее шоу» или «Битлз по-прежнему завтра»

Я знаю, что NER поможет мне приблизиться, поскольку он определит интересующую полосу и время (если оно указано), но есть много способов выразить интересующие меня понятия, например:

«Битлз будут играть завтра» или «Битлз завтра не будут играть».

Как я могу перейти от проанализированного представления NER к извлечению интересующей информации? Любые предложения будут высоко ценится.


person Richard Bender    schedule 23.02.2015    source источник


Ответы (1)


Я думаю, вам следует искать по обнаружению событий (необязательно - в Twitter); возможно, также с помощью систем ответов на вопросы, если ваш пример с вопросами "да/нет" не был просто иллюстрацией: если вы заранее знаете потребности пользователей, эта информация может повысить качество системы.

Для начала, в Твиттере есть несколько статей об обнаружении событий: здесь и здесь.

В качестве основы вы можете создать список с положительными глаголами для своего домена (быть, запланировать) и отрицательными глаголами (отменить, отложить) — просто начните с ручной список и расширить его синонимами из какого-либо словаря, например. Ворднет. Также проверьте наличие отрицаний — опять же, по наличию заранее заданных слов («не» в разных формах) в твите. Затем, если есть отрицание, вы просто инвертируете значение.

Поскольку вы работаете с Twitter и, скорее всего, в твите будет упомянуто только одно событие, это может сработать довольно хорошо.

person Nikita Astrakhantsev    schedule 23.02.2015