Использование Stanford NER для анализа данных о продуктах

Я пытаюсь использовать Stanford NER для анализа данных о продукте. Мои тренировочные данные выглядят следующим образом:

iPhone 4 16GB black
Nikon D5100
Apple iPhone 4s
kindle touch
kindle fire

Теперь я хочу обучить NER с этими данными, поэтому сначала мне нужно классифицировать их. На веб-сайте Standford представлен пример, когда они анализируют главу книги и размечают каждое слово в новой строке. В моем случае это не помогло бы, потому что данные выглядят так:

iPhone
4
16GB
black

«4» не должно быть в новой строке, но когда я помещаю «iPhone 4» в строку, NER считает, что «4» — это категория токена «iPhone».

Мне просто нужна помощь, как обучить NER с данными о продукте. Что ты предлагаешь? И вы бы отнесли «iPhone» к «телефону», а «iPhone 4» — к «телефону»?


person user3346569    schedule 05.03.2014    source источник


Ответы (1)


Мне интересно, сможете ли вы эффективно извлекать информацию, используя традиционные (нерекурсивные) именованные сущности. На мой взгляд, вам может понадобиться что-то более структурированное, например:

<phone>
    <model> iPhone <model>
    <version> 4 </version>
    <capacity> 16GB <capacity>
    <color> black </color>
</phone>

Как распознавать структурированные именованные объекты с помощью CRF, описано, например, в этой статье. По сути, он изучает одну CRF для каждого типа объекта и объединяет апостериорные вероятности (от каждой отдельной CRF) для распознавания структурированных именованных объектов.

Действительно, это требует некоторого реинжиниринга корпуса, поскольку сущности должны иметь адекватную структуру без обучающих корпусов...

person eldams    schedule 06.03.2014