Я пытаюсь использовать Stanford NER для анализа данных о продукте. Мои тренировочные данные выглядят следующим образом:
iPhone 4 16GB black
Nikon D5100
Apple iPhone 4s
kindle touch
kindle fire
Теперь я хочу обучить NER с этими данными, поэтому сначала мне нужно классифицировать их. На веб-сайте Standford представлен пример, когда они анализируют главу книги и размечают каждое слово в новой строке. В моем случае это не помогло бы, потому что данные выглядят так:
iPhone
4
16GB
black
«4» не должно быть в новой строке, но когда я помещаю «iPhone 4» в строку, NER считает, что «4» — это категория токена «iPhone».
Мне просто нужна помощь, как обучить NER с данными о продукте. Что ты предлагаешь? И вы бы отнесли «iPhone» к «телефону», а «iPhone 4» — к «телефону»?