Как я могу преобразовать это в формат BIO? Я пробовал использовать spacy biluo_tags_from_offsets
, но не смог уловить все сущности, и я думаю, что знаю причину.
tags = biluo_tags_from_offsets(doc, annot['entities'])
Бакалавр наук (бакалавр наук) - эти два элемента объединены вместе, но при наличии пробела текст разбивается на части. Итак, теперь слова будут похожи на (BSc(Bachelor, of, science
), и поэтому spacy biluo_tags_from_offsets
терпит неудачу и возвращает -
Теперь, когда он проверяет (80, 83, 'Degree')
, он не может найти только слово BSc. Точно так же он снова потерпит неудачу для (84, 103, 'Degree')
.
Как я могу исправить эти сценарии? Пожалуйста, помогите, если кто-нибудь сможет.
EDUCATION: · Master of Computer Applications (MCA) from NV, *********, *****. · BSc(Bachelor of science) from NV, *********, *****
{'entities': [(13, 44, 'Degree'), (46, 49, 'Degree'), (80, 83, 'Degree'), (84, 103, 'Degree')]}
Doc.retokenize()
, как в stackoverflow.com/a/63982729/4317058? Интересно посмотреть, будет ли предварительно обученная модель распознавать новые комбинированные токены. - person Sergey Bushmanov   schedule 23.09.2020