Если я обработаю приговор
'Верните целевую карту в руку'
с spacy и моделью en_web_core_lg он распознает токены, как показано ниже:
Верните СУЩЕСТВИТЕЛЬНОЕ целевое СУЩЕСТВИТЕЛЬНОЕ КАРТОЧНОЕ СУЩЕСТВИТЕЛЬНОЕ в ADP свою ADJ руку СУЩЕСТВИТЕЛЬНОЕ
Как я могу заставить 'Return' быть помечен как ГЛАГОЛ? И как я могу сделать это до синтаксического анализатора, чтобы синтаксический анализатор мог лучше интерпретировать отношения между токенами?
Есть и другие ситуации, в которых это может быть полезно. Я имею дело с текстом, который содержит определенные символы, такие как {G}
. Эти три символа следует рассматривать как СУЩЕСТВИТЕЛЬНОЕ, а {T}
должно быть ГЛАГОЛОМ. Но прямо сейчас я не знаю, как этого добиться без разработки новой модели токенизации и тегирования. Если бы я мог «принудительно» использовать токен, я мог бы заменить эти символы на что-то, что было бы распознано как один токен, и принудительно пометить его соответствующим образом. Например, я мог бы заменить {G} на SYMBOLG и принудительно пометить SYMBOLG как NOUN.