Допустим, у меня есть документ, например:
import spacy
nlp = spacy.load('en')
doc = nlp('My name is John Smith')
[t for t in doc]
> [My, name, is, John, Smith]
Спейси достаточно умен, чтобы понять, что «Джон Смит» — это именованная сущность с несколькими токенами:
[e for e in doc.ents]
> [John Smith]
Как я могу разбить именованные объекты на отдельные токены, например:
> [My, name, is, John Smith]