Я использую Stanford NLP, чтобы делать POS-теги для испанских текстов. Я могу получить POS-тег для каждого слова, но я заметил, что мне даны только первые четыре раздела тега Ancora, и в нем отсутствуют последние три раздела для человека, номера и пола.
Почему Стэнфордское НЛП использует только сокращенную версию тега Ancora?
Можно ли получить весь тег с помощью Стэнфордского НЛП?
Вот мой код (извините за jruby ...):
props = java.util.Properties.new()
props.put("tokenize.language", "es")
props.put("annotators", "tokenize, ssplit, pos, lemma, ner, parse")
props.put("ner.model", "edu/stanford/nlp/models/ner/spanish.ancora.distsim.s512.crf.ser.gz")
props.put("pos.model", "/stanford-postagger-full-2015-01-30/models/spanish-distsim.tagger")
props.put("parse.model", "edu/stanford/nlp/models/lexparser/spanishPCFG.ser.gz")
pipeline = StanfordCoreNLP.new(props)
annotation = Annotation.new("No sé qué estoy haciendo. Me pregunto si esto va a funcionar.")
Я получаю это как результат:
[Text = Нет CharacterOffsetBegin = 0 CharacterOffsetEnd = 2 PartOfSpeech = rn Lemma = no NamedEntityTag = O] [Text = sé CharacterOffsetBegin = 3 CharacterOffsetEnd = 5 PartOfSpeech = vmip000 Lemma = sé NamedEntityTageBegin = OTEXSET = 6 символов] [Text] PartOfSpeech = pt000000 Lemma = qué NamedEntityTag = O] [Text = estoy CharacterOffsetBegin = 10 CharacterOffsetEnd = 15 PartOfSpeech = vmip000 Lemma = estoy NamedEntityTag = O] [Text = haciendo CharacterOffsetBegin = O] [Text = haciendo CharacterOffsetFegin = 16 CharacterOffsetBegin = 16 CharacterOffsetBegin = 16 [Текст =. CharacterOffsetBegin = 24 CharacterOffsetEnd = 25 PartOfSpeech = fp Лемма =. NamedEntityTag = O]
(Я заметил, что леммы также неверны, но это, вероятно, проблема для отдельного вопроса. Неважно, я вижу, что Стэнфордское НЛП не поддерживает испанскую лемматизацию.)