Настройка SUTime для StanfordNLP на испанском языке — Java

У меня возникли проблемы с настройкой SUTime в испанской версии, которая поставляется в файле stanford-spanish-corenlp-2018-10-05-models.jar.

В документах Стэнфорда говорится, что параметры ner.applyNumericClassifiers = true и ner.useSUTime = true действительны только для английской версии, но испанская банка поставляется с включенным spanish.sutime.txt, и я хотел бы, чтобы он работал.

Я пробовал с этим кодом:

Properties props = new Properties();
props.put("annotators", "tokenize, ssplit, pos, lemma, ner");

props.setProperty("tokenize.language", "es");
...         
...
props.setProperties("sutime.rules", "edu/stanford/nlp/models/sutime/spanish.sutime.txt");

Я действительно не знаю, как двигаться дальше, и я не видел эту проблему ни в одном другом вопросе, может быть, кто-то может мне помочь.


person Cecilia    schedule 03.04.2020    source источник


Ответы (1)


Испанский язык будет запускать SUTime по умолчанию 3.9.2. Вы можете просто использовать эти свойства:

ner.model = edu/stanford/nlp/models/ner/spanish.ancora.distsim.s512.crf.ser.gz
ner.applyNumericClassifiers = true
ner.useSUTime = true
ner.language = es

Вы можете получить испанские свойства по умолчанию с помощью:

Properties props = LanguageInfo.getLanguageProperties("spanish");
person StanfordNLPHelp    schedule 13.04.2020
comment
Для этого предложения: El verano pasado, se reunieron todos los martes por la tarde, de 13:00. в 15:00 выдает только один: [41, 47]: martes --› 2020-06-02-WXX-2. Почему другие выражения не определены? - person dangiankit; 04.06.2020