Примеры обучения Stanford CoreNLP

Кто-нибудь знает, где находятся следующие файлы:

trainFileList = /u/nlp/data/ner/column_data/muc6.ptb.train, /u/nlp/data/ner/column_data/muc7.ptb.train

Я перехожу по ссылке часто задаваемых вопросов http://nlp.stanford.edu/software/crf-faq.shtml#a

Если все, что мне нужно сделать, это предоставить файл с двумя столбцами, состоящими из токенов и класса, то это сработает. Но мне любопытны файлы поездов, перечисленные в файлах свойств классификатора.

serializeTo = english.muc.7class.caseless.distsim.crf.ser.gz

java -mx1g -cp "$CLASSPATH" edu.stanford.nlp.ie.NERClassifierCombiner -textFile sample.txt -ner.model classifiers/english.all.3class.distsim.crf.ser.gz,classifiers/english.conll.4class .distsim.crf.ser.gz,classifiers/english.muc.7class.distsim.crf.ser.gz -outputFormat tabbedEntities -textFile sample.txt > sample2.tsv


person Arnold Angel    schedule 08.07.2015    source источник


Ответы (1)


Эти файлы являются обучающими данными для задач MUC-6 и MUC-7:

http://cs.nyu.edu/faculty/grishman/muc6.html

Они не распространяются Стэнфордом. Я посмотрю, смогу ли я выяснить, где они распространяются, и обновлю этот ответ.

ОБНОВЛЕНИЕ: LDC распространяет эти файлы, если вы хотите получить копию, у них есть проблемы с авторскими правами, поэтому вы должны приобрести их у LDC, поэтому мы их не распространяем. Вот несколько ссылок с дополнительной информацией:

http://www-nlpir.nist.gov/related_projects/muc/muc_data/muc_data_index.html

https://catalog.ldc.upenn.edu/LDC2003T13

https://catalog.ldc.upenn.edu/LDC2001T02

person StanfordNLPHelp    schedule 08.07.2015