spacy преобразовать conllul в spacy json формат

Я получаю данные из универсальных зависимостей. Я работаю в основном с индонезийским языком (бахаса), поэтому клонирую репо:

оба репо содержат файл bz2, и после распаковки я получаю содержащиеся файлы. все есть в формате conllul. поэтому я попытался преобразовать его в формат json spacy с помощью команды:

python -m spacy convert thefile.conllul .

однако простое сообщение об ошибке бросания:

Unknown format Can't find converter for conllul

как сделать преобразование? это conllul и conll формат - это одно и то же? если нет, как преобразовать conllul в формат conll? спасибо заранее


person zkrhm    schedule 15.11.2018    source источник


Ответы (1)


Хорошо, давайте немного проясним ситуацию, прежде чем отвечать на ваш вопрос.

Верны следующие утверждения:

  • Существуют разные форматы ConNLL
  • Разные форматы объединяет то, что они происходят от конференции CoNLL.
  • Spacy предоставляет конвертер через свой интерфейс командной строки для 2 различных форматов: простого формата conll и самого последнего формата conllu. Дополнительную информацию о формате conll можно найти здесь и больше о формате conllu здесь
  • Conllul - это другой формат данных, представленный в 2018 году. Дополнительную информацию можно найти здесь
  • Spacy не поддерживает прямое преобразование между форматами conllul и json.

Имея все это в виду, ответ на ваш вопрос, я думаю, будет заключаться в использовании формата conllu для вашего языка, который является стандартным способом работы с данными естественного языка с пространством. Я обнаружил, что в коллекции ud treebank есть данные в формате для вашего языка. Вы можете загрузить данные с здесь, а затем использовать spacy converter для преобразования их в json.

Я очень надеюсь, что это помогло. :)

person gdaras    schedule 16.11.2018