Поиск шаблонов в дампе Википедии

Я пытаюсь сделать некоторое извлечение отношений на дампе Википедии.

Для этого мне нужно искать шаблоны в ОЧЕНЬ большом файле XML/JSON (15 ГБ в сжатом виде, 50 ГБ в несжатом).

Как лучше всего это сделать? Обычные алгоритмы сопоставления строк? Используете технологии, подобные ElasticSearch? Если да, то как?


person Eran Milo    schedule 05.06.2018    source источник
comment
прочитайте этот ответ: stackoverflow.com/questions/49917152/   -  person Lupanoide    schedule 05.06.2018
comment
Это может вас заинтересовать: веб-сервис для выполнения sql-запросов к базам данных викимедиа, см. quarry.wmflabs.org и его документ meta.wikimedia.org/wiki/Research:Quarry.   -  person framawiki    schedule 07.06.2018
comment
Мне нужно выполнить поиск только один раз, ничто не сравнится с прилично реализованным алгоритмом сопоставления подстрок. Если вам нужно часто выполнять поиск, накладные расходы на создание индекса могут быть оправданы.   -  person Tgr    schedule 10.06.2018
comment
Проект wikipedia-to-elastic похож на то, что вам нужно, содержит образ докера с индекс elasticsearch, созданный из дампа википедии (раскрытие - я разработчик проекта).   -  person Alon Eirew    schedule 26.02.2020