Поиск шаблонов в дампе Википедии

Я пытаюсь сделать некоторое извлечение отношений на дампе Википедии.

Для этого мне нужно искать шаблоны в ОЧЕНЬ большом файле XML/JSON (15 ГБ в сжатом виде, 50 ГБ в несжатом).

Как лучше всего это сделать? Обычные алгоритмы сопоставления строк? Используете технологии, подобные ElasticSearch? Если да, то как?

Eran Milo 05.06.2018 источник

comment

прочитайте этот ответ: stackoverflow.com/questions/49917152/ - Lupanoide 05.06.2018

comment

Это может вас заинтересовать: веб-сервис для выполнения sql-запросов к базам данных викимедиа, см. quarry.wmflabs.org и его документ meta.wikimedia.org/wiki/Research:Quarry. - framawiki 07.06.2018

comment

Мне нужно выполнить поиск только один раз, ничто не сравнится с прилично реализованным алгоритмом сопоставления подстрок. Если вам нужно часто выполнять поиск, накладные расходы на создание индекса могут быть оправданы. - Tgr 10.06.2018

comment

Проект wikipedia-to-elastic похож на то, что вам нужно, содержит образ докера с индекс elasticsearch, созданный из дампа википедии (раскрытие - я разработчик проекта). - Alon Eirew 26.02.2020

Поиск шаблонов в дампе Википедии

Похожие вопросы