Я пытаюсь сделать некоторое извлечение отношений на дампе Википедии.
Для этого мне нужно искать шаблоны в ОЧЕНЬ большом файле XML/JSON (15 ГБ в сжатом виде, 50 ГБ в несжатом).
Как лучше всего это сделать? Обычные алгоритмы сопоставления строк? Используете технологии, подобные ElasticSearch? Если да, то как?