Apache Solr, SolrJ и обработчик импорта данных для анализа XML

Я надеюсь использовать Solr для выполнения поиска по информации, проанализированной из XML-файлов. Эти XML-файлы не в формате документа Solr, поэтому я должен их проанализировать и таким образом получить нужные мне поля.

Я знаком с программированием на Java, и мне было интересно, будет ли SolrJ более простым методом, чем использование обработчика импорта данных. Я рассматриваю возможность просмотра каждого XML-файла, который у меня есть, и анализа полей, которые мне нужны, из каждого. Есть ли недостатки у одного метода по сравнению с другим? Я полагаю, что, поскольку я знаком с Java, может быть проще анализировать XML таким образом?

Мне, вероятно, понадобится несколько условий и регулярных выражений. Во всяком случае, надежный способ получить мои поля из относительно неструктурированного XML.

Как SolrJ будет работать с интерфейсом? То есть, если я индексирую с помощью SolrJ, могу ли я по-прежнему выполнять свои запросы через интерфейс?


person dj1121    schedule 16.10.2017    source источник


Ответы (2)


DIH был разработан для прототипирования, хотя некоторые люди используют его для производства. Вы можете начать с него, но будьте готовы перейти к SolrJ или другим методам, если вы столкнетесь с его ограничениями. И если у вас очень сложные сопоставления, вам может быть лучше начать с SolrJ.

Вы также можете применить преобразование XSLT к входящему XML. document, чтобы сопоставить его с форматом Solr.

И, как сказано в другом месте, поиск — это отдельная проблема от индексации.

person Alexandre Rafalovitch    schedule 17.10.2017

То, как вы индексируете свой контент в Solr, ортогонально тому, как вы его запрашиваете. Вы можете индексировать любым удобным для вас способом, если он создает правильные документы в индексе.

Теперь, что касается индексации, если DIH получит то, что вам нужно, без особых настроек, сделайте это. Но если вам нужно выполнить большую настройку данных, в конце концов вы можете закончить быстрее, если просто напишете Java с помощью Solr. С Solr у вас есть вся гибкость, с DIH вы более ограничены (вспомните правило 80/20).

person Persimmonium    schedule 17.10.2017
comment
И DIH, вероятно, быстрее, чем добавление каждого документа с помощью SorlJ. - person Simon Martinelli; 17.10.2017