Apache Solr, SolrJ и обработчик импорта данных для анализа XML

Я надеюсь использовать Solr для выполнения поиска по информации, проанализированной из XML-файлов. Эти XML-файлы не в формате документа Solr, поэтому я должен их проанализировать и таким образом получить нужные мне поля.

Я знаком с программированием на Java, и мне было интересно, будет ли SolrJ более простым методом, чем использование обработчика импорта данных. Я рассматриваю возможность просмотра каждого XML-файла, который у меня есть, и анализа полей, которые мне нужны, из каждого. Есть ли недостатки у одного метода по сравнению с другим? Я полагаю, что, поскольку я знаком с Java, может быть проще анализировать XML таким образом?

Мне, вероятно, понадобится несколько условий и регулярных выражений. Во всяком случае, надежный способ получить мои поля из относительно неструктурированного XML.

Как SolrJ будет работать с интерфейсом? То есть, если я индексирую с помощью SolrJ, могу ли я по-прежнему выполнять свои запросы через интерфейс?

dj1121 16.10.2017 источник

Ответы (2)

arrow_upward
3
arrow_downward

DIH был разработан для прототипирования, хотя некоторые люди используют его для производства. Вы можете начать с него, но будьте готовы перейти к SolrJ или другим методам, если вы столкнетесь с его ограничениями. И если у вас очень сложные сопоставления, вам может быть лучше начать с SolrJ.

Вы также можете применить преобразование XSLT к входящему XML. document, чтобы сопоставить его с форматом Solr.

И, как сказано в другом месте, поиск — это отдельная проблема от индексации.

Alexandre Rafalovitch 17.10.2017

arrow_upward
1
arrow_downward

То, как вы индексируете свой контент в Solr, ортогонально тому, как вы его запрашиваете. Вы можете индексировать любым удобным для вас способом, если он создает правильные документы в индексе.

Теперь, что касается индексации, если DIH получит то, что вам нужно, без особых настроек, сделайте это. Но если вам нужно выполнить большую настройку данных, в конце концов вы можете закончить быстрее, если просто напишете Java с помощью Solr. С Solr у вас есть вся гибкость, с DIH вы более ограничены (вспомните правило 80/20).

Persimmonium 17.10.2017

comment

И DIH, вероятно, быстрее, чем добавление каждого документа с помощью SorlJ. - Simon Martinelli; 17.10.2017

Apache Solr, SolrJ и обработчик импорта данных для анализа XML

Ответы (2)

Похожие вопросы