Необходимо создать индекс для столбца, содержащего строку JSON/XML. Как анализировать в cassandra с помощью jsonTokenizerFactory в solr

Я новичок в cassandra, я использую DSE 4.1.3, и я буду получать документы/файлы JSON в качестве канала, и мне нужно сохранить его в одном из столбцов таблицы Cassandra в виде строки json, и я должен выполнить анализ на нем . Может ли кто-нибудь сказать мне, как я могу создать индексацию DSE-Search (solr), используя класс jsonTonkenFactory.

Недавно я узнал о расширении API плагинов SIREn для solr. SIREn предоставляет пример для индексации документа JSON

 <fieldType name="json" class="org.sindice.siren.solr.schema.SirenField"
           omitNorms="true"
           datatypeConfig="datatypes.xml">

  <analyzer type="index">

    <tokenizer class="org.sindice.siren.solr.analysis.JsonTokenizerFactory"/>

  </analyzer>

</fieldType>

и поля

    <schema name="example" version="1.5">

 <fields>

 <!-- _version_ and update log are required for SolrCloud -->
 <field name="_version_" type="long" indexed="true" stored="true"/>

 <!-- The ID of the document -->
 <field name="id" type="string" indexed="true" stored="true"/>

<!-- json indexing scheme -->
<field name="json" type="json" indexed="true" stored="false"/>

 </fields>

Я попытался сделать это, поместив Jar-файлы плагина SIREn в jar-файлы Solr /etc/share/dse/solr/

Для получения дополнительной информации: http://sirendb.com/docs/getting-started/

Может кто-нибудь знает, что и как делать в таком сценарии?

Спасибо


person user3632180    schedule 21.05.2014    source источник


Ответы (1)


Следуйте документу, чтобы узнать, где разместить пользовательские банки для Solr: http://www.datastax.com/documentation/datastax_enterprise/4.0/datastax_enterprise/srch/srchConfLibPath.html

Пакетные установки: /usr/share/dse

Двоичные установки: install_location/resources/dse/lib

person Jack Krupansky    schedule 21.05.2014
comment
SIREn Plugin API не будет работать с DSE, так как DSE не поддерживает бессхемный режим в Solr. А SIREn — это структурированная система поиска документов без схемы, которая сочетает в себе свободный текстовый поиск со структурированным поиском по произвольным данным json. Система является расширением Lucene/Solr, ведущей в мире технологии поисковых систем. - person user3632180; 23.05.2014