Фильтр оптической оценки Apache Nutch 2.3.1 не работает

Я настроил Nutch 2.3.1 с полной экосистемой Hadoop/Hbase в небольшом кластере. Мне любопытен алгоритм подсчета очков, используемый в Nutch. Я нашел и использовал опический скоринговый фильтр в Nutch. Чтобы найти его влияние, я проверяю баллы на разных этапах в Nutch IN (фаза dbupdate и генерации), как указано в Nutch ВИКИ. Но я обнаружил, что оценка каждого документа всегда остается нулевой, независимо от того, какую итерацию я выполняю и сколько документов я извлекаю. Есть ли какие-то проблемы с реализацией opic или мне не хватает какой-то его конфигурации.

Я заметил, что поле _csh_, содержащее денежные средства, удаляется на этапе выборки из соответствующей таблицы в Hbase.


person Hafiz Muhammad Shafiq    schedule 09.05.2018    source источник


Ответы (1)


Я решил это, внеся изменения в OPICScoringFilter.java

src/plugin/scoring-opic/src/java/org/apache/nutch/scoring/opic/OPICScoringFilter.java

Я поместил его в маркеры как UTF8.

-    row.getMetadata().put(CASH_KEY, ByteBuffer.wrap(Bytes.toBytes(score)));
+    row.getMarkers().put(CASH_KEY, new Utf8(Double.toString(score)));
person user1264641    schedule 21.01.2019