Как ограничить Apache Nutch сканированием только документов на определенном языке

Я использую apache Nutch 2.3 и хочу сканировать только те документы из Интернета, которые написаны на каком-то конкретном языке, предположим, что арабские или, по крайней мере, документы должны содержать некоторую строку на арабском языке.

`So is there any option in crawler to do this job?`

Hafiz Muhammad Shafiq 29.01.2015 источник

Ответы (1)

arrow_upward
1
arrow_downward

Да, вы можете сделать это с Nutch. В вашем nutch xpathfilterconf вы можете указать имя языкового поля и дать ему соответствующее выражение xpath для любых веб-сайтов, которые вы сканируете.

Затем внутри вашего XPathIndexingFilter вы можете фильтровать поле языка.

В качестве альтернативы, если сайты, которые вы сканируете, не имеют своего языка в javascript, вы можете добавить имя поля для основного текста/основного текста сайта, а затем добавить некоторую проверку в фильтре индексирования, чтобы увидеть, содержит ли он арабский текст.

YYZ 29.01.2015

comment

Можете ли вы объяснить это, поскольку я не слишком хорошо знаком с apache nutch, т.е. что вы подразумеваете под xpathfilterconf, где указать языковое поле и т. д. - Hafiz Muhammad Shafiq; 30.01.2015

Как ограничить Apache Nutch сканированием только документов на определенном языке

Ответы (1)

Похожие вопросы