Как ограничить Apache Nutch сканированием только документов на определенном языке

Я использую apache Nutch 2.3 и хочу сканировать только те документы из Интернета, которые написаны на каком-то конкретном языке, предположим, что арабские или, по крайней мере, документы должны содержать некоторую строку на арабском языке.

`So is there any option in crawler to do this job?`

person Hafiz Muhammad Shafiq    schedule 29.01.2015    source источник


Ответы (1)


Да, вы можете сделать это с Nutch. В вашем nutch xpathfilterconf вы можете указать имя языкового поля и дать ему соответствующее выражение xpath для любых веб-сайтов, которые вы сканируете.

Затем внутри вашего XPathIndexingFilter вы можете фильтровать поле языка.

В качестве альтернативы, если сайты, которые вы сканируете, не имеют своего языка в javascript, вы можете добавить имя поля для основного текста/основного текста сайта, а затем добавить некоторую проверку в фильтре индексирования, чтобы увидеть, содержит ли он арабский текст.

person YYZ    schedule 29.01.2015
comment
Можете ли вы объяснить это, поскольку я не слишком хорошо знаком с apache nutch, т.е. что вы подразумеваете под xpathfilterconf, где указать языковое поле и т. д. - person Hafiz Muhammad Shafiq; 30.01.2015