Вопросы по теме 'nutch'

Разработка плагина Nutch
На вики по Nutch есть инструкции по как создавать плагины для Nutch , но только если вы загрузите все исходное дерево nutch и поместите его туда, ниже $NUTCH_HOME/src/plugin. Я не хочу, чтобы мой исходный код смешивался с их деревом подрывной...
1964 просмотров
schedule 28.11.2022

Профилирование Lucene в Nutch
Я пытаюсь профилировать Nutch с помощью VisualVM. Lucene — это часть ядра Nutch, отвечающая за создание индексов URL и поиск по этим индексам по какому-то запросу. Я запускаю Nutch через Apache Tomcat и хотел бы определить, сколько времени Nutch...
404 просмотров
schedule 26.01.2024

Nutch: получить начальный URL-адрес каждого URL-адреса
Я пытаюсь настроить Nutch как сканер изображений и уже могу получить URL-адреса изображений после сканирования. Теперь я хочу получить исходный URL-адрес каждого URL-адреса изображения, как я могу это сделать? Благодарю вас!
309 просмотров
schedule 09.05.2024

Nutch-Cygwin Как установить JAVA_HOME
я пытаюсь запустить Nutch с Cygwin. У меня проблемы с настройкой JAVA_HOME. $ export JAVA_HOME='/cygdrive/f/program files/java/jdk1.6.0_21' Когда я запускаю команду nutch $ bin/nutch crawl я получил cygpath: can't convert empty...
13957 просмотров
schedule 11.05.2024

nutch и solr для нескольких доменов
Я хочу создать систему пользовательского поиска для нескольких доменов. Как я могу использовать solr с nutch для создания пользовательского поиска для более чем 500 доменов, при этом поиск по каждому домену должен отображать собственные данные....
418 просмотров
schedule 02.12.2022

Ajax-Solr не запрашивает и не находит сервер Solr
Я установил небольшой поисковый сервер с Apache Nutch, Solr и Ajax-Solr в качестве внешнего интерфейса. Если я использую сервер solr из учебника по ajax-solr, все работает нормально, но если я собираюсь использовать свой собственный сервер solr...
193 просмотров
schedule 06.11.2023

Как интегрировать apache nutch с apache solr в linux?
Я использую сервер Glassfish и IDE Eclips. Я уже скачал apache solr и настроил его на стеклянную рыбу. Сейчас воткнул интеграцию nutch с solr. Поскольку я новичок в этих концепциях, может ли кто-нибудь помочь мне в этом?
393 просмотров
schedule 12.11.2022

Правильный импорт Apache nutch в eclipse EE juno с использованием SVN
Я импортировал apache nutch из http://svn.apache.org/repos/asf/nutch/trunk/ через SVN на eclipse; однако проект, который я импортировал, имеет более 10 000 ошибок Java: Некоторые ошибки возникают из-за того, что исходные файлы находятся в...
559 просмотров
schedule 03.03.2024

Nutch может сканировать весь веб-сайт. Есть ли какое-либо правило для сканирования определенного сайта. Требуется ли разрешение, прежде чем начинать сканирование с определенного сайта?
Используя сканер, мы можем выполнять поиск по любому конкретному сайту, но это снизит пропускную способность этого сайта. Есть ли какое-либо правило перед сканированием определенного сайта или с помощью Nutch, мы можем без проблем искать любой сайт. Я...
397 просмотров
schedule 25.01.2024

Нужен краулер с открытым исходным кодом, такой как Apache Nutch без Hadoop
Мне нужен краулер с открытым исходным кодом с такими функциями, как нормализатор URL-адресов, фильтр URL-адресов, синтаксический анализатор, вежливость, за исключением некоторых URL-адресов, но то, что я делаю, в любом случае не является большим. Мне...
1360 просмотров
schedule 25.11.2023

Каковы преимущества применения Apache Tika к Solr вместо Nutch
Я пытаюсь сканировать данные с помощью Apache Nutch и индексировать их с помощью Apache Solr. В рамках этого я также хочу проанализировать содержимое. Я пытаюсь выяснить, лучше ли применять Tika к Nutch, к Solr или к обоим.
112 просмотров
schedule 12.12.2022

Nutch сканирует только несколько ссылок в данном домене
Проблема возникает в Nutch 1.9 с Ubuntu 12.04. Я пытаюсь сканировать ссылки, доступные на веб-сайте. Я дал URL-адрес веб-сайта в файле seed.txt. Я не вносил никаких изменений в конфигурацию по умолчанию, кроме свойства http.agent.name (New) и...
935 просмотров
schedule 23.09.2022

Как ограничить Apache Nutch сканированием только документов на определенном языке
Я использую apache Nutch 2.3 и хочу сканировать только те документы из Интернета, которые написаны на каком-то конкретном языке, предположим, что арабские или, по крайней мере, документы должны содержать некоторую строку на арабском языке. `So is...
323 просмотров
schedule 10.11.2023

Как сканировать и анализировать только точные данные с помощью Nutch?
Я новичок в Nutch и ползаю. Я установил Nutch 2.0, просканировал и проиндексировал данные с помощью Solr 4.5, выполнив несколько базовых руководств. Теперь я не хочу анализировать все текстовое содержимое страницы, я хочу настроить его, как Nutch...
1390 просмотров
schedule 21.09.2022

запустить nutch2.3.1 на hadoop2
Я хочу запустить nutch2.3.1 для сканирования данных на hadoop2. У меня есть 3 узла для hadoop2: Crawler1: мастер краулер2: ведомый Crawler3: ведомый Я развернул nutch2.3.1 на crawler1 и запустил его с помощью следующей команды:...
53 просмотров
schedule 07.11.2022

Фильтр оптической оценки Apache Nutch 2.3.1 не работает
Я настроил Nutch 2.3.1 с полной экосистемой Hadoop/Hbase в небольшом кластере. Мне любопытен алгоритм подсчета очков, используемый в Nutch. Я нашел и использовал опический скоринговый фильтр в Nutch. Чтобы найти его влияние, я проверяю баллы на...
94 просмотров
schedule 05.01.2024

Nutch с solr на https
Доброе утро, я пришел к вам, потому что у меня проблема с Nutch (1.14) и Solr (7.2) поэтому он работает нормально, пока я не установлю SSL. С Solr в http, после завершения сканирования я выполняю эту команду bin/nutch index...
775 просмотров
schedule 14.03.2024

проблема с зависимостями в apache nutch
Пытаюсь интегрировать Apache Nutch с Hadoop. После создания файла apache-nutch-1.15.job, который находится в папке времени выполнения, с помощью ant и попытался запустить скрипт bin/crawl, но получил некоторые ошибки зависимости. Можно увидеть все...
71 просмотров
schedule 08.12.2023

Сканирование Nutch выдает ошибку Ошибка с сервера по адресу http://localhost:8983/solr/nutch: java.lang.NullPointerException
Я пытаюсь просканировать веб-сайт и проиндексировать его с помощью Solr. У меня есть некоторые настраиваемые поля, которые обновляются с помощью UpdateRequestProcessor . Мой пользовательский URP выглядит так: FieldProcessorFactory.java...
67 просмотров
schedule 24.03.2024

Сканер Apache Nutch - сканирование новых введенных URL-адресов только в существующей таблице
Мне нужно сканировать некоторые URL-адреса через Nutch. Для этого я должен каждый раз указывать исходные URL-адреса. Следовательно, они вводятся каждый раз в одну и ту же таблицу. Теперь, по прошествии времени, база данных будет увеличиваться, и на...
62 просмотров
schedule 09.05.2024