Вопросы по теме 'nutch'
Разработка плагина Nutch
На вики по Nutch есть инструкции по как создавать плагины для Nutch , но только если вы загрузите все исходное дерево nutch и поместите его туда, ниже $NUTCH_HOME/src/plugin. Я не хочу, чтобы мой исходный код смешивался с их деревом подрывной...
1964 просмотров
schedule
28.11.2022
Профилирование Lucene в Nutch
Я пытаюсь профилировать Nutch с помощью VisualVM. Lucene — это часть ядра Nutch, отвечающая за создание индексов URL и поиск по этим индексам по какому-то запросу. Я запускаю Nutch через Apache Tomcat и хотел бы определить, сколько времени Nutch...
404 просмотров
schedule
26.01.2024
Nutch: получить начальный URL-адрес каждого URL-адреса
Я пытаюсь настроить Nutch как сканер изображений и уже могу получить URL-адреса изображений после сканирования. Теперь я хочу получить исходный URL-адрес каждого URL-адреса изображения, как я могу это сделать? Благодарю вас!
309 просмотров
schedule
09.05.2024
Nutch-Cygwin Как установить JAVA_HOME
я пытаюсь запустить Nutch с Cygwin. У меня проблемы с настройкой JAVA_HOME.
$ export JAVA_HOME='/cygdrive/f/program files/java/jdk1.6.0_21'
Когда я запускаю команду nutch
$ bin/nutch crawl
я получил
cygpath: can't convert empty...
13957 просмотров
schedule
11.05.2024
nutch и solr для нескольких доменов
Я хочу создать систему пользовательского поиска для нескольких доменов. Как я могу использовать solr с nutch для создания пользовательского поиска для более чем 500 доменов, при этом поиск по каждому домену должен отображать собственные данные....
418 просмотров
schedule
02.12.2022
Ajax-Solr не запрашивает и не находит сервер Solr
Я установил небольшой поисковый сервер с Apache Nutch, Solr и Ajax-Solr в качестве внешнего интерфейса. Если я использую сервер solr из учебника по ajax-solr, все работает нормально, но если я собираюсь использовать свой собственный сервер solr...
193 просмотров
schedule
06.11.2023
Как интегрировать apache nutch с apache solr в linux?
Я использую сервер Glassfish и IDE Eclips. Я уже скачал apache solr и настроил его на стеклянную рыбу. Сейчас воткнул интеграцию nutch с solr.
Поскольку я новичок в этих концепциях, может ли кто-нибудь помочь мне в этом?
393 просмотров
schedule
12.11.2022
Правильный импорт Apache nutch в eclipse EE juno с использованием SVN
Я импортировал apache nutch из http://svn.apache.org/repos/asf/nutch/trunk/ через SVN на eclipse; однако проект, который я импортировал, имеет более 10 000 ошибок Java:
Некоторые ошибки возникают из-за того, что исходные файлы находятся в...
559 просмотров
schedule
03.03.2024
Nutch может сканировать весь веб-сайт. Есть ли какое-либо правило для сканирования определенного сайта. Требуется ли разрешение, прежде чем начинать сканирование с определенного сайта?
Используя сканер, мы можем выполнять поиск по любому конкретному сайту, но это снизит пропускную способность этого сайта. Есть ли какое-либо правило перед сканированием определенного сайта или с помощью Nutch, мы можем без проблем искать любой сайт. Я...
397 просмотров
schedule
25.01.2024
Нужен краулер с открытым исходным кодом, такой как Apache Nutch без Hadoop
Мне нужен краулер с открытым исходным кодом с такими функциями, как нормализатор URL-адресов, фильтр URL-адресов, синтаксический анализатор, вежливость, за исключением некоторых URL-адресов, но то, что я делаю, в любом случае не является большим. Мне...
1360 просмотров
schedule
25.11.2023
Каковы преимущества применения Apache Tika к Solr вместо Nutch
Я пытаюсь сканировать данные с помощью Apache Nutch и индексировать их с помощью Apache Solr.
В рамках этого я также хочу проанализировать содержимое. Я пытаюсь выяснить, лучше ли применять Tika к Nutch, к Solr или к обоим.
112 просмотров
schedule
12.12.2022
Nutch сканирует только несколько ссылок в данном домене
Проблема возникает в Nutch 1.9 с Ubuntu 12.04. Я пытаюсь сканировать ссылки, доступные на веб-сайте. Я дал URL-адрес веб-сайта в файле seed.txt. Я не вносил никаких изменений в конфигурацию по умолчанию, кроме свойства http.agent.name (New) и...
935 просмотров
schedule
23.09.2022
Как ограничить Apache Nutch сканированием только документов на определенном языке
Я использую apache Nutch 2.3 и хочу сканировать только те документы из Интернета, которые написаны на каком-то конкретном языке, предположим, что арабские или, по крайней мере, документы должны содержать некоторую строку на арабском языке.
`So is...
323 просмотров
schedule
10.11.2023
Как сканировать и анализировать только точные данные с помощью Nutch?
Я новичок в Nutch и ползаю. Я установил Nutch 2.0, просканировал и проиндексировал данные с помощью Solr 4.5, выполнив несколько базовых руководств. Теперь я не хочу анализировать все текстовое содержимое страницы, я хочу настроить его, как Nutch...
1390 просмотров
schedule
21.09.2022
запустить nutch2.3.1 на hadoop2
Я хочу запустить nutch2.3.1 для сканирования данных на hadoop2. У меня есть 3 узла для hadoop2:
Crawler1: мастер
краулер2: ведомый
Crawler3: ведомый
Я развернул nutch2.3.1 на crawler1 и запустил его с помощью следующей команды:...
53 просмотров
schedule
07.11.2022
Фильтр оптической оценки Apache Nutch 2.3.1 не работает
Я настроил Nutch 2.3.1 с полной экосистемой Hadoop/Hbase в небольшом кластере. Мне любопытен алгоритм подсчета очков, используемый в Nutch. Я нашел и использовал опический скоринговый фильтр в Nutch. Чтобы найти его влияние, я проверяю баллы на...
94 просмотров
schedule
05.01.2024
Nutch с solr на https
Доброе утро, я пришел к вам, потому что у меня проблема с Nutch (1.14) и Solr (7.2)
поэтому он работает нормально, пока я не установлю SSL.
С Solr в http, после завершения сканирования я выполняю эту команду
bin/nutch index...
775 просмотров
schedule
14.03.2024
проблема с зависимостями в apache nutch
Пытаюсь интегрировать Apache Nutch с Hadoop. После создания файла apache-nutch-1.15.job, который находится в папке времени выполнения, с помощью ant и попытался запустить скрипт bin/crawl, но получил некоторые ошибки зависимости. Можно увидеть все...
71 просмотров
schedule
08.12.2023
Сканирование Nutch выдает ошибку Ошибка с сервера по адресу http://localhost:8983/solr/nutch: java.lang.NullPointerException
Я пытаюсь просканировать веб-сайт и проиндексировать его с помощью Solr. У меня есть некоторые настраиваемые поля, которые обновляются с помощью UpdateRequestProcessor . Мой пользовательский URP выглядит так:
FieldProcessorFactory.java...
67 просмотров
schedule
24.03.2024
Сканер Apache Nutch - сканирование новых введенных URL-адресов только в существующей таблице
Мне нужно сканировать некоторые URL-адреса через Nutch. Для этого я должен каждый раз указывать исходные URL-адреса. Следовательно, они вводятся каждый раз в одну и ту же таблицу. Теперь, по прошествии времени, база данных будет увеличиваться, и на...
62 просмотров
schedule
09.05.2024