Как мне создать инструмент поиска на веб-странице Java

Я хочу искать веб-страницы с помощью инструмента Java, который может сказать мне, находит ли он строки, которые я попросил искать. Дело в том, что веб-страницы, которые я хочу найти, содержат текст в полях наведения, который также нуждается в поиске.

Я хочу, чтобы он автоматически искал страницы (у них есть номера страниц в URL-адресе) и давал мне сообщение или что-то, что говорит мне о местонахождении строки (строк), и продолжал поиск.

Любая помощь будет оценена по достоинству!


person Michael Jarvis    schedule 07.06.2013    source источник


Ответы (2)


Вы можете взглянуть на Selenium, автоматизатор браузера.

person Toilal    schedule 07.06.2013
comment
Selenium предназначен для проверки работы функций интерфейса, а не для поиска страниц. - person Catfish; 07.06.2013
comment
@Catfish Отвертка может быть для закручивания винтов, но это не значит, что вы не можете использовать ее как монтировку, если это то, что у вас есть. Я использовал Selenium для парсинга веб-страниц, и, хотя это может быть не самое элегантное решение, оно обеспечило ЧРЕЗВЫЧАЙНО быстрое прототипирование. Он также поставляется с плагином Firefox, который позволяет записывать макросы. Однако я не знаю, сможете ли вы перевести эти макросы в Chrome. - person JohnFilleau; 07.06.2013
comment
Конечно... Selenium API написан на Java и чертовски эффективен. Он работает с хромом и многими другими браузерами. - person Toilal; 07.06.2013
comment
Я не использовал Selenium больше, чем для тестирования интерфейса, поэтому похоже, что я исправлен. - person Catfish; 07.06.2013
comment
@Catfish Проблема заключается не в поиске данных на одной веб-странице, а в сканировании нескольких страниц и захвате данных, которые могут быть отображены, например, с помощью Javascript (= поля наведения). Веб-автомат — единственный способ сделать это эффективно, а Selenium — просто лучший инструмент. Selenium можно легко встроить в программное обеспечение Java. - person Toilal; 07.06.2013
comment
@Toilal Сложно настроить? Боюсь, мне может понадобиться помощь в этом вопросе - person Michael Jarvis; 07.06.2013
comment
Если вы используете maven, перейдите на эту страницу, чтобы настроить проект. docs.seleniumhq.org/download/maven.jsp Тогда API действительно легко использовать, он будет имитировать браузер из Java, и вы можете перемещаться как пользователь, используя селекторы CSS или XPath. Если вы свободно владеете CSS или XPath, это будет легко... См. учебник по Google Code: code.google.com/p/selenium/wiki/GettingStarted - person Toilal; 07.06.2013

Lucene может приблизить вас к тому, что вы ищете. Это просто инструмент поиска, но его можно настроить по своему усмотрению. В противном случае вам, вероятно, придется написать что-то подобное.

person Catfish    schedule 07.06.2013