Има ли градивни елементи за търсачка, която да изтрива други сайтове?

Искам да създам услуга за търсене за едно конкретно нещо. Данните са свободно достъпни там, чрез услуги за безплатни обяви и множество други сайтове.

Има ли градивни елементи, напр. роботи с отворен код, които бих персонализирал - вместо да изграждам от нулата, които мога да използвам?

Някакви съвети за създаване на такъв продукт? Не само технически, но и всякакви поверителност/правни неща, които може да трябва да взема под внимание.

напр. трябва ли да "отдам кредит" откъде са резултатите и да сложа връзка към оригинала - ако ги взема от много места?

Редактиране: Между другото, използвам GWT с JS за предния край, не съм решил езика за задния край. Или PHP или Python. мисли?


person marcamillion    schedule 18.06.2009    source източник


Отговори (2)


Има няколко блока в Python, които можете да използвате.

  1. beautifulsoup [http://www.crummy.com/software/BeautifulSoup/] за анализиране на HTML. Може да се справи и с лош код, а неговият API е много лесен... много по-добър от който и да е DOM-подобен инструмент за мен. Моят приятел го използва, за да изтрие стария си phpbb форум с успех. Има доста добри документи.
  2. mechanize [http://wwwsearch.sourceforge.net/mechanize/] е симулиращ уеб браузър http клиентска библиотека. Той обработва бисквитки, попълване на формуляри и така нататък. Също така лесен за използване, но помага, ако разбирате как работи http.
  3. http://dev.scrapy.org/ -- това е сравнително ново нещо: цяла рамка за скрейп въз основа на усукани. Не съм си играл много с него.

Използвам първите две за моите нужди; е.е. има нужда от 20 реда код, за да получи инструмент за автоматично тестване за 3-етапна анкета, със симулация на изчакване потребителят да въведе данни и т.н.

person liori    schedule 18.06.2009
comment
Така че предполагам, че идеята е, че ще създам "скрепер на екрана" и ще анализирам HTML кода и ще извадя полезната информация, след което ще я изхвърля в db? Това ли е общият процес? - person marcamillion; 18.06.2009
comment
За мен беше достатъчно общо... единственото ограничение, което виждам, е, че няма нито javascript, нито флаш двигател за пълна симулация на уеб браузър. Можете обаче да добавите js със свързване на spidermonkey - никога не съм имал нужда от това. - person liori; 20.06.2009

Направих скрийн-скрейпер в Ruby, който отне около пет минути. Явно този пич го има до 60 секунди! Не съм сигурен дали Ruby е толкова мащабируем или бърз, колкото това, което търсите, но никога не съм виждал по-бърз път до доказателство за концепция или прототип.

Тайната е библиотека, наречена "hpricot", която е създадена точно за тази цел.

Не знам нищо за PHP или Python или какво е налично за тези системи/езици за разработка.

Късмет!

person Chris McCall    schedule 18.06.2009
comment
Така че предполагам, че идеята е, че ще създам "скрепер на екрана" и ще анализирам HTML кода и ще извадя полезната информация, след което ще я изхвърля в db? Това ли е общият процес? - person marcamillion; 18.06.2009