Какие бесплатные/платные поисковые API позволяют выполнять программные запросы и кэшировать/хранить полученные данные?

Если вы провели какое-либо серьезное исследование поисковых API, вы знаете, что большинство из них имеют огромное количество ограничений TOS/TOU, которые делают их почти невозможными для использования в каких-либо приложениях, кроме самых бессмысленных.

API Bing 2.0, Yahoo Search BOSS, Google Places, поиск Google AJAX (мертвый) и другие слишком ограничивают нас. Мне нужно выполнить конечное и относительно небольшое количество запросов (возможно, 500 000) только один раз, сохраняя определенные данные из результатов для использования в нашем приложении.

Например, нам нужно сопоставить названия компаний с их целевыми веб-сайтами (мы написали алгоритм, чтобы сделать «наилучшее предположение» из набора результатов, если это необходимо; нам просто нужен стандартный набор результатов). Кроме того, нам необходимо сопоставить адрес с рассматриваемой компанией.

К сожалению, я не могу найти поисковый API ZERO, который позволит нам запускать запросы программным способом, не инициируемым пользователем.

Мы даже очень хотим дать кому-нибудь живые деньги за доступ к такого рода данным; Google, Bing, Yahoo и другие, похоже, просто не хотят наших денег (о чем свидетельствуют их TOS)...

Есть предположения?


person rinogo    schedule 31.08.2011    source источник
comment
Всем привет! Я вижу, что это получило близкое голосование. Если есть сообщество SO, которое было бы более подходящим для этого вопроса, дайте мне знать. Я честно просмотрел их все, и оригинальный SO показался мне наиболее актуальным. Спасибо! :)   -  person rinogo    schedule 01.09.2011
comment
Вы пробовали Блекко? Что вы имеете в виду, говоря, что я могу найти ZERO поисковые API, которые позволят нам запускать запросы программным способом, не инициируемым пользователем? Была дискуссия вокруг системы пользовательского поиска Google, имеющей возможность искать по всей сети (добавляя сайт и удаляя его позже). Также вы можете купить кредиты для Системы пользовательского поиска, хотя некоторые пользователи обнаружили ограничение даже в этом случае. В любом случае, я понимаю вашу точку зрения об ограничениях текущих поисковых API, и Google — лучшая поисковая система, даже если другие конкурируют, никто не имеет большего индекса.   -  person sw.    schedule 01.09.2011
comment
Большое спасибо за ответ, sw. По вашему предложению я проверил Blekko, и их ТУ также довольно ограничительны. (В настоящее время, однако, есть проблеск надежды на Blekko API: dev-ops.net/2011/02/02/ ) Google CSE нам не подойдет; мы предпочитаем долгосрочное законное решение, а не краткосрочный, юридически сомнительный патч. У нас есть деньги и мы готовы с ними расстаться! :) Почему ни одно из крупных имен не хочет приспосабливаться к организациям с законными деловыми потребностями, как у нас?   -  person rinogo    schedule 02.09.2011
comment
Я даже написал об этом статью: blog.databigbang.com/google-search -no-api, так как там есть возможность для бизнеса. Я думаю, что в вашем случае вы должны добавить комбинацию [многих] источников данных, но смешивать/очищать/и т.д. данные будет непросто. Мне будет интересно обсудить это в чате, так как это очень интересная тема. Сейчас я на #bigdata на freenode.   -  person sw.    schedule 03.09.2011


Ответы (2)


Свободно доступный индекс 5 миллиардов веб-страниц, их ранжирования, графиков ссылок и других метаданных, размещенный на Amazon EC2.

http://commoncrawl.org/

Их Условия обслуживания (или TOU) также довольно разумны и неограниченны:

http://commoncrawl.org/about/terms-of-use/

person seanieb    schedule 10.06.2012
comment
Не особо изучал этот вопрос (может быть, он удовлетворит требованиям, не уверен); Я решил добавить это как комментарий: 80legs.com - person rinogo; 04.03.2014