Где я могу найти корпус поисковых запросов?

Я заинтересован в обучении системы ответов на вопросы поверх поисковых запросов, сгенерированных пользователями, но пока похоже, что такие данные недоступны. Существуют ли какие-либо исследовательские центры или отраслевые лаборатории, которые составили корпуса поисковых запросов?


person mirazour    schedule 02.06.2015    source источник


Ответы (2)


Есть пара таких наборов данных:

Вебоскоп Yahoo: - http://webscope.sandbox.yahoo.com/catalog.php?datatype=l

Наборы данных Яндекса: - https://www.kaggle.com/c/yandex-personalized-web-search-challenge/data Часть проблемы Kaggle. Вы можете зарегистрироваться и скачать.

Существуют также журналы запросов AOL и журналы запросов MSN, которые были опубликованы как часть общих задач за последние 10 лет. Я не уверен, что они все еще общедоступны. Однако вы можете немного изучить.

person Aditya    schedule 03.06.2015
comment
Не совсем «открыто» — для Weboscope требуется электронная почта для образовательных учреждений. Kaggle обычно лицензируется только для целей конкурса - person Doug T.; 28.04.2018

Наборы данных Weboscope/Kaggle имеют определенные ограничения. Я бы предложил наборы данных TREC, такие как этот набор данных с 2009 года

person Doug T.    schedule 28.04.2018