Я заинтересован в обучении системы ответов на вопросы поверх поисковых запросов, сгенерированных пользователями, но пока похоже, что такие данные недоступны. Существуют ли какие-либо исследовательские центры или отраслевые лаборатории, которые составили корпуса поисковых запросов?
Где я могу найти корпус поисковых запросов?
Ответы (2)
Есть пара таких наборов данных:
Вебоскоп Yahoo: - http://webscope.sandbox.yahoo.com/catalog.php?datatype=l
Наборы данных Яндекса: - https://www.kaggle.com/c/yandex-personalized-web-search-challenge/data Часть проблемы Kaggle. Вы можете зарегистрироваться и скачать.
Существуют также журналы запросов AOL и журналы запросов MSN, которые были опубликованы как часть общих задач за последние 10 лет. Я не уверен, что они все еще общедоступны. Однако вы можете немного изучить.
person
Aditya
schedule
03.06.2015
Не совсем «открыто» — для Weboscope требуется электронная почта для образовательных учреждений. Kaggle обычно лицензируется только для целей конкурса
- person Doug T.; 28.04.2018
Наборы данных Weboscope/Kaggle имеют определенные ограничения. Я бы предложил наборы данных TREC, такие как этот набор данных с 2009 года
person
Doug T.
schedule
28.04.2018