Сканирование википедии

Я просматриваю Википедию с помощью загрузчика веб-сайтов для Windows, я просматривал все параметры этого инструмента, чтобы найти возможность загрузки страниц Википедии за определенный период, например, с 2005 года по настоящее время.

Есть ли у кого-нибудь идеи о сканировании веб-сайта в определенный период времени?


person S Gaber    schedule 06.09.2011    source источник


Ответы (4)


Попробуйте API Википедии и свои навыки программирования.

person YuS    schedule 06.09.2011
comment
ну с вики можно брать почти любые данные, в том числе частичные, пред. ревизии и т. д. Попробуйте прочитать его руководство. - person YuS; 06.09.2011
comment
можно ли извлечь значение слова на другом языке с помощью Wikipedia API !!! Как вы думаете, это возможно ? - person S Gaber; 07.10.2011
comment
Не пробовал, но есть свойство langlinks (ll), чтобы получить список всех межъязыковых ссылок с данной страницы, и вы можете получить контент для определенного языка, чтобы затем переключиться на соответствующий поддомен в URL-адресе API. - person YuS; 07.10.2011
comment
да .... Я успешно получаю результат, который хочу, используя API Википедии ... но интересно, вы когда-нибудь имели дело с данными дампа Википедии раньше !!! - person S Gaber; 10.10.2011
comment
Нет. На самом деле у меня почти не было проекта, который работал бы с вики больше, чем для того, чтобы взять какое-то короткое (один абзац) определение для какой-то темы (обычно для какого-то места). Я действительно не вижу смысла использовать его по-другому и отображать полную информацию из вики (если мне нужно, поэтому я просто ставлю ссылку на соответствующую статью в вики), если только вы не пытаетесь написать какую-то вики-обертку. - person YuS; 10.10.2011

Почему бы не загрузить базу данных SQL, содержащую всю Википедию?

Затем вы можете запросить его с помощью SQL.

person seb    schedule 06.09.2011
comment
ссылка там, если я не ошибаюсь на английском языке, как насчет других языков? - person S Gaber; 06.09.2011
comment
Вам нужна ссылка на Google? - person tripleee; 06.09.2011
comment
Кажется, они не предлагают дампы старше 2009 года. DVD, который они продают, похоже, примерно 2007 года. - person tripleee; 06.09.2011
comment
на самом деле, пока я просматриваю данные дампов, если я загружу их все, они займут огромное место на моем жестком диске, я хотел бы загрузить некоторые данные, в частности, я хотел бы загрузить дампы только для некоторых языков. , не весь дамп данных который содержит более 250 языков ! - person S Gaber; 07.09.2011

Не должно быть необходимости делать веб-скрапинг; используйте MediaWiki API для прямого запроса необходимой информации. Я не уверен, что вы подразумеваете под «страницами википедии за определенный период» — вы имеете в виду последние редактируемые в определенное время? Если да, то во время просмотра я заметил вызов API, который позволяет вам просмотреть последние n ревизии; просто запросите последнюю версию и посмотрите, какая у нее дата.

person azernik    schedule 06.09.2011

Это зависит от того, предлагает ли рассматриваемый веб-сайт архив, а в большинстве случаев нет, поэтому невозможно простым способом просканировать образец, начавшийся с определенной даты. Но вы можете внедрить некоторый интеллект в свой сканер, чтобы прочитать дату создания страницы или что-то в этом роде.

Но вы также можете ознакомиться с API Википедии по адресу http://en.wikipedia.org/w/api.php

person Gary Lindahl    schedule 06.09.2011