Я программист Perl с несколькими хорошими сценариями, которые выбирают HTTP-страницы (из текстового файла-списка URL-адресов) с помощью cURL и сохраняют их в папку.
Однако количество страниц, которые нужно получить, исчисляется десятками миллионов. Иногда скрипт дает сбой на номере 170 000 и мне приходится заново запускать скрипт вручную. Он автоматически считывает URL-адрес и видит, загружена ли страница, и пропускает ее. Но с несколькими сотнями тысяч все еще требуется несколько часов, чтобы вернуться к тому месту, где он остановился. Очевидно, что в итоге это не сработает.
Мне сказали, что вместо сохранения в текстовый файл, который трудно найти и изменить, мне нужно использовать базу данных. Я не очень разбираюсь в базах данных, год назад просто возился с MySQL на школьном сервере. Мне просто нужна возможность добавлять миллионы строк и несколько статических столбцов, искать/изменять один быстро и делать все это локально в локальной сети (или на одном компьютере, если это сложно). И, конечно же, мне нужно получить доступ к этой базе данных с помощью perl.
С чего начать? Что мне нужно скачать, чтобы запустить сервер в Windows? Какие модули Perl следует использовать? (Я использую дистрибутив ActiveState)