Как избежать того, чтобы Mechanize анализировал URL-адрес файла или изображения?

Я использую механизм драгоценных камней в своем приложении для рельсов, чтобы удалить данные веб-страницы. Я использую это следующим образом:

agent = Mechanize.new
document = agent.get("http://www.google.com")

Это работает просто отлично, и ответ быстрый. Однако, когда URL-адрес возвращает файл или изображение, он загружает файл, и это может занять некоторое время. Но меня даже не интересует содержимое файла, я просто хочу избежать их извлечения.

agent = Mechanize.new
document = agent.get("https://speakerd.s3.amazonaws.com/presentations/42e9703056c60131ff9556cea4acc4c2/Buildlightsaber_preso.pdf")

У Mechanize есть какие-то настройки для этого? Или я должен создать какое-то регулярное выражение, прежде чем проверять URL-адреса (но это звучит не масштабируемо)?

Спасибо!


person Luccas    schedule 09.07.2014    source источник


Ответы (1)


Решил эту проблему, выполнив быстрый поиск с помощью RestClient.

url = "https://speakerd.s3.amazonaws.com/presentations/42e9703056c60131ff9556cea4acc4c2/Buildlightsaber_preso.pdf" 
(RestClient.head(url).headers[:content_type] =~ /text\/html/).nil?
person Luccas    schedule 09.07.2014