Проблеми с ограничените URL адреси на YQL robots.txt

Разработвам уеб приложение, което включва следната YQL заявка:

SELECT * FROM html WHERE url="{URL}" and xpath="*"

Разположих нова версия миналата седмица и забелязах, че страницата виси на YQL заявката. Когато се върнах вчера, проблемът изглежда се е оправил през уикенда. Току-що разположих нова версия на сървъра и проблемът се появи отново. Сървърният стек е Ngnix / Passenger / Sinatra

При пробиване на заявката в конзолата YQL получавам грешка: „Заявка за ограничен URL адрес на robots.txt:“

Добавих следния robots.txt:

User-agent: Yahoo Pipes 2.0
Allow: /

Но това изглежда не прави нищо.

мисли? За мен е доста любопитно защо YQL съобщава, че URL адресът е ограничен от robots.txt, когато не е.


person existentialmutt    schedule 03.05.2011    source източник


Отговори (2)


Имах същия проблем. Имам подозрение, че това отчасти е проблем от страна на Yahoo.

В моите приложения на Sinatra добавих...

get 'robots.txt' do
"User-agent: * Allow: /"
end

Това ще работи от време на време... и след това достъпът ще бъде отказан отново за определен период от време.

Ако използвате това, за да избегнете проблеми с кръстосани домейни с javascript... В крайна сметка се предадох и използвах локален PHP скрипт за извличане на данни, вместо да използвам YQL.

person mscccc    schedule 06.05.2011

Помислете за добавяне на &diagnostics=true в YQL заявката. При мен се получи.

person nidheeshdas    schedule 27.08.2013