Запретить индексацию PDF-файлов (Robots.txt)

У меня есть индексируемые ссылки, которые не должны. Мне нужно удалить их из Google. Что я должен ввести в robots.txt Пример ссылки http://sitename.com/wp-content/uploads/2014/02/The-Complete-Program-2014.pdf


person Dimitry B    schedule 20.08.2015    source источник
comment
Что вы пробовали? В Википедии есть хорошее описание файла robots.txt с примерами.   -  person Adrian Schönig    schedule 21.08.2015


Ответы (1)


С помощью файла robots.txt вы можете запретить сканирование, но не индексирование.

С этим robots.txt

User-agent: *
Disallow: /wp-content/uploads/2014/02/The-Complete-Program-2014.pdf

любой URL-адрес, путь которого начинается с /wp-content/uploads/2014/02/The-Complete-Program-2014.pdf, не может быть просканирован.

Но если бот найдет этот URL-адрес каким-либо другим способом (например, по ссылке кем-то другим), он все равно может проиндексировать его (никогда не сканируя/посещая его). То же самое касается поисковых систем, которые уже проиндексировали его: они могут оставить его (но больше не будут его посещать).

Чтобы запретить индексацию, вы можете использовать HTTP-заголовок X-Robots-Tag с параметром noindex. В этом случае вы не должны блокировать сканирование файла в robots.txt, иначе боты никогда не смогут увидеть ваш заголовки (и поэтому они никогда не узнают, что вы не хотите, чтобы этот файл индексировался).

person unor    schedule 22.08.2015