Запретить индексацию PDF-файлов (Robots.txt)

У меня есть индексируемые ссылки, которые не должны. Мне нужно удалить их из Google. Что я должен ввести в robots.txt Пример ссылки http://sitename.com/wp-content/uploads/2014/02/The-Complete-Program-2014.pdf

robots.txt google-search

Dimitry B 20.08.2015 источник

comment

Что вы пробовали? В Википедии есть хорошее описание файла robots.txt с примерами. - Adrian Schönig 21.08.2015

Ответы (1)

arrow_upward
0
arrow_downward

С помощью файла robots.txt вы можете запретить сканирование, но не индексирование.

С этим robots.txt

User-agent: *
Disallow: /wp-content/uploads/2014/02/The-Complete-Program-2014.pdf

любой URL-адрес, путь которого начинается с /wp-content/uploads/2014/02/The-Complete-Program-2014.pdf, не может быть просканирован.

Но если бот найдет этот URL-адрес каким-либо другим способом (например, по ссылке кем-то другим), он все равно может проиндексировать его (никогда не сканируя/посещая его). То же самое касается поисковых систем, которые уже проиндексировали его: они могут оставить его (но больше не будут его посещать).

Чтобы запретить индексацию, вы можете использовать HTTP-заголовок X-Robots-Tag с параметром noindex. В этом случае вы не должны блокировать сканирование файла в robots.txt, иначе боты никогда не смогут увидеть ваш заголовки (и поэтому они никогда не узнают, что вы не хотите, чтобы этот файл индексировался).

unor 22.08.2015

Запретить индексацию PDF-файлов (Robots.txt)

Ответы (1)

Похожие вопросы