У меня есть индексируемые ссылки, которые не должны. Мне нужно удалить их из Google. Что я должен ввести в robots.txt Пример ссылки http://sitename.com/wp-content/uploads/2014/02/The-Complete-Program-2014.pdf
Запретить индексацию PDF-файлов (Robots.txt)
Ответы (1)
С помощью файла robots.txt вы можете запретить сканирование, но не индексирование.
С этим robots.txt
User-agent: *
Disallow: /wp-content/uploads/2014/02/The-Complete-Program-2014.pdf
любой URL-адрес, путь которого начинается с /wp-content/uploads/2014/02/The-Complete-Program-2014.pdf
, не может быть просканирован.
Но если бот найдет этот URL-адрес каким-либо другим способом (например, по ссылке кем-то другим), он все равно может проиндексировать его (никогда не сканируя/посещая его). То же самое касается поисковых систем, которые уже проиндексировали его: они могут оставить его (но больше не будут его посещать).
Чтобы запретить индексацию, вы можете использовать HTTP-заголовок X-Robots-Tag
с параметром noindex
. В этом случае вы не должны блокировать сканирование файла в robots.txt, иначе боты никогда не смогут увидеть ваш заголовки (и поэтому они никогда не узнают, что вы не хотите, чтобы этот файл индексировался).