Как настроить robots.txt, чтобы разрешить все?

Мой robots.txt в Инструментах Google для веб-мастеров показывает следующие значения:

User-agent: *
Allow: /

Что это значит? У меня недостаточно знаний об этом, поэтому ищу вашу помощь. Я хочу разрешить всем роботам сканировать мой веб-сайт, это правильная конфигурация?


person Raajpoot    schedule 25.11.2010    source источник
comment
Разрешить не все веб-сканеры, используйте вместо него disavow: (т. Е. Без URL-адреса после:). Это безопаснее (см. youtu.be/G29Zt-UH_Ko)   -  person Jérôme Verstrynge    schedule 09.09.2015


Ответы (4)


Этот файл предоставит доступ всем сканерам

User-agent: *
Allow: /

Это в основном позволяет всем пользовательским агентам (*) работать со всеми частями сайта (/).

person Jim    schedule 25.11.2010
comment
Правильно, если вам не нужно отрицать разрешающую часть. Не разрешено, поэтому сделайте это: User-agent: * Disallow: как показано здесь: robotstxt.org/ robotstxt.html - person vsdev; 08.01.2015
comment
Есть разрешающая часть. Проверьте официальные документы Google developers.google.com/search/reference/robots_txt#allow - person Hasan Sefa Ozalp; 29.07.2020

Если вы хотите разрешить каждому боту сканировать все, это лучший способ указать это в своем файле robots.txt:

User-agent: *
Disallow:

Обратите внимание, что поле Disallow имеет пустое значение, что означает согласно спецификации:

Любое пустое значение указывает, что можно получить все URL-адреса.


Ваш способ (с Allow: / вместо Disallow:) тоже работает, но Allow не является частью исходной спецификации robots.txt, поэтому он поддерживается не всеми ботами (хотя многие популярные его поддерживают, как Googlebot). Тем не менее, нераспознанные поля следует игнорировать, а для ботов, которые не распознают Allow, результат в любом случае будет таким же: если сканирование ничего не запрещено (с Disallow), сканирование разрешено для всего.
Однако формально (согласно исходной спецификации) это недопустимая запись, потому что требуется хотя бы одно поле Disallow:

В записи должно присутствовать хотя бы одно поле Disallow.

person unor    schedule 09.06.2017

Я понимаю, что это довольно старый вопрос и на него есть довольно хорошие ответы. Но вот мои два цента для полноты картины.

Согласно официальной документации, существует четыре способа предоставить роботам полный доступ к твой сайт.

Чистый:

Укажите глобальный сопоставитель с запрещающим сегментом, как указано @unor. Итак, ваш /robots.txt выглядит так.

User-agent: *
Disallow:

Взлом:

Создайте /robots.txt файл без содержимого. По умолчанию будет разрешено все для всех типов Bots.

Мне все равно:

Не создавайте /robots.txt вообще. Что должно дать те же результаты, что и два выше.

Уродливый:

Из документации роботов для метатегов вы можете использовать следующий метатег на всех своих страниц вашего сайта, чтобы Bots знал, что эти страницы не должны индексироваться.

<META NAME="ROBOTS" CONTENT="NOINDEX">

Чтобы это применимо ко всему вашему сайту, вам нужно будет добавить этот метатег для всех своих страниц. И этот тег следует размещать строго под вашим тегом HEAD страницы. Подробнее об этом метатеге здесь.

person Raja Anbazhagan    schedule 25.12.2017
comment
Однако отсутствие robots.txt и Wordpress - плохая комбинация, потому что WordPress генерирует виртуальный robots.txt. Если только вы не довольны тем, что генерирует WordPress. - person Jesper; 18.10.2019
comment
А как насчет TYPO3? У него по умолчанию есть карта сайта? - person Mithun Jack; 02.10.2020
comment
Почему я не создал ни одного файла robots.txt и все еще индексируется, но заблокирован файлом robots.txt? - person Román; 15.02.2021
comment
у вас есть URL-адрес веб-сайта ?. - person Raja Anbazhagan; 16.02.2021

Это означает, что вы разрешаете каждому (*) пользовательскому агенту / сканеру доступ к корню (/) вашего сайта. Ты в порядке.

person Jordi    schedule 25.11.2010
comment
нет поля Разрешить, согласно robotstxt.org/robotstxt.html, поэтому я бы осторожно использовать это. В Википедии упоминается, что некоторые основные сканеры поддерживают директиву Allow, которая может противодействовать следующей директиве Disallow: en.wikipedia. org / wiki / Robots_exclusion_standard # Allow_directive - person Mackaaij; 04.12.2014