Как настроить robots.txt, чтобы разрешить все?

Мой robots.txt в Инструментах Google для веб-мастеров показывает следующие значения:

User-agent: *
Allow: /

Что это значит? У меня недостаточно знаний об этом, поэтому ищу вашу помощь. Я хочу разрешить всем роботам сканировать мой веб-сайт, это правильная конфигурация?

robots.txt

Raajpoot 25.11.2010 источник

comment

Разрешить не все веб-сканеры, используйте вместо него disavow: (т. Е. Без URL-адреса после:). Это безопаснее (см. youtu.be/G29Zt-UH_Ko) - Jérôme Verstrynge 09.09.2015

Ответы (4)

arrow_upward
166
arrow_downward

Этот файл предоставит доступ всем сканерам

User-agent: *
Allow: /

Это в основном позволяет всем пользовательским агентам (*) работать со всеми частями сайта (/).

Jim 25.11.2010

comment

Правильно, если вам не нужно отрицать разрешающую часть. Не разрешено, поэтому сделайте это: User-agent: * Disallow: как показано здесь: robotstxt.org/ robotstxt.html - vsdev; 08.01.2015

comment

Есть разрешающая часть. Проверьте официальные документы Google developers.google.com/search/reference/robots_txt#allow - Hasan Sefa Ozalp; 29.07.2020

arrow_upward
75
arrow_downward

Если вы хотите разрешить каждому боту сканировать все, это лучший способ указать это в своем файле robots.txt:

User-agent: *
Disallow:

Обратите внимание, что поле Disallow имеет пустое значение, что означает согласно спецификации:

Любое пустое значение указывает, что можно получить все URL-адреса.

Ваш способ (с Allow: / вместо Disallow:) тоже работает, но Allow не является частью исходной спецификации robots.txt, поэтому он поддерживается не всеми ботами (хотя многие популярные его поддерживают, как Googlebot). Тем не менее, нераспознанные поля следует игнорировать, а для ботов, которые не распознают Allow, результат в любом случае будет таким же: если сканирование ничего не запрещено (с Disallow), сканирование разрешено для всего.
Однако формально (согласно исходной спецификации) это недопустимая запись, потому что требуется хотя бы одно поле Disallow:

В записи должно присутствовать хотя бы одно поле Disallow.

unor 09.06.2017

arrow_upward
17
arrow_downward

Я понимаю, что это довольно старый вопрос и на него есть довольно хорошие ответы. Но вот мои два цента для полноты картины.

Согласно официальной документации, существует четыре способа предоставить роботам полный доступ к твой сайт.

Чистый:

Укажите глобальный сопоставитель с запрещающим сегментом, как указано @unor. Итак, ваш /robots.txt выглядит так.

User-agent: *
Disallow:

Взлом:

Создайте /robots.txt файл без содержимого. По умолчанию будет разрешено все для всех типов Bots.

Мне все равно:

Не создавайте /robots.txt вообще. Что должно дать те же результаты, что и два выше.

Уродливый:

Из документации роботов для метатегов вы можете использовать следующий метатег на всех своих страниц вашего сайта, чтобы Bots знал, что эти страницы не должны индексироваться.

<META NAME="ROBOTS" CONTENT="NOINDEX">

Чтобы это применимо ко всему вашему сайту, вам нужно будет добавить этот метатег для всех своих страниц. И этот тег следует размещать строго под вашим тегом HEAD страницы. Подробнее об этом метатеге здесь.

Raja Anbazhagan 25.12.2017

comment

Однако отсутствие robots.txt и Wordpress - плохая комбинация, потому что WordPress генерирует виртуальный robots.txt. Если только вы не довольны тем, что генерирует WordPress. - Jesper; 18.10.2019

comment

А как насчет TYPO3? У него по умолчанию есть карта сайта? - Mithun Jack; 02.10.2020

comment

Почему я не создал ни одного файла robots.txt и все еще индексируется, но заблокирован файлом robots.txt? - Román; 15.02.2021

comment

у вас есть URL-адрес веб-сайта ?. - Raja Anbazhagan; 16.02.2021

arrow_upward
8
arrow_downward

Это означает, что вы разрешаете каждому (*) пользовательскому агенту / сканеру доступ к корню (/) вашего сайта. Ты в порядке.

Jordi 25.11.2010

comment

нет поля Разрешить, согласно robotstxt.org/robotstxt.html, поэтому я бы осторожно использовать это. В Википедии упоминается, что некоторые основные сканеры поддерживают директиву Allow, которая может противодействовать следующей директиве Disallow: en.wikipedia. org / wiki / Robots_exclusion_standard # Allow_directive - Mackaaij; 04.12.2014

Как настроить robots.txt, чтобы разрешить все?

Ответы (4)

Чистый:

Взлом:

Мне все равно:

Уродливый:

Похожие вопросы