Зачем это нужно
robots.txt — это первый файл, который запрашивает любой краулер, включая YandexBot, GPTBot и PerplexityBot. Случайный Disallow на важный раздел перекрывает доступ ко всему контенту, и страницы выпадают из обучающих данных нейросетей. Авторитетность источника здесь не спасает: краулер просто не зайдёт.
Как сделать
- Открыть
https://ваш-сайт.ru/robots.txtи проверить что нет правилDisallow: /uslugi*,Disallow: /blog*,Disallow: /catalog* - Закрывать только админку (
/wp-admin/), системные пути, корзину, поиск - Указать путь к sitemap.xml в конце файла:
Sitemap: https://ваш-сайт.ru/sitemap.xml - Для разных ботов можно прописать отдельные секции, но универсальный
User-agent: *покрывает большинство случаев - Не путать с llms.txt — этот файл нейросети пока не учитывают, тратить время на него не стоит
Как проверить
Я.Вебмастер → «Анализ robots.txt» — позволяет проверить любой URL и узнать, открыт он для индексации или нет. Google Search Console → «Инструмент проверки robots.txt» — то же самое для Googlebot. Если важная страница закрыта — Я.Вебмастер сразу подсветит правило, которое её блокирует.
Типичные ошибки
Шаблон CMS оставил Disallow: / в режиме разработки и его забыли убрать после запуска. Закрыли /wp-content/ целиком, из-за чего боты не видят CSS и JS — страница рендерится криво.