Закрывайте то, что роботу видеть не нужно
Robots.txt управляет краулингом — какие URL робот будет сканировать. Это не инструмент индексации: закрытая страница может оказаться в индексе, если на неё ведут ссылки. Но правильная настройка экономит краулинговый бюджет.
Что закрывать обязательно
- Административные разделы: /wp-admin/, /admin/, /bitrix/admin/
- Корзина, кабинет, оформление: /cart/, /account/, /checkout/
- Внутренний поиск: /?s= — создаёт тысячи дублей. Самая частая проблема на аудитах
- Параметры сортировки: ?sort=, ?order=
- Служебные файлы: *.sql, *.log, /backup/, /tmp/
- Авторизация: /login/, /register/, /wp-login.php
Что закрывать нельзя
- CSS и JavaScript: Google и Яндекс рендерят страницы — им нужны стили и скрипты
- Изображения: если хотите трафик из Яндекс.Картинок — не закрывайте /uploads/
- Страницы с контентом: для исключения из индекса используйте meta robots noindex, а не robots.txt
Типичная структура для WordPress
- Disallow для /wp-admin/ (кроме /wp-admin/admin-ajax.php)
- Disallow для /?s=, /cart/, /checkout/, /account/
- Allow для /wp-content/uploads/, /wp-content/themes/
- Sitemap: https://site.ru/sitemap_index.xml
Как проверить
Три способа: инструмент в Яндекс Вебмастере, отчёт «Сканирование» в Google Search Console, и Screaming Frog — вкладка Response Codes покажет все заблокированные URL. Если среди них нужные страницы — исправляйте немедленно.
Практический совет: регулярно проверяйте robots.txt через инструменты Google Search Console или сервисы типа Screaming Frog. Особенно после обновлений CMS — плагины часто создают новые технические разделы. Я всегда добавляю директиву Disallow: /*?* для фильтров и сортировок, но оставляю исключения для важных параметров (например, Allow: /*?utm_*). Для WordPress закрывайте /wp-json/, /xmlrpc.php и /feed/ — они редко нужны для SEO, но могут стать дырами в безопасности.
Важный нюанс: не блокируйте CSS/JS в robots.txt — Google воспринимает это как сигнал к «облегчённому» сканированию. Если нужно скрыть контент полностью, используйте метатег noindex или пароль. Для мультиязычных сайтов проверяйте дубли через параметры (?lang=en), а не через поддиректории (/en/), которые должны быть доступны для краулеров. Мой чеклист включает 20+ пунктов — пишите в комментариях, какие разделы вас интересуют особо.