Robots.txt запрещает сканирование, а не индексацию. Это ключевое различие, которое путают даже опытные SEO-специалисты.
Как это работает
Robots.txt (Disallow) говорит роботу: «Не заходи на эту страницу». Робот не может прочитать контент, но если на страницу есть внешние ссылки — Google знает о её существовании и может показать в выдаче. Сниппет будет пустым или сгенерированным из анкоров ссылок.
Meta noindex говорит: «Не показывай в выдаче». Но чтобы прочитать noindex, робот должен посетить страницу — а robots.txt ему это запрещает. Парадокс.
Правильное решение
- Хотите убрать из индекса: уберите Disallow из robots.txt + поставьте
<meta name="robots" content="noindex">. Робот придёт, увидит noindex и удалит из индекса - Хотите скрыть контент, но оставить в индексе: оставьте Disallow — страница будет в индексе, но без контента в сниппете
- Хотите полностью заблокировать: noindex + Disallow не работает. Используйте noindex БЕЗ Disallow, или HTTP-заголовок
X-Robots-Tag: noindex
Как ускорить удаление из индекса
- Уберите Disallow
- Поставьте noindex
- В GSC используйте «Удаление URL» (временная мера на 6 месяцев)
- Подождите переиндексацию