Зачем проверять индексацию страниц
Если страница не попала в индекс поисковика, она не существует для поиска. Не важно, насколько хорошо написан текст, как глубоко проработана семантика или сколько ссылок на неё ведёт — без индексации страница не получит ни одного визита из органики. Проверка индексации — базовая диагностика, которая показывает, сколько страниц сайта реально участвуют в поиске и сколько «потеряно».
На практике я регулярно сталкиваюсь с ситуациями, когда в индексе Яндекса находится 30-50% от реального количества страниц сайта. Причины разные: технические ошибки, тонкий контент, случайные директивы в robots.txt, noindex-теги, дубли. Без регулярной проверки эти проблемы накапливаются и съедают потенциальный трафик.
Пошаговая инструкция
Шаг 1. Определите реальное количество страниц на сайте
Прежде чем сравнивать с индексом, нужно знать, сколько страниц на сайте должно быть проиндексировано. Не все страницы предназначены для поиска — служебные, технические, страницы авторизации индексировать не нужно.
Откройте sitemap.xml вашего сайта (обычно доступен по адресу https://site.ru/sitemap.xml или https://site.ru/sitemap_index.xml). Если используете Yoast SEO или Rank Math, карта сайта генерируется автоматически. Подсчитайте общее количество URL — это ваш ориентир: столько страниц должно быть в индексе.
Для точного подсчёта просканируйте сайт через Screaming Frog. Отфильтруйте только HTML-страницы с кодом ответа 200, не заблокированные в robots.txt и без мета-тега noindex. Это число — ваш «целевой индекс».
Шаг 2. Проверьте индексацию в Яндексе через Вебмастер
Перейдите в Яндекс Вебмастер → «Индексирование» → «Страницы в поиске». Здесь отображается количество страниц, которые Яндекс включил в поисковую выдачу.
Обратите внимание на два показателя:
- Страницы в поиске — страницы, которые реально показываются в результатах Яндекса.
- Исключённые страницы — страницы, которые робот обнаружил, но не включил в индекс. Для каждой исключённой страницы указана причина.
Изучите раздел «Исключённые страницы» — именно здесь скрываются проблемы. Типичные причины исключения:
- Дубль. Яндекс считает, что страница дублирует другую и не видит смысла индексировать обе.
- Недостаточно качественная. Тонкий контент, мало уникального текста, мало полезной информации.
- Заблокирована в robots.txt. Робот не может получить доступ к странице.
- Содержит мета-тег noindex. Прямое указание не индексировать.
- Редирект. Страница перенаправляет на другой URL.
- Ошибка сервера (5xx). Робот не смог загрузить страницу.
Шаг 3. Проверьте индексацию в Google через Search Console
В Google Search Console перейдите в раздел «Страницы» (ранее «Покрытие»). Здесь Google показывает количество проиндексированных страниц и страниц с ошибками.
Фильтры отчёта:
- Действительные (проиндексированные). Страницы в индексе Google.
- Исключённые. Страницы, которые Google обнаружил, но не проиндексировал. Причины аналогичны Яндексу: дубли, noindex, ошибки сканирования, перенаправления.
- С ошибками. Страницы, при сканировании которых возникли проблемы: ошибки сервера, ошибки перенаправления.
Особое внимание обратите на категорию «Обнаружена — на данный момент не проиндексирована» и «Просканировано — на данный момент не проиндексировано». Первая означает, что Google знает о странице, но ещё не сканировал. Вторая — сканировал, но решил не индексировать. Причины второго: низкое качество контента, дублирование, недостаточный авторитет сайта.
Шаг 4. Проверьте оператором site: в поисковиках
Быстрый способ оценить индексацию — оператор site: прямо в поисковой строке:
- В Яндексе:
site:example.ru— покажет примерное количество страниц в индексе. - В Google:
site:example.ru— аналогично.
Этот метод даёт приблизительные цифры, не точные. Используйте его для быстрой оценки, а для детального анализа — Вебмастер и GSC. Если оператор site: показывает 50 страниц, а на сайте их 200 — явный сигнал проблем с индексацией.
Для проверки конкретной страницы используйте полный URL: site:example.ru/uslugi/seo/. Если страница не найдена — она не в индексе.
Шаг 5. Сравните данные и найдите расхождения
Сведите результаты в таблицу:
- Столбец 1: количество страниц на сайте (по данным Screaming Frog или sitemap).
- Столбец 2: количество страниц в индексе Яндекса (Вебмастер).
- Столбец 3: количество страниц в индексе Google (GSC).
В идеале все три числа должны быть близки. Расхождение в 5-10% — нормально, поисковики работают с задержкой. Расхождение в 30% и более — повод для детального разбора.
Выгрузите из Screaming Frog полный список URL с кодом 200 и статусом «индексируемая» (без noindex, без блокировки в robots.txt). Сопоставьте с данными из Вебмастера и GSC. Страницы, которые должны быть в индексе, но отсутствуют — кандидаты на диагностику.
Шаг 6. Устраните причины выпадения из индекса
Для каждой проблемной страницы определите причину и примените соответствующее решение:
Заблокирована в robots.txt. Откройте файл robots.txt и проверьте директивы Disallow. Если важная страница заблокирована — удалите или скорректируйте правило. После изменения пересканируйте robots.txt через Вебмастер (раздел «Анализ robots.txt»).
Мета-тег noindex. Проверьте HTML-код страницы: тег <meta name="robots" content="noindex" /> запрещает индексацию. В WordPress noindex может проставляться плагином Yoast SEO (вкладка «Дополнительно» в редакторе страницы) или глобально для определённых типов контента (Yoast → Настройки → Типы содержимого). Также проверьте HTTP-заголовок X-Robots-Tag — серверный аналог мета-тега.
Тонкий контент. Страницы с минимальным или шаблонным контентом поисковик может не включать в индекс. Решение — добавить уникальный полезный контент: текст, изображения, таблицы, FAQ.
Дублирование. Если страница считается дублем другой, проверьте canonical. Убедитесь, что canonical указывает на правильную основную версию. Если две страницы действительно дублируют друг друга — объедините их контент на одной и настройте 301-редирект со второй.
Ошибки сервера. Если робот получает 5xx при сканировании, страница не попадёт в индекс. Проверьте логи сервера, убедитесь, что сайт стабильно отдаёт код 200 для всех рабочих страниц.
Шаг 7. Ускорьте переиндексацию
После исправления проблем помогите поисковикам быстрее обнаружить изменения:
- В Яндекс Вебмастере: раздел «Индексирование» → «Переобход страниц». Добавьте URL исправленных страниц (лимит — до 20 URL в сутки).
- В Google Search Console: инструмент «Проверка URL». Введите адрес, нажмите «Запросить индексирование». Лимит — несколько десятков запросов в день.
- Обновите sitemap.xml. Убедитесь, что все исправленные страницы включены в карту сайта с актуальной датой
<lastmod>.
Переиндексация после исправлений занимает от нескольких дней до нескольких недель — зависит от авторитета сайта и частоты сканирования.
Типичные ошибки
- Проверять индексацию только через оператор site:. Этот метод даёт приблизительные данные. Точную картину показывают только Вебмастер и GSC.
- Не знать, сколько страниц на сайте должно быть в индексе. Без этого эталонного числа вы не определите масштаб проблемы. Сначала — подсчёт целевых страниц, потом — сравнение с индексом.
- Игнорировать исключённые страницы. Раздел «Исключённые» в Вебмастере и GSC — кладезь информации о проблемах сайта. Каждая причина исключения — сигнал, который нужно разбирать.
- Отправлять в переобход сотни страниц одновременно. Лимиты на переобход существуют не просто так. Массовые запросы не ускоряют процесс — отправляйте приоритетные страницы небольшими порциями.
- Не обновлять sitemap.xml после изменений. Если вы исправили контент, удалили noindex или изменили структуру, но sitemap не обновился — робот может не узнать об изменениях при следующем сканировании.
- Считать, что все страницы должны быть в индексе. Служебные страницы, страницы поиска, пагинация, страницы тегов с минимальным контентом — индексировать их не нужно, и исключение из индекса для них нормально.
- Проверять индексацию один раз. Индексация — динамический процесс. Страницы могут выпадать из индекса после обновлений CMS, смены темы, технических сбоев. Я рекомендую проверять ежемесячно.
Что проверить в итоге
- Вы знаете точное количество страниц на сайте, которые должны быть проиндексированы.
- Количество страниц в индексе Яндекса (Вебмастер) сопоставимо с количеством целевых страниц на сайте (расхождение менее 10%).
- Количество страниц в индексе Google (GSC) сопоставимо с количеством целевых страниц.
- Все причины исключения страниц из индекса изучены и классифицированы.
- Для каждой проблемной группы страниц определено решение: исправление robots.txt, удаление noindex, наращивание контента, устранение дублей.
- Sitemap.xml содержит все целевые страницы и не содержит страниц с ошибками, редиректами или noindex.
- Критически важные страницы (главная, страницы услуг, категории) точно находятся в индексе обоих поисковиков.
- Настроен регулярный мониторинг: ежемесячная проверка количества проиндексированных страниц с фиксацией динамики.