Управление краулинговым бюджетом (Crawl Budget) сайта — это комплекс мер по оптимизации количества и частоты сканирования страниц поисковыми роботами для эффективной и быстрой индексации важного контента. Без этого крупные сайты теряют позиции не из-за плохого контента, а из-за того что бот просто не добирается до нужных страниц.

Ключевые факты
- Crawl Budget = crawl rate (скорость) x crawl demand (приоритет) — два независимых параметра
- Проблемы с бюджетом начинаются от 10 000+ страниц — для малых сайтов это не приоритет
- Дубли, фасетная навигация, пустые страницы пагинации — главные пожиратели бюджета
- robots.txt: закрыть от краулинга технические страницы, но не путать с индексацией
- Серверные логи — единственный источник правды о том как робот сканирует сайт
- Скорость ответа сервера < 200мс — иначе робот снижает частоту сканирования
- XML-карта сайта с приоритетами — подсказка роботу какие страницы важнее
Главное: До 30% краулингового бюджета на среднем сайте тратится на дубли, технические ошибки и страницы без SEO-ценности.
Что такое краулинговый бюджет
До 30% краулингового бюджета на среднем сайте тратится на дубли, технические ошибки и страницы без SEO-ценности. Оптимизация этого расхода ускоряет индексацию новых страниц на 50–70%. Для сайтов от 10 000 страниц — это не опция, а необходимость.
Crawl budget — это количество страниц сайта, которые поисковый робот готов обойти за определённый период времени. Не бесконечное число — у каждого сайта есть лимит, и бот расходует его по своим правилам.
Google формирует crawl budget из двух составляющих.
Crawl rate limit — максимальная скорость сканирования, которую может выдержать сервер без деградации. Если бот перегружает сервер — он автоматически снижает частоту запросов. Медленный сервер = меньше страниц в единицу времени.
Crawl demand — воспринимаемая ценность сайта и его страниц. Чем популярнее сайт, чем активнее обновляется контент — тем выше спрос на сканирование со стороны алгоритма. Новый сайт с минимальным ссылочным профилем получает меньший бюджет, чем авторитетный ресурс.
Яндекс работает по схожей логике, но учитывает дополнительно поведенческие сигналы и данные Метрики при формировании приоритета обхода.
Кому критично управлять бюджетом: интернет-магазины с тысячами SKU, агрегаторы, новостные порталы, сайты с активным контент-производством. Для лендинга из 20 страниц crawl budget не проблема.
Расскажу, как это выглядит на реальном проекте. В одном e-commerce проекте по стройматериалам, с которым я работал, каталог содержал 47 000 URL. Из них 31 000 — параметрические дубли, созданные фасетной навигацией (фильтры по цвету, размеру, цене). Googlebot каждый день приходил на 800–1 000 страниц, и 60% этих визитов приходились на бесполезные параметрические URL. Новые товарные карточки ждали индексации по 3–4 недели. После закрытия фасетов через canonical и robots.txt — средний срок индексации новых страниц сократился до 3–5 дней.
В Яндексе картина ещё сложнее. Яндекс-бот традиционно сканирует реже, чем Googlebot, и восприимчивее к скорости ответа сервера. Если TTFB превышает 300 мс — Яндекс-бот снижает частоту обхода заметнее, чем Google. Я отслеживаю это через логи сервера: фильтрую запросы по User-Agent «YandexBot» и строю график частоты обхода по дням. Любое проседание — сигнал к проверке серверной нагрузки.
Из чего состоит краулинговый бюджет и как он формируется
Алгоритм распределяет бюджет неравномерно — не все страницы сканируются с одинаковой частотой.
Приоритет высокий: главная страница и ключевые разделы, страницы с большим количеством входящих внутренних ссылок, страницы с высоким трафиком и активным поведением пользователей, регулярно обновляемый контент.
Приоритет низкий: страницы с редкими входящими ссылками, контент без изменений за длительный период, страницы с плохими поведенческими показателями, URL с параметрами.
Приоритет нулевой (бот не возвращается): страницы, закрытые в robots.txt, noindex-страницы, URL с ошибками 4xx и 5xx, бесконечная пагинация.
Практический вывод: управление crawl budget — это не только «закрыть лишнее», но и «усилить приоритетное». Два рычага работают одновременно.
На практике я начинаю анализ с серверных логов, а не с GSC. Google Search Console показывает усреднённые данные с задержкой в 2–3 дня. Логи — это правда в реальном времени. Я выгружаю access.log, фильтрую по IP-диапазонам Googlebot (66.249.x.x) и Яндекс-бота, и строю распределение: какие директории бот посещает чаще всего. Если /tag/ или /page/ доминируют — значит, бюджет утекает в технический мусор.
Ещё один приём, который даёт быстрый результат — анализ «глубины краулинга». Это расстояние в кликах от главной страницы до целевой. Страницы на глубине 1–2 клика бот сканирует регулярно. Страницы на глубине 4+ — раз в месяц или реже. Если ваши приоритетные коммерческие страницы находятся на глубине 3–4 клика — перестройте навигацию. Добавьте ссылки из хедера, футера или боковой панели. Это бесплатный способ перераспределить краулинговый бюджет в пользу важных разделов.
Почему управление crawl budget важно для SEO
Три прямых последствия неоптимизированного бюджета.
Новые страницы индексируются медленно. Если бот тратит лимит на технический мусор — новая категория или статья может ждать индексации неделями. В конкурентных нишах это прямые потери трафика.
Важные страницы переиндексируются редко. Обновление контента на приоритетной странице должно быть замечено ботом быстро — иначе актуальные правки не влияют на позиции. При перегруженном бюджете повторный обход приоритетных страниц замедляется.
Алгоритм формирует заниженную оценку сайта. Большая доля низкокачественных страниц в общем объёме влияет на то, как алгоритм воспринимает сайт целиком. Это косвенно давит на позиции всего домена.
Результаты зависят от конкурентности ниши, текущего состояния сайта и бюджета.
Есть и четвёртое последствие, которое редко обсуждают: влияние на эффективность ссылочного продвижения. Если вы вкладываете бюджет в внешние ссылки на конкретные страницы, но бот не обходит эти страницы регулярно — эффект от ссылок реализуется с задержкой. Бот должен увидеть и новые ссылки на странице, и саму страницу, чтобы пересчитать её авторитетность. При неоптимизированном краулинге этот цикл растягивается с дней до недель.
Я наблюдал это в проекте Дентал Х: после оптимизации crawl budget эффект от новых ссылок стал проявляться на 40–50% быстрее. Не потому что ссылки стали «сильнее» — а потому что бот стал быстрее их обнаруживать и учитывать. В результате 410 запросов вышли в ТОП-10 за более короткий срок, чем мы закладывали в прогнозе.
Что съедает краулинговый бюджет: полная таблица
| Проблема | Признак | Решение |
|---|---|---|
| Параметрические URL из фильтров | Тысячи URL вида ?sort=price&color=red в индексе | Canonical, закрытие параметров в GSC |
| Бесконечная пагинация | /page/1, /page/2… /page/847 | Noindex на страницы пагинации или rel=next/prev |
| Дубли контента | Одинаковый текст на нескольких URL | Canonical на основную версию |
| Устаревшие карточки товаров | Страницы снятых товаров со статусом 200 | 301 на категорию или 410 |
| Технические системные страницы | /wp-admin/, /cart/, /checkout/ | Закрыть в robots.txt |
| Низкокачественные тонкие страницы | Страницы с <200 слов без трафика | Noindex или объединение |
| Битые внутренние ссылки | 404 в логах краулера | Исправить или убрать ссылки |
| Медленный сервер | TTFB >1s стабильно | Оптимизация сервера, CDN |
Как оптимизировать краулинговый бюджет: пошаговый план
Шаг 1. Диагностика — найдите куда уходит бюджет
Выгрузите из Google Search Console раздел «Статистика сканирования» (Crawl Stats). Посмотрите: сколько страниц в день сканирует бот, какой процент ответов — ошибки, какие типы страниц преобладают в логах. Дополнительно — проанализируйте лог-файлы сервера: они показывают реальную картину визитов бота, включая страницы, которых нет в GSC.
Шаг 2. Закройте технический мусор
Robots.txt: закройте системные страницы CMS (административные разделы, корзина, поиск по сайту, дублирующие версии). Не закрывайте страницы, на которые ведут внешние ссылки — это обнулит их ссылочный вес.
Canonical: для всех дублей и параметрических URL поставьте canonical на основную версию страницы. Подробнее о том, как дубли метатегов и URL убивают трафик, я разбирал в отдельной статье.
Noindex: страницы пагинации без самостоятельной SEO-ценности, страницы тегов и архивов на блоге (если они не дают трафика), устаревший контент, который не планируете обновлять.
Шаг 3. Усильте внутреннюю перелинковку на приоритетные страницы
Чем больше внутренних ссылок ведёт на страницу — тем выше её crawl demand. Пропишите ключевые коммерческие страницы в навигации, добавьте блок «Похожие разделы» на контентных страницах, используйте breadcrumbs.
Шаг 4. Настройте XML Sitemap правильно
В sitemap должны попасть только индексируемые страницы с реальной SEO-ценностью. Исключите: noindex-страницы, страницы с canonical на другой URL, страницы с ошибками, дубли. Обновляйте sitemap автоматически при добавлении нового контента.
Шаг 5. Управляйте приоритетом через свежесть контента
Регулярные обновления на важных страницах повышают crawl demand. Это не фиктивное изменение даты — реальный апдейт контента: новый абзац, обновлённые данные, свежий пример. Алгоритм замечает изменения в HTML между сессиями краулинга и корректирует приоритет.
Шаг 6. Ускорьте сервер
TTFB (Time to First Byte) выше 500ms снижает crawl rate limit автоматически. Подключите CDN, оптимизируйте базу данных, настройте кэширование. Быстрый сервер = больше страниц за тот же бюджет. О влиянии скорости на ранжирование я подробно писал в статье про Core Web Vitals и техническое SEO.
Инструменты для анализа краулингового бюджета
Google Search Console — Статистика сканирования. Показывает количество запросов бота в день, коды ответов, типы файлов. Доступно бесплатно, данные за 90 дней.
Яндекс Вебмастер — Статистика обхода. Аналогичный инструмент для Яндекс-бота. Отдельно показывает страницы, которые бот нашёл, но исключил из индекса.
Screaming Frog SEO Spider. Краулит сайт как поисковый бот, находит дубли, битые ссылки, noindex-страницы, redirect-цепочки. Незаменим для аудита.
Лог-файлы сервера. Самый точный источник данных — реальные запросы Googlebot и Яндекс-бота с IP-адресами, временем и кодами ответов. Требует доступа к серверу и базовых навыков анализа.
Google Search Console — Инструмент проверки URL. Позволяет увидеть, когда бот последний раз сканировал конкретную страницу и как она выглядит в кэше.
Из инструментов, которые я использую ежедневно, отдельно выделю Keyso — для анализа видимости и динамики позиций. Keyso показывает, какие страницы теряют позиции, а какие растут. Если страница с хорошим контентом и ссылками начала проседать — часто причина именно в том, что бот стал реже её обходить. Совмещаю данные Keyso с логами сервера и получаю полную картину: видимость, частота краулинга, поведенческие метрики из Яндекс.Метрики.
Ещё один инструмент, который помогает в комплексном анализе — Пиксель Тулс. Позволяет отслеживать позиции, анализировать видимость по группам запросов и видеть корреляцию между частотой краулинга и изменениями в выдаче. Особенно полезен для проектов, где нужно контролировать десятки тысяч URL одновременно.
Для автоматизации мониторинга рекомендую настроить алерты. В GSC нет встроенных уведомлений по статистике сканирования, но можно выгружать данные через GSC API и строить дашборд. Я использую простой скрипт, который раз в сутки проверяет: не упало ли количество просканированных страниц более чем на 30% от среднего за последние 7 дней. Если упало — это сигнал: либо сервер замедлился, либо бот столкнулся с массовыми ошибками.
Crawl budget и ИИ-поиск в 2026 году
В 2026 году к стандартным поисковым ботам добавились ИИ-краулеры: GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot и другие. Они сканируют сайты для обучения моделей и формирования ответов в AI Search.
Это создаёт новую переменную: часть серверной нагрузки и crawl-активности теперь приходит не от Google и Яндекс, а от ИИ-агентов. Для сайтов с ограниченными серверными ресурсами это может косвенно давить на crawl rate limit для основных поисковиков.
Практические шаги: через robots.txt настройте политику для ИИ-краулеров (разрешить, ограничить или заблокировать — в зависимости от стратегии). Для GEO (Generative Engine Optimization) — наоборот, важно оставить ИИ-ботам доступ к ключевым страницам, чтобы контент попадал в AI-ответы.
Практический чеклист: найдите проблемы за 30 минут
- Откройте GSC — Статистика сканирования — посмотрите процент ошибок 4xx/5xx
- Выгрузите все проиндексированные URL через GSC — Страницы
- Отфильтруйте страницы без трафика за 90 дней — это кандидаты на noindex
- Запустите Screaming Frog — найдите параметрические URL и дубли
- Проверьте sitemap: нет ли там noindex-страниц или страниц с canonical
- Посмотрите дату последнего краулинга на 10–15 приоритетных страницах
- Страницы с «last crawled > 30 дней» при наличии трафика — усилить перелинковку
Полный перечень технических проверок — в моём SEO-чеклисте на 122 пункта. Там есть отдельный раздел по краулингу и индексации с конкретными действиями для каждой CMS.
Как проверить расход краул-бюджета на вашем сайте
Прежде чем оптимизировать — нужно понять, куда именно расходуется бюджет. Без диагностики любые действия будут вслепую. Вот четыре источника данных, которые я использую на каждом проекте.
Google Search Console — Отчёт о сканировании. Перейдите в раздел «Настройки» — «Статистика сканирования». Здесь видно общее количество запросов бота за день, среднее время ответа сервера, распределение по типам файлов и кодам ответов. Обращайте внимание на соотношение: если из 500 ежедневных запросов 200 приходятся на страницы с кодом 301 или 404 — это прямой сигнал утечки бюджета. GSC также показывает, какие хосты сканируются (основной домен, мобильная версия, AMP) — убедитесь, что бот не тратит ресурсы на неактуальные версии сайта.
Яндекс.Вебмастер — Мониторинг — Роботы. Раздел «Статистика обхода» показывает аналогичные данные для Яндекс-бота: количество загруженных страниц, скорость ответа, HTTP-коды. Отдельная ценность Вебмастера — раздел «Исключённые страницы». Здесь перечислены URL, которые бот обнаружил, но решил не индексировать. Если в этом списке сотни страниц — значит, бот тратит бюджет на сканирование мусора, который потом отбрасывает. Каждый такой визит — впустую.
Анализ логов сервера (access.log). Это самый точный метод — без фильтров и задержек, которые есть в GSC и Вебмастере. Выгрузите access.log за последние 7–14 дней и отфильтруйте строки по User-Agent: «Googlebot», «YandexBot», «bingbot». Постройте таблицу: какие директории бот посещает чаще всего, с какими кодами ответа, в какое время суток активность максимальна. Типичная картина на незаоптимизированном сайте — 40–60% визитов бота приходятся на /tag/, /page/, /author/, /feed/ и параметрические URL. Всё это — мусорный расход бюджета, который нужно перенаправить на коммерческие и контентные страницы.
Screaming Frog для имитации краулинга. Запустите полный краул сайта в Screaming Frog и сравните результаты с данными из логов. На что смотреть: страницы с глубиной более 3 кликов от главной (бот до них почти не добирается), orphan pages — страницы без внутренних входящих ссылок, цепочки редиректов длиннее двух звеньев, страницы с дублирующимися метатегами и canonical-конфликтами. Screaming Frog покажет полную карту сайта глазами бота — и вы увидите, где именно он «застревает».
На что смотреть в первую очередь. Частота обхода: если приоритетные страницы сканируются реже раза в неделю — нужно усиливать их в структуре. Глубина краулинга: страницы глубже 3 кликов от главной получают минимум внимания бота. Страницы-мусор в индексе: откройте GSC — Страницы — «Проиндексировано» и проверьте, нет ли там URL с параметрами, пустых тегов, пагинации. Каждая такая страница в индексе — сигнал бота сканировать её снова и снова.
7 способов оптимизировать краул-бюджет
Конкретные действия, которые дают результат на большинстве проектов. Я расположил их в порядке приоритета — от самого быстрого эффекта к долгосрочным мерам.
1. Закрыть мусорные URL в robots.txt. Системные директории CMS (/wp-admin/, /wp-includes/, /cart/, /checkout/), внутренний поиск (/search/, /?s=), сортировки и фильтры (?sort=, ?order=). Важно: robots.txt запрещает сканирование, но не удаляет страницу из индекса. Если мусорный URL уже проиндексирован — нужен noindex или удаление через GSC. Не блокируйте CSS и JS-файлы: бот должен рендерить страницу для корректной оценки контента.
2. Проставить canonical на дублях. Любая страница, доступная по нескольким URL, должна иметь rel=»canonical» на основную версию. Типичные дубли: www и без www, http и https, со слешем и без, с utm-метками и параметрами. Canonical не блокирует сканирование, но сообщает боту, какая версия приоритетна — и со временем он перестаёт тратить бюджет на неосновные. Подробнее о передаче веса через редиректы и canonical я разбирал в отдельной статье.
3. Убрать параметры фильтров из индекса. Фасетная навигация в интернет-магазинах генерирует тысячи комбинаций: ?color=red&size=xl&sort=price. Каждая комбинация — отдельный URL для бота. Решение: canonical на базовую страницу категории для всех параметрических вариантов, запрет через robots.txt для параметров без SEO-ценности, в Яндекс.Вебмастере — раздел «Параметры URL» для указания, какие параметры менять поведение индексации.
4. Оптимизировать sitemap.xml — только полезные URL. XML-карта сайта — это подсказка роботу, какие страницы важны. Если в sitemap 50 000 URL, из которых 30 000 — мусор, подсказка теряет смысл. Правила чистого sitemap: только страницы с кодом 200, только индексируемые (без noindex), без canonical на другой URL, без страниц-заглушек с пустым контентом. Обновляйте lastmod только при реальных изменениях контента — фиктивные даты снижают доверие бота к вашему sitemap.
5. Ускорить отдачу сервера — TTFB ниже 200 мс. Время до первого байта напрямую влияет на crawl rate limit. Если сервер отвечает за 100 мс — бот может запрашивать 10 страниц в секунду. Если за 1 секунду — одну страницу в секунду. Разница в 10 раз. Конкретные действия: серверное кэширование (Redis, Memcached), оптимизация запросов к базе данных, подключение CDN, переход на более мощный хостинг. Для WordPress — минимизация плагинов, object cache, page cache. Связь между скоростью сайта и ранжированием я детально разбирал в материале о Core Web Vitals.
6. Убрать цепочки редиректов. Каждый 301/302-редирект в цепочке — отдельный запрос бота и расход бюджета. Цепочка A — B — C — D означает, что бот потратит 4 запроса вместо одного. Проверьте: нет ли редиректов длиннее двух звеньев, все ли внутренние ссылки ведут напрямую на финальный URL (а не на старую версию с редиректом), нет ли циклических редиректов (A — B — A). Screaming Frog находит цепочки за минуту — вкладка «Redirect Chains».
7. Noindex на пагинации и тегах. Страницы /page/2/, /page/3/ и далее редко приносят поисковый трафик, но активно сканируются ботом. То же касается страниц тегов и архивов по дате — если они не дают трафика и не содержат уникального контента, ставьте noindex. Бот продолжит переходить по ссылкам на этих страницах (noindex не блокирует краулинг), но перестанет тратить ресурсы на повторную индексацию. Для системной работы к технической оптимизации лучше рассмотреть все пункты в связке — изолированные правки дают меньший эффект.
Частые вопросы о краулинговом бюджете
Проверю сайт по 120+ параметрам и дам план исправлений. Заказать SEO-аудит.
Что такое краулинговый бюджет?
Лимит на количество страниц сайта, которые поисковый робот готов обойти за единицу времени. Определяется двумя параметрами: crawl rate limit (скорость, которую выдерживает сервер) и crawl demand (воспринимаемая ценность сайта для алгоритма). Чем выше оба показателя — тем больше страниц бот готов сканировать.
Где посмотреть краулинговый бюджет своего сайта?
Google Search Console — раздел «Настройки» — «Статистика сканирования» — основной инструмент с данными за 90 дней. Для Яндекса — Яндекс.Вебмастер — «Мониторинг» — «Статистика обхода». Точная картина без задержек — в лог-файлах сервера: фильтруете access.log по User-Agent Googlebot и YandexBot и видите реальную активность бота.
Как оптимизировать краулинговый бюджет?
Семь ключевых шагов: закрыть мусорные URL в robots.txt, проставить canonical на дублях, убрать параметры фильтров из индекса, почистить sitemap.xml, ускорить сервер до TTFB ниже 200 мс, убрать цепочки редиректов, поставить noindex на пагинации и тегах. Начинайте с диагностики через логи и GSC — чтобы понять, куда именно утекает бюджет.
Как определить, что краул-бюджета не хватает?
Три признака: новые страницы индексируются дольше 2–4 недель, дата последнего краулинга на важных страницах — более 30 дней назад, высокий процент ошибок 4xx/5xx в статистике сканирования GSC. Дополнительный сигнал — если обновления контента на приоритетных страницах не отражаются в кэше поисковика в течение двух недель.
Кому нужно управлять crawl budget?
Критически — сайтам от 10 000 страниц: интернет-магазины с большим каталогом, агрегаторы, новостные порталы, маркетплейсы. Для сайтов среднего размера (500–10 000 страниц) — полезно для ускорения индексации нового контента. Для небольших сайтов до 500 страниц достаточно базовой гигиены: чистый robots.txt, актуальный sitemap, отсутствие технических ошибок.
Влияют ли ИИ-краулеры на краул-бюджет поисковых роботов?
Косвенно — да. GPTBot, ClaudeBot, PerplexityBot и другие ИИ-краулеры создают дополнительную нагрузку на сервер. Если сервер не справляется — замедляется TTFB, и поисковые боты Google и Яндекс автоматически снижают частоту обхода. Решение: либо блокировать ИИ-ботов в robots.txt, либо наращивать серверные ресурсы, либо настроить rate limiting для непоисковых ботов.
Robots.txt блокирует индексацию или только краулинг?
Только краулинг — бот не будет сканировать страницу, но это не мешает ей попасть в индекс по внешним ссылкам. В выдаче появится URL без сниппета — с пометкой «описание недоступно». Для полного удаления из индекса нужен мета-тег noindex или директива в HTTP-заголовке X-Robots-Tag. Причём noindex и robots.txt — взаимоисключающие: если бот не может зайти на страницу, он не увидит noindex.
Как часто нужно обновлять sitemap.xml?
Sitemap должен обновляться автоматически при любом добавлении, удалении или существенном изменении страницы. На WordPress это решается плагинами или стандартными средствами CMS. Ключевое правило: lastmod должен отражать реальную дату последнего изменения контента, а не дату генерации sitemap. Фиктивные даты обновления снижают доверие бота к вашей карте сайта, и он начинает игнорировать приоритеты.
Что делать, если бот сканирует сайт слишком редко?
Проверьте три вещи: скорость сервера (TTFB должен быть ниже 200 мс), количество ошибок в статистике сканирования (массовые 5xx отпугивают бота), наличие внешних ссылок на сайт (они повышают crawl demand). Практические действия: обновите контент на ключевых страницах, добавьте их в sitemap с актуальной датой, отправьте на переобход через GSC или Яндекс.Вебмастер, усильте внутреннюю перелинковку с главной и активных разделов.
Сколько стоит оптимизация краул-бюджета?
Оптимизация crawl budget входит в задачи технической оптимизации сайта. Как отдельная услуга — от 30 000 рублей для сайтов до 100 страниц, от 50 000 рублей для сайтов 100–500 страниц, для крупных проектов от 1000 страниц — по запросу после диагностики. Результаты зависят от конкурентности ниши, текущего состояния сайта и бюджета.