Исследование трафика ботов больших языковых моделей (LLM) показало, что файл llms.txt, предназначенный для управления доступом ИИ-краулеров, проигнорирован. За месяц ни GPTBot, ни ClaudeBot, ни PerplexityBot не обратились к нему ни разу на тысяче доменов.
«Новый стандарт для AI-SEO» оказался фикцией
В начале 2026 года много обсуждали рекомендацию llms.txt как способа управления тем, как боты больших языковых моделей (LLM) используют контент сайта. Идея была в том, чтобы дать владельцам сайтов контроль. С его помощью можно было бы разрешать или запрещать индексацию контента. Это давало бы возможность управлять использованием данных для обучения ИИ. Многие воспринимали это как будущий стандарт для AI-SEO.
Однако практика показала другое. Факты из реальных данных опровергают эту идею. Флавио Лонгато из Adobe провёл аудит CDN-логов. Он изучил тысячу доменов за месяц. Результат однозначный: боты LLM не используют llms.txt. Ни один из трёх крупных ботов – GPTBot, ClaudeBot, PerplexityBot – не обратился к этому файлу. Это не просто редкое использование. Это полное отсутствие интереса.
До этого я уже видел много «стандартов», которые так и не прижились. Часто они появляются из-за теоретических рассуждений. Но когда дело доходит до реальных внедрений, всё ломается. Это хороший урок: не стоит тратить время на то, что не работает сейчас. Особенно если это не имеет поддержки от поисковых гигантов или крупных игроков.
Почему ИИ-боты игнорируют llms.txt
Причины такого игнорирования лежат на поверхности. В основном, они связаны с тем, как устроены большие языковые модели и поисковые системы. Во-первых, многие из этих ботов уже имеют свои механизмы контроля доступа. Они используют обычный robots.txt. Если сайт запрещает индексацию через robots.txt, они не будут собирать контент. Если же нет — они его берут.
Во-вторых, разработчики LLM не обязаны следовать предложенным стандартам. Если Ahrefs, Semrush или Google не включили поддержку такого файла в свои технологии, ему нет смысла существовать. Они определяют правила игры. Пока Google и другие игроки не признают этот файл, он останется бесполезной инициативой. Проблема в отсутствии единого подхода и централизованной поддержки.
В-третьих, создание и поддержание llms.txt требует ресурсов. Владельцы сайтов должны его генерировать и обновлять. Если от этого нет прямой пользы, никто не станет этим заниматься. Тем более, когда есть проверенный и работающий robots.txt. Мне всегда нравились простые и понятные решения. llms.txt пока выглядит как лишнее усложнение.
Реальные данные vs. теории AI-SEO
Основной вывод из исследования Флавио Лонгато — теоретические рассуждения часто расходятся с практикой. Была красивая история о новом стандарте. Она строилась на предположении, что боты ИИ будут действовать по аналогии с поисковыми роботами. Но они действуют иначе. Их задача – собрать максимум данных для обучения. А не следовать всем новым протоколам.
Этот случай показывает, как важно опираться на реальные данные. Особенно в такой динамичной области, как SEO. Я всегда призываю своих клиентов проверять гипотезы. Нужно тестировать, смотреть на логи, анализировать поведение ботов. Нельзя слепо верить любым новым «стандартам» и рекомендациям, если они не подкреплены фактами. В моей работе я регулярно сталкиваюсь с этим. Многие гипотезы, которые хорошо звучат на словах, рассыпаются при первом же тесте.
Это касается и вопросов, связанных с AI-SEO. Многие ждут чудес от нейросетей, но они пока не меняют кардинально основы. SEO все еще базируется на понимании работы ботов. А также на создании полезного контента для людей. Если боты игнорируют llms.txt, значит, для них это неважно. Значит, неважно и для SEO-специалистов.
Что такое llms.txt и как его предлагалось использовать
llms.txt был предложен как расширение для robots.txt. По сути, это текстовый файл, который должен лежать в корне сайта. Его задача — управлять доступом специфических ИИ-краулеров. Например, можно было бы запретить GPTBot собирать данные для обучения на определённых страницах. Или, наоборот, разрешить ClaudeBot использовать весь контент для своих моделей. Это давало бы детализированный контроль над тем, как контент используется для ИИ.
Примерно так, как мы используем robots.txt для поисковых систем. Скажем, запрещаем индексацию админок или дубликатов страниц. В случае с llms.txt предполагалось, что можно будет регулировать: обучать ИИ на всём сайте или только на части. Или вовсе запретить. Цель была благая: дать сайтам защитить свой контент. Это было актуально на волне дискуссий о копирайте и использовании данных для ИИ.
Но эта инициатива не получила широкой поддержки. Крупные игроки рынка не внедрили этот «стандарт». Без их участия, он остается лишь интересной идеей на бумаге. А как мы видим из отчета, боты LLM игнорируют его. Так что, пока это не более чем мертвый проект.
Комментарий эксперта
Я полностью согласен с выводами, представленными в статье: llms.txt на практике оказался бесполезен. На моих проектах, как для российского Яндекса, так и для Google, мы не тратили время на внедрение этого файла. И совершенно правильно не тратили.
Это показывает, что ИИ-боты, по крайней мере сейчас, ориентируются на стандартный robots.txt, если вообще обращают внимание на директивы. Не нужно ничего делать с llms.txt, игнорируйте эту инициативу — она не привела ни к какому практическому результату.
Это критично важно для медиа, новостных порталов и любых сайтов с уникальным, постоянно обновляемым контентом, которые могли бы переживать за его использование. Остальным типам сайтов, особенно если они уже эффективно управляют индексацией через robots.txt, можно вообще не беспокоиться.
Что это значит для бизнеса
Не тратьте время и ресурсы на внедрение llms.txt — этот «стандарт» не работает и не поддерживается ключевыми ИИ-ботами. Сосредоточьтесь на базовых правилах SEO и управлении robots.txt, это более эффективно для защиты контента и управления индексацией.
⚠️ Редакционное уведомление: отдельные факты в этой новости пока в процессе проверки независимыми источниками. При обнаружении неточностей материал будет обновлён. Источник: Habr — SEO.