Это вью нашего агентства на текущую стадию внедрения стандартов llms.txt и llms-full.txt для сайтов. А именно наш опыт и наши знания о поддержке файлов ключевыми игроками рынка ИИ, целесообразность размещения обоих видов файлов на сайтах. Материал предназначен для SEO специалистов и владельцев бизнеса, желающих глубоко разобраться в вопросе.
Нейросети забирают ваш органический трафик, может ли размещение markdown файлов вернуть его обратно? Cпойлер — пока нет, но если ваш бизнес это SaaS или B2B, то ответ другой (подробности в тексте).
Машиночитаемый веб и предпосылки возникновения стандарта
Поисковики меняются. ИИ-боты пытаются читать ваш сайт, но спотыкаются о рекламные баннеры и сложный код. Чтобы они правильно поняли ваш продукт и порекомендовали его клиенту, им нужна чистая выжимка. Для этого и придумали llms.txt.
Большие языковые модели (далее LLM), потребляют информацию в виде токенов. При попытке извлечения полезного контента из стандартной HTML-страницы во время вывода данных, ИИ-агенты вынуждены тратить пространство своего контекстного окна на обработку синтаксического шума. Конвертация сложного HTML-кода в чистый текст “на лету” требует значительных вычислительных ресурсов, и зачастую приводит к потере критически важной смысловой информации или искажению логической структуры документа.
Иными словами, большая проблема для ИИ парсеров в том, что эти боты гораздо слабее поисковых ботов Яндекса и Google, которые развивались десятки лет и для которых веб был адаптирован испокон веков.
В ответ на эту проблему в сентябре 2024 года была предложена новая спецификация под названием llms.txt. Данная инициатива была призвана решить проблему “зашумленности” веб-данных путем предоставления языковым моделям стандартизированного, очищенного от визуального мусора контента в формате Markdown, который одновременно легко читается как человеком, так и машиной.
Концепция предполагает размещение специализированных текстовых файлов в корневом каталоге веб-сайта (например, https://example.com/llms.txt). Однако, в отличие от robots.txt, который содержит директивы управления для поисковых краулеров, llms.txt выполняет функцию семантического индекса или как мы ее зовем “карты сокровищ” для ИИ, направляя модели к наиболее значимому контенту.
Эта идея, даже без поддержки лидеров ИИ индустрии (ChatGPT и иже с ним), получила огромное распространение в Западном сегменте Интернета, по данным BuiltWith к концу октября 2025 года более 844 тысяч веб-сайтов внедрили этот файл в свою инфраструктуру, а к маю 2026 года уже 3,3+ млн. сайтов.
Динамика внедрения файлов llms.txt :

Источник изображения: https://trends.builtwith.com/robots/LLMS-Text
И тут мы подходим к очень серьезной проблеме, которая заключается в том, что анализ логов серверов и официальных заявлений ИИ гигантов выявляет пропасть между энтузиазмом SEO специалистов и реальным уровнем интеграции стандарта со стороны разработчиков ИИ.
Архитектура и техническая спецификация файлов LLMs
Прежде чем двигаться дальше нужно отметить, что предложенная спецификация не ограничивается одним файлом llms.txt, есть еще более редко используемый файл llms-full.txt. Если в файле llms.txt мы просто указываем по сути “оглавление” и структуру сайта, то в файле llms-full.txt размещается очищенный текст страниц.
В таблице ниже представлен сравнительный анализ основных файлов стандарта, их функционального назначения и влияния на обработку данных.
| Характеристика | Спецификация llms.txt | Спецификация llms-full.txt |
| Основная функция | Индексный файл, “маршрутизатор” контента. Действует как оглавление или «карта сайта» для LLM. | Исчерпывающее хранилище знаний. Объединяет весь значимый текстовый контент сайта в единый документ. |
| Механика работы ИИ | ИИ-агент читает файл, анализирует описания ссылок, принимает решение о необходимости перехода по конкретному URL для извлечения деталей. | Модель загружает весь файл целиком в контекстное окно за один сетевой запрос, устраняя необходимость навигации по ссылкам. |
| Оптимизация производительности | Снижает первоначальную нагрузку на пропускную способность, но требует дополнительных циклов запросов (RAG). | Максимально использует преимущества моделей с большим контекстным окном, например Claude 3.5 Sonnet или GPT-4o. Снижает задержку при генерации ответа. |
| Применимость для сложных сайтов | Идеально подходит для крупных корпоративных порталов, новостных сайтов и e-commerce, где полный экспорт текста невозможен. | Оптимально для технической документации, API-справочников, руководств пользователя и сайтов с блогом, где важен целостный контекст. |
| Примеры внедрения | Указание структуры компании, политик возврата товаров, списков курсов учебных заведений. | Можно разместить топ-20 трафиковых статей блога в файле, чтобы повысить цитирование в ИИ. Также можно загрузить полную документацию разработчика, как это реализовано на платформе Perplexity: документ на 30 000 слов. |
Чтобы упростить понимание специфики файлов приведем примеры.Базовый файл: llms.txt представляет собой краткую сводку, обычно содержащую описание проекта, основные ссылки и структуру документации. Он используется моделями для быстрого ознакомления с контекстом библиотеки или веб-сайта перед тем, как запросить более глубокие данные.
- # Название проекта
- > Краткое описание для LLM
- ## Ссылки
- — [Документация](/docs/)
- — [API](/api/)
Расширенный файл: llms-full.txt
Содержит полную, объединенную документацию всего проекта в одном текстовом/Markdown файле. Идеально подходит для загрузки в контекстное окно (Context Window) современных моделей (например, Claude 3.5 Sonnet или GPT-4o), позволяя ИИ “прочитать” весь сайт мгновенно.
# Полная документация
(Содержит десятки тысяч токенов скомпилированного текста, примеров кода и руководств…)
Поддержка стандарта ведущими зарубежными ИИ
Степень принятия и поддержки стандартов llms.txt и llms-full.txt на рынке ИИ очень различна, рассмотрим отношение компаний ИИ к файлам. Для удобства сразу приведем актуальную информацию как по поисковикам, так и по ИИ специализирующихся на чат-ботах и агентах.
Позиция Google (Google Search и экосистема Gemini)
Отношение Google к стандарту llms.txt озвучено официально: представители компании Джон Мюллер и Гэри Илш, неоднократно заявляли, что поисковые системы и ИИ-продукты Google не поддерживают этот стандарт, не сканируют его целенаправленно и не планируют внедрять его поддержку в обозримом будущем. Джон Мюллер в своих публичных комментариях прямо сравнил llms.txt с устаревшим мета-тегом keywords, указав на его фундаментальную уязвимость. Логика Google заключается в том, что любой такой файл подвержен экстремальным манипуляциям: маркетологи могут намеренно скрывать негативную информацию, искажать факты или насыщать файл поисковым спамом.
Флоу работы Google базируется на мощном извлечении данных из HTML-кода страниц. Компания занимается этим десятки лет и имеет самые мощные парсеры на рынке, в отличии от OpenAI, Anthropic и других.
Инфраструктура Microsoft (Copilot и поисковая система Bing)
Microsoft официально не заявляла о поддержке стандарта llms.txt в своих продуктах, включая Copilot и поисковую систему Bing с интегрированным ИИ. Для осуществления веб-поиска Copilot опирается исключительно на устоявшийся индекс системы Bing, формирование которого обеспечивается традиционным краулером Bingbot.
Мониторинг логов и технические спецификации Microsoft не содержат свидетельств того, что Bingbot настроен на приоритетный парсинг или анализ файлов llms.txt или llms-full.txt при сканировании интернета 😞.
Интеграция в Perplexity AI
К настоящему моменту нам не удалось обнаружить убедительные доказательства того, что собственные поисковые боты платформы (PerplexityBot или Perplexity-User) отдают приоритет чтению llms.txt при обходе сайтов для генерации ответов.
Выдача Perplexity и формирование цитат по-прежнему опираются преимущественно на традиционные сигналы индексирования, анализ микроразметки (JSON-LD) и мощное извлечение данных в реальном времени.
Экосистема Anthropic (Модели семейства Claude)
Компания Anthropic дальше всех прошла в поддержке предложенных стандартов. Форматы llms.txt и llms-full.txt официально интегрированы в архитектуру “agent-to-agent” (A2A), разрабатываемую компанией совместно с AWS и Google Cloud.
Anthropic активно стимулирует разработчиков внедрять эти файлы, позиционируя их как критически важный элемент для корректного понимания технического контекста моделью Claude. Из всех крупных игроков индустрии ИИ именно краулеры Anthropic (и агенты на базе Claude) демонстрируют наибольшую склонность к целенаправленному парсингу данных стандартов при анализе технической документации.
Кстати, файл llms.txt Claude можно посмотреть здесь https://platform.claude.com/llms.txt.
Стратегия OpenAI (ChatGPT, Codex и API-инфраструктура)
А вот всеми любимая OpenAI все никак не может определиться с поддержкой рассматриваемых стандартов. С одной стороны, OpenAI признает эффективность формата для обучения и передачи знаний: компания внедрила собственные файлы llms.txt и масштабный llms-full.txt в официальную документацию для разработчиков OpenAI API и платформы Codex. Это свидетельствует о том, что инженеры Сэма Альтмана осознают превосходство Markdown-индексов над классическим HTML при передаче сложного технического контекста ИИ агентам.
Однако, самый массовый продукт компании — ChatGPT, и его веб-краулеров не демонстрирует системной интеграции или официальной поддержки стандарта. Анализ миллиардов строк лог-файлов серверов, проведенный огромным числом SEO-агентств, показывает, что автономные боты OpenAI — такие как GPTBot (используемый для массового сбора обучающих данных) и OAI-SearchBot (применяемый для поиска в реальном времени внутри ChatGPT) — крайне редко и бессистемно запрашивают файлы llms.txt на сторонних ресурсах.
Система ChatGPT не осуществляет автоматический фоновый поиск файла llms.txt при получении ссылки на веб-сайт от пользователя. Модель извлекает содержимое этого файла только в том случае, если пользователь формирует явный и недвусмысленный промпт (например, “прочитай и проанализируй файл /llms.txt по данному URL”).
Таким образом, для OpenAI стандарт остается удобным форматом экспорта собственных данных, но не руководством к действию для их поисковых ботов, что усложняет работу всем SEO специалистам мира 🥺.
Экосистема xAI (Модели семейства Grok)
Для обеспечения актуальности данных новейшие итерации Grok (включая Grok 4 и 5) используют функцию DeepSearch (глубокий поиск), которая в реальном времени обращается к веб-ресурсам и платформе X. Для этих целей xAI оперирует пулом собственных краулеров.
Несмотря на наличие активной инфраструктуры парсинга, исследования (включая анализ наборов данных из более чем 94 000 цитируемых URL в ответах топовых моделей) показывают, что наличие файла llms.txt на сайте не дает преимущества для ранжирования и цитирования непосредственно в поисковой выдаче Grok. Как и в случае с ChatGPT или Perplexity, модели xAI полагаются на традиционный алгоритмический сбор информации, анализ репутации источника и смысловое соответствие.
Экосистема DeepSeek
Можно сразу сказать, что китайцы из DeepSeek как всегда, отличились. Их модели обладают специфическим профилем взаимодействия со стандартом. С одной стороны, новейшие модели DeepSeek имеют колоссальное контекстное окно (до 128 000 токенов), что делает их идеальными кандидатами для ручного скармливания масштабных файлов llms-full.txt
С другой стороны, на уровне автоматического веб-поиска и дата-скрейпинга компания опирается на собственного краулера DeepSeekBot. Этот бот используется преимущественно для агрессивного массового сбора данных для тренировки будущих моделей, и в индустрии нет данных о том, что он целенаправленно ищет или отдает алгоритмический приоритет файлам llms.txt для генерации ответов в реальном времени.
Таким образом, для экосистемы DeepSeek стандарт может быть крайне полезен на этапе RAG-интеграций и инференса, но не работает как инструмент SEO-оптимизации.
Европейский подход: Mistral AI
Французский разработчик ИИ-моделей Mistral AI официально принял стандарт на уровне собственной инфраструктуры: компания разместила файлы llms.txt на своих корпоративных и документационных доменах, чтобы облегчить работу ИИ-агентов с их ресурсами.
Однако, как и в случае с Grok или ChatGPT, убедительных доказательств того, что поисковые алгоритмы Le Chat отдают приоритет выдаче на основе llms.txt со сторонних сайтов, в настоящее время нет.
Сводные данные о поддержке ИИ системами
Таким образом, поддержка файлов llms.txt ключевыми игроками ниши сильно различается, и как ни странно поисковые системы здесь в силу разных причин отстают, т.е. официально не поддерживают markdown файлы.
| ИИ-Система / Экосистема | Статус поддержки | Особенности взаимодействия и влияние на SEO |
| Google (Gemini) | Отсутствует 🔴 | Официальный отказ. Рассматривается как фактор риска (манипуляции). Опора на классический парсинг HTML. |
| Microsoft (Copilot) | Отсутствует 🔴 | Опора на стандартный индекс Bing. Bingbot не настроен на специфический анализ этих файлов. |
| Perplexity AI | Отсутствует 🔴 | Опора на JSON-LD и извлечение данных в реальном времени. llms.txt не является приоритетным сигналом. |
| Anthropic (Claude) | Полная 🟢 | Интеграция в архитектуру A2A. Краулеры активно парсят файлы для понимания технического контекста. |
| Mistral AI | Ограниченная 🟡 | Внедрен на собственных ресурсах компании. Пока нет данных о приоритете для сторонних сайтов в выдаче Le Chat. |
| OpenAI (ChatGPT) | Ограниченная 🟡 | Используется для экспорта собственных данных. Автоматический поиск на чужих сайтах ботами GPTBot/OAI-SearchBot не ведется. |
| DeepSeek | Специфическая 🟡 | Полезно для RAG-интеграций при ручной подаче. DeepSeekBot собирает данные для обучения, но не для SEO-приоритета. |
| xAI (Grok) | Отсутствует 🔴 | Функция DeepSearch не дает преимуществ сайтам с этим файлом. Опора на репутацию и смысловое соответствие. |
Таким образом, имеем следующие данные по влиянию рассматриваемых файлов в зарубежных ИИ:

Эмпирические данные и анализ серверных логов зарубежных ИИ
Для объективной оценки реального влияния стандарта на видимость сайтов в ИИ-выдачах (GEO) необходимо обратиться к результатам исследований SEO специалистов по всему Миру и анализу лог-файлов серверов.
Масштабное исследование, охватившее более 300 000 доменов, проведенное аналитиками платформ Profound и SE Ranking, не выявило статистически значимой корреляции между наличием правильно настроенного файла llms.txt и повышением частоты цитирования веб-ресурса ИИ в ответах.
Более того, анализ серверных логов показал, что подавляющее большинство коммерческих ИИ-краулеров фактически не осуществляют запросы к этому файлу в процессе рутинного индексирования интернета.
Эти и другие данные подводят нас к тому, что те боты ИИ, которые вообще парсят файлы llms.txt относятся к нему не как к сигналу ранжирования, а скорее как просто к контейнеру знаний, который полезен только тогда, когда модель уже приняла решение извлечь данные с конкретного ресурса.
Российский бигтех: Яндекс (Алиса) и Сбер (GigaChat)
Ну а что наши? Недавно Герман Греф заявил, что Россия входит в 5-ку стран, которые имеет свои суверенные ИИ модели. Рассмотрим поддержку markdown файлов моделями Яндекса и Сбера.
Сбер (GigaChat и GigaChain)
Экосистема Сбера официально признала и внедрила стандарт на уровне корпоративной документации. В октябре 2025 года разработчики добавили файлы llms.txt и масштабный llms-full.txt в официальную документацию для разработчиков API GigaChat. Файл /gigachat/llms-full.txt объединяет всю базу знаний по API в единый текстовый массив, что критически упрощает работу AI-помощников с этими данными.
Кроме того, специализированный фреймворк GigaChain (адаптация LangChain от Сбера, ориентированная на создание LLM-приложений) также развивается с учетом потребностей интеграции машиночитаемых текстовых форматов.
Яндекс (Поиск, Алиса и Yandex Cloud)
Отношение компании Яндекс как поисковика к формату однозначно. На уровне поиска и голосового помощника Алисы официальной поддержки стандарта llms.txt в настоящее время не заявлено.
Независимые эксперименты и анализ серверных логов (включая анализ трафика от бота alice.yandex.ru) показывают, что наличие этого файла на сайте пока не дает статистически значимых преимуществ для гарантированного попадания в ответы Алисы или YandexGPT. Яндекс продолжает полагаться на классическое индексирование и собственные внутренние алгоритмы парсинга HTML.
Главная ошибка: как 60% сайтов сами закрывают себя от ИИ
Нельзя забывать про старый добрый файл robots.txt. Наша практика, а также исследования зарубежных коллег показывают, что множество компаний неосознанно блокируют видимость своего бренда в ИИ-выдачах (таких как ChatGPT), запрещая доступ ИИ ботам к сайту! Из-за чего ресурс просто не цитируется ИИ.
Нужно отметить, что есть боты, которые активно парсят сайт для обучения своих моделей (Training Crawlers), а есть другие, которые парсят сайт том числе в режиме реального времени для ответов пользователей (Search/Retrieval Crawlers) — эти полезные. Если первые создают большую нагрузку на ваш сайт их можно заблокировать, но вторых нельзя блокировать ни в коем случае!
В таблице представлена рекомендуемая конфигурация robots.txt для максимизации ИИ-видимости бренда без риска иметь высокую нагрузку на сервер от ботов, которые учатся на вашем контенте.
| Категория ИИ-краулера | Имя бота (User-Agent) | Рекомендуемое действие | Обоснование стратегии |
| Поисковые краулеры (Search & Retrieval) | OAI-SearchBot, ChatGPT-User, PerplexityBot, Claude-SearchBot | Allow (Разрешить) | Эти боты отвечают за извлечение актуальной информации по запросу пользователя и формирование цитат со ссылкой на ваш сайт. Блокировка приведет к исчезновению из ответов ИИ. |
| Традиционные поисковые боты с ИИ-функциями | Bingbot, Googlebot | Allow (Разрешить) | ChatGPT активно использует индекс Bing для веб-поиска. Блокировка Bingbot означает автоматическую потерю видимости в поисковой выдаче OpenAI. |
| Краулеры для обучения моделей (Model Training) | GPTBot, ClaudeBot, Google-Extended, CCBot (Common Crawl) | На усмотрение / Disallow | Эти краулеры поглощают контент для тренировки будущих моделей (без гарантии цитирования или ссылок). Блокировка защищает интеллектуальную собственность и сервер от лишней нагрузки, не влияя на текущую видимость в поиске. |
Только после корректной настройки robots.txt и внедрения микроразметки (JSON-LD), которая понятна всем ИИ-системам, внедрение llms.txt становится осмысленным шагом. Наличие файла не гарантирует приоритетного цитирования, но при наличии доступа краулера, он снижает стоимость извлечения информации для ИИ ботов, и повышает точность информации о вашем продукте.
Заключительные выводы
Благодарю всех кто дочитал до этого раздела — вы мои герои.
К настоящему моменту стандарты llms.txt и llms-full.txt не стали и в обозримом будущем не станут универсальной “серебряной пулей”, способной заменить сложные алгоритмы парсинга и экстракции данных с сайтов. Поисковики Google, Яндекс, Bing — либо официально отвергли эти стандарты (Google), либо просто молча не поддерживают их. Проблема в негативном историческом опыте борьбы с поисковым спамом, ну как говорится “все мы родом из детства”.
В секторе массового веб-поиска и традиционного SEO влияние llms.txt статистически неотличимо от нуля, а ожидания резкого органического роста трафика или цитируемости от ИИ за счет одного лишь внедрения этого Markdown-файла не подтверждаются никакими данными лог-серверов ни у нас, ни за рубежом.
Тем не менее, нужно отметить, что к настоящему моменту стандарт доказал свою исключительную ценность в узкоспециализированных профессиональных нишах: разработка ПО, стандартизации API-документации, обеспечения B2B-интеграций и развертывания корпоративных баз знаний. Благодаря полной поддержке таких компаний, как Anthropic, и повсеместному использованию в интегрированных средах разработки нового поколения (Cursor, Windsurf, GitHub Copilot) через открытые протоколы промежуточного ПО (такие как Model Context Protocol), файлы llms.txt и llms-full.txt стали де-факто ультимативным отраслевым стандартом для передачи “чистого” семантического контекста автономным кодирующим ИИ-агентам. Способность загрузить полноформатный, лишенный любого HTML-шума и навигационного мусора текстовый массив в контекстное окно современных LLM радикально повышает качество генерации программного кода.
Теперь подытожим: целесообразность внедрения стандарта llms.txt напрямую зависит от архитектурной специфики и бизнес-задач конкретного сайта. Для платформ тех. документации, SaaS-решений и сложных B2B-порталов внедрение llms.txt и llms-full.txt является критически важной инвестицией в будущую совместимость с ИИ агентами.
Для массовых же инфо сайтов, новостников и потребительского e-commerce создание таких файлов остается лишь экспериментальным дополнением к фундаментальной, комплексной стратегии GEO.Мы внедряем рассматриваемые файлы для своих клиентов, чтобы если/когда поддержка поисковиками или всеми чат-ботами будет все-таки внедрена, они уже были впереди всех. Желаем и вам потратить немного времени на создание и размещение файлов формата llms.txt. Да, прямо сейчас это не даст вам х10 трафика. Но создание такого файла стоит недорого и делается один раз. Это дешевая страховка. Когда OpenAI или Google завтра «включат рубильник», ваши сайты уже будут в ответах нейросетей. Плюс, если у вас SaaS или B2B — это абсолютный маст-хэв уже сегодня.
FAQ
На данный момент нет. Для массовых информационных сайтов и потребительского e-commerce создание таких файлов является лишь экспериментальным дополнением к комплексной стратегии GEO. Наличие файла не гарантирует приоритетного цитирования, но повышает точность информации о вашем продукте при парсинге ИИ.
Файл llms.txt работает как “маршрутизатор” или оглавление контента, которое направляет ИИ к наиболее значимой информации на сайте.
Файл llms-full.txt — это исчерпывающее хранилище, объединяющее весь текстовый контент сайта в единый документ, чтобы модель могла загрузить его в свое контекстное окно за один запрос.
Нет, представители Google официально заявляют, что их поисковые системы и ИИ-продукты не поддерживают этот стандарт и продолжают использовать классический парсинг HTML.
В Яндекс официальной поддержки на уровне Поиска и Алисы также нет, а независимые исследования показывают, что наличие файла пока не дает преимуществ для попадания в ответы YandexGPT.
Наибольшую склонность к целенаправленному парсингу этих файлов демонстрирует компания Anthropic (Claude), которая официально интегрировала их в свою архитектуру.
Также в России экосистема Сбера официально внедрила этот стандарт в документацию для разработчиков API GigaChat.
Внедрение файлов llms.txt и llms-full.txt критически важно для платформ технической документации, SaaS-решений и сложных B2B-порталов. Для таких проектов это инвестиция в будущую совместимость с автономными ИИ-агентами.
Поисковых ИИ-краулеров (например, OAI-SearchBot, PerplexityBot, Claude-SearchBot), которые извлекают информацию для формирования ответов пользователям, блокировать нельзя, иначе бренд исчезнет из ответов ИИ.
Однако краулеров, которые просто поглощают контент для тренировки будущих моделей (например, GPTBot или ClaudeBot), можно заблокировать для защиты сервера от лишней нагрузки. Но лучше это делать в том случае, если сервер действительно не выдерживает.