Интернет захватывают боты, и в этом виноваты пользователи AI

Трафик от RAG-ботов, генерируемый запросами пользователей к AI, угрожает экономике сайтов. Разбираемся, как новая реальность меняет весь интернет.

Интернет захватывают боты, и в этом виноваты пользователи AI

Кажется, вечеринка с бесплатным и легкодоступным контентом в интернете подходит к своему логическому и довольно бесславному концу. Но виноват в этом не Skynet, а наш с вами новомодный помощник — искусственный интеллект. По последним данным от трекеров веб-трафика, уже в этом году количество ботов на сайтах издателей может превысить число живых, человеческих посетителей. И речь идет не о старых знакомых парсерах, которые раз в год собирают данные для обучения моделей. На сцену вышли новые игроки — RAG-боты, и их аппетиты растут в геометрической прогрессии благодаря каждому из нас.

Давайте на пальцах. RAG (Retrieval-Augmented Generation) — это технология, которая позволяет вашему чат-боту не просто выдумывать ответы из своей «памяти», а обращаться к актуальной информации в интернете. Когда вы просите ChatGPT или Gemini рассказать о свежих новостях, он не лезет в свой архив за 2021 год, а отправляет микро-бота на конкретные сайты за вас. Этот бот быстро сканирует страницу, выдергивает нужный факт и приносит его в ваш чат. Удобно? Безусловно. Проблема в том, что таких запросов — миллионы в час. Это уже не разовый набег армии скрейперов, а постоянный, изматывающий поток «курьеров», которые дергают серверы изданий 24/7, не принося взамен ни клика по рекламе, ни подписки.

Этот сдвиг — прямое следствие гонки вооружений между техногигантами. Google, отчаянно пытаясь не проиграть битву за поиск, встраивает AI-ответы прямо в выдачу. OpenAI, Perplexity и другие стартапы строят «движки ответов», которые полностью заменяют традиционный серфинг по ссылкам. Пользователь получает готовый, скомпилированный ответ, а первоисточник — сайт, который потратил ресурсы на создание контента — остается ни с чем. Он получает нагрузку на инфраструктуру, но не получает главного — монетизируемого посетителя. Это как если бы в ваш ресторан постоянно заходили толпы людей, чтобы просто сфотографировать меню и уйти готовить дома.

Издатели оказались в патовой ситуации. Блокировать всех ботов подряд — значит выпасть из поля зрения и поисковиков, и AI-ассистентов, став цифровым отшельником. Стандартный файл `robots.txt`, который раньше был джентльменским соглашением, сегодня все чаще игнорируется. Можно, конечно, пойти по пути The New York Times и подать в суд на OpenAI за нарушение авторских прав, но это долгий, дорогой и непредсказуемый путь. Другие пытаются договориться о лицензионных отчислениях, но пока это единичные сделки, а не системное решение. Старая экономика интернета, построенная на внимании и рекламе, просто не была готова к появлению «призрачной аудитории» из машин.

Ирония судьбы в том, что большие языковые модели были вскормлены на открытом интернете, на том самом контенте, который создавали миллионы сайтов. Технокорпорации взяли эти данные бесплатно, построили на них многомиллиардный бизнес, а теперь их же продукты рискуют обескровить экосистему, которая их породила. Это классическая трагедия общин, только в цифровом масштабе. Если все будут только брать, не давая ничего взамен, «общее пастбище» — открытый и разнообразный интернет — быстро истощится и превратится в пустыню из сайтов-визиток и платного контента за семью замками.

Наш вердикт: это не технологический сбой, а экономический. Мы наблюдаем не «восстание машин», а болезненный слом старой бизнес-модели веба под давлением новой технологии. Мы получили то, что хотели — умных и быстрых ассистентов. Просто никто не подумал, кто будет оплачивать их счета за «интернет-библиотеку». В ближайшие пару лет нас ждет великий передел трафика, волна судебных исков и попытки создать новый протокол взаимодействия между создателями контента и AI-сервисами. А пока что серверы издателей продолжают гудеть, обслуживая армию ботов, которую мы сами же и отправляем в бой каждым своим запросом.

Read more