AI-агенты уже здесь. И что теперь?
Новое поколение AI-агентов уже здесь. Что такое Devin, как он пишет код и почему за ним будущее? Наш разбор хайпа вокруг автономных ИИ-систем.
Кажется, медовый месяц с чат-ботами, которые пишут стихи в стиле Есенина и рисуют Илона Маска в образе кентавра, подходит к концу. На сцену выходит новый, куда более серьезный игрок: автономные AI-агенты. Это уже не просто текстовый интерфейс к большой языковой модели. Это системы, способные самостоятельно ставить цели, планировать шаги и выполнять задачи в реальной цифровой среде. И если раньше это было темой для диссертаций в Стэнфорде, то теперь это продукты, которые привлекают десятки миллионов долларов и вызывают у одних восторг, а у других — желание проверить актуальность своего резюме.
Главный виновник недавнего переполоха — стартап Cognition Labs и его детище по имени Devin. Его называют «первым полностью автономным AI-инженером-программистом». За этими громкими словами скрывается впечатляющая демонстрация: Devin в собственном терминале и браузере выполняет задачи с фриланс-биржи Upwork, находит и исправляет баги в open-source проектах. На стандартном тесте для программистов SWE-bench он успешно решил 13.86% задач, в то время как GPT-4 осилил всего 1.96%. Цифры красивые, инвесторы в восторге: компания, состоящая из 10 человек, уже привлекла $21 млн и оценивается в $350 млн. Правда, если посмотреть на цифру с другой стороны, то 86% задач Devin все-таки провалил. Это скорее не «инженер», а очень способный, но требующий постоянного присмотра стажер, который иногда делает гениальные вещи, а иногда — форматирует не тот диск.
И пока венчурные капиталисты выписывают чеки Cognition, open-source сообщество не дремлет. Почти сразу появился проект Devika — эдакий «Devin для бедных», который пытается повторить архитектуру нашумевшего агента на открытых компонентах. Это доказывает, что сама идея витала в воздухе. Концепция AI-агентов, о которой еще год назад говорили в основном теоретики вроде Эндрю Ына, стала мейнстримом. Фундаментом для них послужили достаточно мощные LLM, способные к сложному планированию и самокоррекции по циклу «План → Действие → Наблюдение → Рефлексия». Модели наконец-то поумнели настолько, что им можно доверить нечто большее, чем пересказ статьи из Википедии.
Но программированием дело не ограничивается. Агент от Multi-On, например, позиционирует себя как «операционную систему для ИИ» и специализируется на веб-автоматизации. В их демо-роликах AI самостоятельно заказывает пиццу, ищет и бронирует авиабилеты на несколько человек, заполняя все формы. Звучит как будущее, в котором мы избавились от рутины. Но есть нюанс. Чтобы забронировать вам билет, агент должен знать ваши паспортные данные. Чтобы заказать еду — иметь доступ к вашему аккаунту с привязанной картой. Мысль о передаче всех своих логинов и паролей системе, которая по сути является сложнейшим «черным ящиком», заставляет внутреннего параноика бить тревогу.
По сути, мы наблюдаем рождение нового фронта в войне технологических гигантов и проворных стартапов. Пока OpenAI и Google наращивали количество параметров в своих моделях, небольшие команды сосредоточились на прикладном вопросе: «А что со всей этой мощью делать?». И ответ «создавать автономных исполнителей» выглядит наиболее логичным. Это переход от пассивного ассистента, ждущего команды, к проактивному агенту, решающему задачу «под ключ». Пока это выглядит сыро, местами неуклюже и вызывает больше вопросов, чем ответов. Но вспомните, как выглядел интернет в 1995 году или мобильные приложения в 2008-м.
Наш вердикт: это еще не революция, но ее генеральная репетиция. Текущее поколение AI-агентов — это скорее впечатляющее технологическое демо и смелая заявка на будущее, чем готовый продукт для массового рынка. Хайп, как это часто бывает, опережает реальность на год-два. Devin не заменит завтра вашего тимлида, а Multi-On вряд ли станет вашим личным секретарем в ближайшие месяцы. Но они нащупали то, что станет следующим большим шагом в эволюции ИИ: переход от генерации контента к совершению действий. И вот когда эта технология повзрослеет, мир действительно изменится. А пока можно расслабиться, но резюме все же стоит держать в актуальном состоянии. На всякий случай.