DABStep: AI-агентам устроили новый, беспощадный экзамен
Представлен DABStep — бенчмарк для многошаговых AI-агентов. Разбираемся, почему старые тесты устарели и как это изменит гонку OpenAI и Google.
Пока все обсуждают, какая языковая модель лучше пишет поздравления с днем рождения, в индустрии тихо произошла куда более важная вещь. Представлен DABStep (Data Agent Benchmark for Multi-step Reasoning) — новый стандарт для измерения интеллекта AI-агентов. И если старые бенчмарки были похожи на школьные тесты по литературе, то DABStep — это скорее защита диплома в Высшей школе экономики. Здесь больше не получится отделаться красивой рифмой или эрудицией. Придется думать, анализировать и, что самое страшное для нынешних моделей, — действовать в несколько шагов, исправляя собственные ошибки.
В чем соль? До сих пор мы мерили «мозги» нейросетей по их способности отвечать на вопросы (MMLU) или писать код (HumanEval). Это полезно, но совершенно не отражает реальных задач, которые мы хотим на них повесить. DABStep идет дальше. Он не спрашивает «какая столица у Франции?». Он дает задание в духе: «Вот тебе три CSV-файла с продажами, доступ к API курсов валют и SQL-база с остатками на складе. Найди самый прибыльный продукт за третий квартал с учетом логистики, курсовой разницы и верни отчет в формате JSON». Это уже не лингвистическая задачка, а полноценная работа дата-аналитика. Бенчмарк проверяет способность AI-агента декомпозировать сложную задачу, выбирать правильные инструменты (Python-скрипт, SQL-запрос, вызов API), исполнять их, анализировать результат и, если что-то пошло не так, пробовать другой подход.
Появление такого инструмента — прямой ответ на главный тренд последнего года: переход от моделей-«собеседников» к моделям-«исполнителям». OpenAI со своими GPTs, Google с интеграцией Gemini в Workspace, бесчисленные стартапы, пилящие автономных агентов — все они продают нам идею умного помощника, который сам все сделает. Проблема в том, что до сих пор у нас не было линейки, чтобы измерить, насколько эти помощники на самом деле умны. Все сравнения сводились к субъективному «а вот мой агент смог забронировать столик, а твой — нет». DABStep пытается перевести этот разговор из плоскости магии в плоскость инженерии и воспроизводимых результатов.
Это неизбежно обострит конкуренцию между гигантами. Одно дело — хвастаться первым местом в таблице лидеров по решению школьных задачек, и совсем другое — доказать, что твой агент может заменить целую команду младших аналитиков. Победа в DABStep станет мощнейшим маркетинговым аргументом для корпоративного сегмента. Теперь битва пойдет не за то, чей чат-бот остроумнее, а за то, чей агент принесет бизнесу больше денег, автоматизировав реальные рабочие процессы. И есть подозрение, что нынешние флагманы вроде GPT-4 и Gemini Ultra могут показать здесь не такие уж блестящие результаты, вскрыв свои слабые места в планировании и долгосрочном удержании контекста.
Мы уже видели подобное в истории AI. Появление ImageNet в 2009 году запустило революцию в компьютерном зрении, дав исследователям четкую и сложную цель. Бенчмарки вроде GLUE и SuperGLUE на несколько лет определили вектор развития NLP. DABStep претендует на то, чтобы стать «ImageNet для автономных агентов». Это тот самый набор правил и тот самый ринг, на котором в ближайшие годы будут биться лучшие AI-разработки. Конечно, любой бенчмарк со временем «взламывают» — модели просто натаскивают на конкретные типы заданий. Но сам факт его появления — это сигнал зрелости отрасли. Мы переходим от восторгов по поводу говорящей машины к созданию работающих инструментов.
Наш вердикт: DABStep — это не очередной маркетинговый трюк, а крайне необходимый индустрии «душный, но справедливый препод». Он безжалостно вскроет, кто из создателей AI-агентов занимался реальными исследованиями, а кто — полировкой красивых демо. Да, это не финальная точка в оценке ИИ, и к нему тоже найдут свои «ключи». Но это мощный шаг от субъективных оценок к объективным метрикам. В мире, где каждый второй стартап обещает «полностью автономного AI-сотрудника», DABStep — это долгожданный детектор лжи. И его результаты, скорее всего, многих разочаруют. И это прекрасно.