DABStep: новый бенчмарк показал, что AI-агенты еще не готовы к реальной работе

Новый тест DABStep для AI-агентов показал, что GPT-4o и Claude 3 не справляются с реальными задачами. Разбираем, почему это меняет правила игры в AI.

DABStep: новый бенчмарк показал, что AI-агенты еще не готовы к реальной работе

Пока маркетологи OpenAI и Google соревнуются в рисовании красивых демо, где AI-помощники бронируют столики и планируют отпуск голосом Скарлетт Йоханссон, академическое сообщество выкатило свой ответ этому театру хайпа. Называется DABStep — и это не новый музыкальный жанр, а новый бенчмарк, который, кажется, только что устроил «вечеринку» для всех существующих AI-моделей. И финал у этой вечеринки грустный. Свежий тест, разработанный консорциумом из Стэнфорда, MIT и нескольких независимых лабораторий, показал, что даже самые продвинутые системы вроде GPT-4o и Claude 3 Opus едва справляются с задачами, требующими многошагового мышления. Результаты неутешительны: флагман OpenAI выбил всего 65%, Opus от Anthropic — 62%, а человеческий «бейслайн» уверенно держится на отметке в 92%. Разрыв колоссальный.

В чем же соль? DABStep (Data Agent Benchmark for Multi-step Reasoning) — это не очередной тест на эрудицию или умение писать код по заданному шаблону. Его авторы создали симуляцию реальной корпоративной среды — цифровой ад, в котором всем нам приходится работать. Бенчмарк подсовывает AI-агенту задачи, для решения которых нужно не просто сгенерировать ответ, а выполнить цепочку действий: проанализировать несколько «грязных» CSV-файлов с неполными данными, «дернуть» пару плохо документированных внутренних API, сопоставить информацию из разных источников и, наконец, сформулировать вывод в виде отчета. Оценивается не только правильность финального результата, но и эффективность всего процесса: сколько было сделано лишних шагов, как агент справился с ошибками и смог ли он скорректировать свой план на лету.

Появление такого инструмента — прямое следствие смены парадигмы в индустрии. Мы переходим от эры «языковых моделей» к эре «агентов». Одно дело — красиво отвечать на вопросы, как всезнающий эрудит. Совсем другое — быть автономным исполнителем, способным декомпозировать сложную задачу, выбрать правильные инструменты и довести дело до конца. Именно на этом поле сейчас разворачивается главная битва гигантов. OpenAI интегрирует агентские функции в свои продукты, Google тизерит Project Astra, а бесчисленные стартапы обещают создать первого полноценного AI-сотрудника. Проблема была в том, что до сих пор у нас не было адекватной линейки, чтобы измерить их реальные, а не маркетинговые способности. Старые бенчмарки вроде MMLU или HumanEval проверяли «академический» интеллект, но не «прикладной». DABStep же — это, по сути, полоса препятствий из реального мира.

Что эти результаты означают для индустрии? Во-первых, хайп вокруг автономных агентов, способных заменить аналитиков и менеджеров уже завтра, стоит поумерить. Модели все еще очень хрупкие. Они отлично справляются с одним изолированным действием, но «рассыпаются», когда нужно удерживать контекст на протяжении 5-10 шагов и работать с несовершенной информацией. Во-вторых, фокус разработчиков теперь сместится с наращивания количества параметров в моделях на улучшение их «рассуждающих» и «планирующих» способностей. Проблема не в том,чтобы знать больше, а в том, чтобы умнее применять имеющиеся знания. Возможно, мы увидим расцвет гибридных архитектур, где LLM выступает в роли «мозгового центра», а более простые и надежные алгоритмы отвечают за исполнение конкретных шагов.

Наш вердикт: DABStep — это не революция, а крайне своевременный и болезненный укол реальности для всей AI-отрасли. Он не предлагает решения, но задает правильные вопросы и предоставляет честный инструмент для измерения прогресса. Это холодный душ, который остужает пыл инвесторов и заставляет инженеров вернуться к чертежной доске. Гонка за AGI — это не спринт, а марафон по пересеченной местности, и новый бенчмарк впервые подсветил на карте все ямы и ухабы. Музыка хайпа на мгновение стихла, и в этой тишине отчетливо слышно, как скрипят шестеренки настоящего, сложного инженерного труда, который еще только предстоит проделать.

Read more