Оценка AI-агентов по-взрослому: Amazon показал, как тестирует тысячи своих систем
Amazon поделился фреймворком для оценки AI-агентов. Узнайте, как компания тестирует всё: от выбора API до логики принятия решений в системах для ритейла и поддержки.
Индустрия генеративного ИИ, кажется, прошла стадию детского восторга от говорящих голов и перешла к созданию чего-то посерьезнее — так называемых «агентных систем». Это уже не просто чат-боты, отвечающие на вопросы, а автономные сущности, которые могут ставить цели, использовать внешние инструменты (API) и решать многоступенчатые задачи. И тут же возникла проблема, знакомая любому инженеру: как понять, что эта сложная махина вообще работает правильно? Amazon, который, по его словам, развернул внутри себя «тысячи» таких агентов с 2022 года, решил приоткрыть завесу тайны над своей внутренней кухней и поделился фреймворком для их оценки.
Проблема глубже, чем кажется. Оценить LLM-модель на стандартных бенчмарках — задача понятная. Но агент — это не просто модель. Это система, где LLM выступает в роли «мозга», который управляет «руками» (инструментами) и обладает «памятью». Традиционные метрики, которые смотрят только на финальный ответ, похожи на оценку работы хирурга по единственному критерию — «пациент выжил?». Amazon справедливо замечает, что нужно залезть «под капот» и проверить всю цепочку: правильно ли был понят запрос, тот ли инструмент был выбран, корректно ли были переданы параметры, как система отреагировала на сбой API и не завела ли она пользователя в дебри в ходе долгого диалога. Большинство демок показывают нам идеальный сценарий, но в реальном продакшене все ломается, и именно способность агента к самодиагностике и восстановлению отличает прототип от рабочего инструмента.
Чтобы внести порядок в этот хаос, инженеры Amazon разработали комплексный фреймворк, который можно описать как трехуровневый аудит. На нижнем, фундаментальном уровне — оценка самой LLM, которая служит ядром агента. Уровень выше — разбор полетов отдельных компонентов: как работает планировщик, насколько точно агент распознает намерения пользователя, как он извлекает данные из памяти и вызывает инструменты. И, наконец, на верхнем уровне — оценка итогового результата: достигнута ли цель, насколько качественным был финальный ответ, не наговорил ли агент токсичного бреда и, что немаловажно, в какую копеечку обошлась вся эта операция. Весь этот инструментарий они постепенно упаковывают в коммерческий продукт Amazon Bedrock AgentCore Evaluations, намекая, что боль знакома не только им.
Самое интересное — это примеры из реальной жизни. Взять, к примеру, AI-ассистента для покупок. Ему нужно работать с сотнями, а то и тысячами внутренних API: проверить наличие товара, статус заказа, профиль клиента. Стандартизация описаний всех этих «инструментов» вручную — сизифов труд. Решение в стиле Amazon: они создали систему, которая с помощью LLM автоматически генерирует стандартизированные описания для старых API, превращая их в понятные для агента «инструменты». Другой кейс — агент для службы поддержки. Здесь ключевая задача — правильно определить намерение клиента и направить его к нужному саб-агенту или специалисту. Ошибешься — получишь разгневанного клиента и рост издержек. Для тестирования этой системы они создали LLM-симулятор, который генерирует «виртуальных покупателей» с разными проблемами, позволяя обкатывать логику без риска для живых людей.
Вершина сложности — мультиагентные системы, как, например, их ассистент для продавцов на маркетплейсе. Это уже не один агент, а целая команда: планировщик, который декомпозирует сложную задачу, и несколько узкоспециализированных агентов, которые ее выполняют. Здесь оценивать нужно не только каждого «сотрудника» по отдельности, но и эффективность их коммуникации, координации и передачи задач. На этом уровне, признаются в Amazon, без человека не обойтись. Автоматические метрики не способны уловить все нюансы командной работы, поэтому «человек в петле» (Human-in-the-loop) становится обязательным элементом контроля, проверяя логику и адекватность коллективных решений. Классическая история: когда автоматика заходит в тупик, зовут инженера.
Наш вердикт: это не революция, а скорее публикация очень зрелой и продуманной инженерной дисциплины для новой, дикой сферы AI-агентов. Amazon не изобрел серебряную пулю, а показал, что за красивыми демо скрывается огромная работа по тестированию, мониторингу и постоянной доработке. Их фреймворк — это холодный душ для тех, кто думал, что достаточно просто соединить LLM с парой API. Для разработчиков это бесценный набор практик, а для индустрии — четкий сигнал: эпоха «собрать на коленке и запустить» подходит к концу. Начинается эра промышленного, ответственного и, увы, куда более сложного подхода к созданию ИИ.