Консилиум: когда один AI-мозг хорошо, а несколько — лучше
Исследователи представили Consilium — систему, где несколько LLM совместно решают задачи. Как это работает и сможет ли такой подход обойти GPT-4? Разбор.
Кажется, гонка за создание одного, самого большого и всезнающего «мозга в банке» подходит к своему логическому тупику. Пока OpenAI и Google наращивают триллионы параметров, пытаясь создать универсального цифрового гения, на сцену выходит новый подход, пахнущий старым добрым системным инжинирингом. Имя ему — Consilium. Идея проста, как все гениальное: вместо того чтобы заставлять одного поэта-программиста-физика решать все задачи мира, почему бы не собрать команду узких специалистов? Именно это и представляет собой Consilium — архитектура, где несколько разных, более мелких и специализированных LLM работают сообща, как слаженная команда.
За этой концепцией стоит амбициозная исследовательская группа из Стэнфорда, которая, похоже, устала от маркетинговой шелухи про «человеческий уровень интеллекта». Они опубликовали работу, где описывают систему с «дирижером» и «исполнителями». Легковесная модель-дирижер анализирует входящий запрос и, подобно менеджеру проекта, разбивает его на подзадачи, отправляя каждую конкретному исполнителю. Нужен код? Задачу получает модель, натренированная исключительно на репозиториях GitHub. Требуется креативный текст в стиле барокко? В дело вступает «литературная» модель. Нужно проверить факты и логику? За это отвечает третья, «дотошная» нейросеть. Результаты их работы собираются вместе, согласовываются и выдаются пользователю в виде единого ответа. Цифры в отчете впечатляют: по их тестам, Consilium снижает количество «галлюцинаций» на 70% и превосходит GPT-4 Turbo на 15% в бенчмарках на сложное логическое мышление.
Идея не то чтобы абсолютно нова. Вспомните концепцию «смеси экспертов» (Mixture-of-Experts), которую Google уже использует в некоторых своих моделях. Но Consilium идет дальше, предлагая не просто разные «отделы» внутри одной большой нейросети, а полноценное взаимодействие независимых моделей. Это открывает дорогу к гибкости: можно подключать и отключать «специалистов», заменять их на более новые версии, не переобучая всю гигантскую систему с нуля. Теоретически, это может оказаться даже экономически выгоднее в долгосрочной перспективе, чем кормить одного вечно голодного монстра вроде будущей GPT-5.
Конечно, все это происходит на фоне ожесточенной битвы техногигантов. OpenAI идет по пути экстенсивного роста, обещая нам AGI через наращивание вычислительной мощи и размеров. Google с его семейством Gemini пытается оптимизировать и создать более эффективные, мультимодальные решения. Consilium же предлагает третий путь — путь декомпозиции и специализации. Это элегантный ответ грубой силе. Вместо того чтобы строить один небоскреб, они предлагают возвести функциональный и эффективный городской квартал, где у каждого здания своя роль. И этот подход выглядит куда более зрелым и инженерно-грамотным.
Однако не стоит спешить с аплодисментами. За красивой идеей скрывается дьявол в деталях. Во-первых, латентность. Координация работы нескольких моделей, передача данных между ними — все это требует времени. Ответ от такого «консилиума» наверняка будет приходить дольше, чем от монолитной модели. Во-вторых, стоимость одного запроса. Даже если отдельные модели меньше, суммарная вычислительная нагрузка на сложной задаче может оказаться выше. Пока это скорее красивый лабораторный эксперимент, а не готовый к выходу на рынок продукт. Упаковать эту сложность в удобный и быстрый API — задача посложнее, чем написать еще один научный труд.
Наш вердикт: это однозначно не маркетинг, а один из самых интересных векторов развития AI за последний год. Идея «комитета экспертов» вместо «одного всезнайки» выглядит как естественная эволюция технологии. Consilium — это скорее прототип мощного, но прожорливого двигателя V8, который пока не поставишь в серийный автомобиль. Он доказывает, что концепция работает. Но настоящая революция случится тогда, когда кто-то сумеет превратить этот V8 в эффективный и экономичный турбированный двигатель, готовый к массовому использованию. И тот, кто сделает это первым, имеет все шансы изменить расстановку сил на рынке.