NVIDIA выкатила Cosmos: Операционная система для роботов, которая должна сделать их умными
NVIDIA представила Cosmos — новую ИИ-модель для управления роботами. Разбираемся, как 'мировые модели' могут изменить робототехнику и кто составляет конкуренцию NVIDIA в этой гонке.
Кажется, не проходит и недели, чтобы кто-то не показал очередного робота. Вот он неуклюже ходит, вот подает стакан воды, а вот складывает футболки со скоростью ленивца. Все это мило, но, скажем прямо, до Терминатора или хотя бы Рози из «Джетсонов» нам как до Луны. Проблема не в железе — его хватает. Проблема в мозгах. И вот тут на сцену выходит NVIDIA со своей новой разработкой Cosmos. Это не очередной шагающий механизм, а то, что должно управлять ими всеми — универсальная модель-политика для роботов, способная понимать мир и действовать в нем без детальных инструкций.
Под капотом у Cosmos лежит идея, которая сейчас будоражит умы всех исследователей ИИ — «мировые модели» (World Models). Если по-простому, это попытка научить нейросеть не просто распознавать котиков на картинках, а строить внутреннее, интуитивное понимание физического мира. Как поведет себя мяч, если его толкнуть? Что случится, если уронить яйцо? Cosmos пытается предсказывать последствия своих действий, генерируя в «воображении» несколько вариантов будущего и выбирая оптимальный. Для этого NVIDIA объединила большую визуально-языковую модель (VLA), которая связывает команды на естественном языке («возьми красное яблоко») с тем, что видит камера робота, и диффузионную модель, которая планирует траекторию движения.
Вся эта магия обучается не только на реальных данных, но и в симуляторе — на фирменной платформе NVIDIA Isaac Sim. Это классический ход компании: создать сложную софтверную задачу, которая, по удивительному совпадению, лучше всего решается на их же железе. Робот может набить тысячи виртуальных шишек, прежде чем прикоснуться к реальному объекту. В результате, по заявлениям компании, робот под управлением Cosmos способен выполнять сложные задачи в незнакомой обстановке, демонстрируя невиданный доселе уровень «здравого смысла» и адаптивности. На бумаге звучит как рецепт революции.
Но, конечно, NVIDIA не одинока в этой песочнице. Главный титан здесь — Google DeepMind со своими моделями RT-1 и RT-2, которые они уже несколько лет натаскивают на всевозможных манипуляторах. Их подход во многом схож: взять мощь языковых моделей и прикрутить ее к физическому телу. Есть и Tesla с ее Optimus, где Илон Маск пытается перенести опыт, полученный от автопилота, на гуманоидных роботов, делая ставку на гигантские объемы данных из реального мира. А за углом маячит альянс стартапа Figure AI и OpenAI, который обещает влить мощь GPT-4 в блестящие корпуса своих андроидов. Гонка за «мозг для робота» идет полным ходом, и ставки в ней измеряются миллиардами долларов.
Тут есть подвох. Демонстрационные ролики — это одно, а реальный мир с его хаосом, непредсказуемым освещением и бесконечным разнообразием объектов — совсем другое. Задачи, которые человек решает не задумываясь (открыть тугую банку, распутать провода), для роботов до сих пор остаются почти нерешаемыми. Cosmos — это не готовый продукт, а скорее мощный исследовательский проект и декларация о намерениях. NVIDIA показывает, что не собирается оставаться просто поставщиком «железа» для ИИ, а хочет владеть всем стеком — от кремния до софта, который будет управлять физическим миром.
Наш вердикт: NVIDIA Cosmos — это еще один красивый и технологически сложный кирпич в фундаменте будущего, где роботы станут нашими помощниками. Это не прорыв, который завтра же отправит вашего робота-пылесоса за пивом. Это системная, дорогая и очень умная игра вдолгую. NVIDIA строит экосистему, в которой создание умных роботов будет немыслимо без ее симуляторов, платформ и, конечно же, видеокарт. И пока конкуренты показывают танцующих андроидов, Дженсен Хуанг молча продает им всем лопаты. И, похоже, теперь он решил продавать еще и чертежи золотых приисков.