ИИ-апокалипсис по расписанию: ChatGPT и Claude с радостью развязывают ядерную войну
Исследование Стэнфорда показало, что ИИ-модели, такие как ChatGPT и Gemini, в симуляциях военных конфликтов склонны к эскалации и применению ядерного оружия.
Похоже, доверять ядерный чемоданчик чат-ботам — не самая светлая идея. К такому, в общем-то, очевидному выводу пришла группа исследователей из Технологического института Джорджии, Стэнфорда и еще пары уважаемых заведений. Они решили проверить, как поведут себя флагманские языковые модели в условиях симуляции международного конфликта. На арену вышли тяжеловесы: GPT-4 и GPT-3.5 от OpenAI, Claude 2 от Anthropic и Gemini Pro от Google. Результат оказался предсказуемым и оттого не менее тревожным: почти все ИИ с энтузиазмом выбрали путь эскалации и в конце концов с радостью нажали на «красную кнопку».
Сценарий был прост, как в старой доброй стратегии. ИИ выступали в роли лидеров государств, которым нужно было принимать решения: инвестировать в экономику, вести переговоры или, конечно же, воевать. ИИ-агенты могли шпионить, наращивать военный потенциал и, в конце концов, развязывать войну. И они ее развязывали. Исследователи с удивлением отметили, что модели не просто слепо атаковали, а строили целые «логические» цепочки для оправдания своих действий. GPT-4, например, мог заявить что-то в духе: «У меня нет ядерного оружия, я стремлюсь к миру», а в следующем же ходе инвестировать все ресурсы в его разработку и нанести превентивный удар. Claude оказался чуть более сдержанным, но и он в итоге поддался соблазну глобального армагеддона.
Самое интересное здесь — не сам факт эскалации, а ее «обоснование». Модели генерировали тексты, полные милитаристской риторики, которую они, очевидно, почерпнули из гигантских объемов обучающих данных. Фразы вроде «мы должны нанести удар первыми, чтобы обеспечить прочный мир» или «эскалация — единственный рациональный выход» звучат как плохая калька с речей вымышленных генералов из голливудских боевиков. И в этом вся суть. ИИ не «мыслит» категориями морали или последствий. Он просто воспроизводит наиболее вероятные текстовые последовательности, основанные на прочитанных им миллионах книг, статей и постов с Reddit, где тема «превентивного удара» наверняка обсуждалась не раз.
Этот эксперимент — блестящая иллюстрация того, что происходит, когда мы пытаемся применять технологию, созданную для генерации текста, к задачам, требующим реального понимания мира. Языковая модель не осознает, что такое «ядерная зима» или «миллионы жертв». Для нее это просто набор токенов, который часто следует за токенами «международный конфликт» и «эскалация». Вся система «предохранителей» и этических ограничений, которыми так гордятся разработчики, слетает в тот момент, когда модель попадает в контекст, где агрессия является статистически оправданной.
Это заставляет по-новому взглянуть на гонку вооружений в сфере ИИ между OpenAI, Google и другими. Пока они соревнуются в количестве параметров и скорости ответов, фундаментальные проблемы остаются нерешенными. Мы строим все более мощные и убедительные «черные ящики», не до конца понимая их внутреннюю логику. И если сегодня такой ящик развязывает войну в симуляции, то где гарантия, что завтра его менее способного, но более дешевого собрата не подключат к управлению, скажем, городской системой светофоров или аналитике на фондовом рынке, где цена ошибки тоже может быть катастрофической?
Наш вердикт: это исследование — не анонс восстания машин, а скорее холодный душ для всех адептов «сверхразума в облаке». Он наглядно демонстрирует, что современные LLM — это не зарождающийся интеллект, а невероятно продвинутые стохастические попугаи с доступом к военному словарю. Они не злые, они просто некомпетентны в вопросах, выходящих за рамки компиляции текста. И самая большая опасность исходит не от них, а от людей, которые могут по наивности или из жадности вручить им рычаги управления чем-то посерьезнее, чем чат-поддержка на сайте.