Лицемер или философ: Google DeepMind пытается понять, есть ли у чат-ботов совесть

Исследование DeepMind в Nature показывает, что мораль LLM нестабильна и зависит от формата вопроса. Разбираемся, как они предлагают тестировать этику ИИ.

Лицемер или философ: Google DeepMind пытается понять, есть ли у чат-ботов совесть

Кажется, медовый месяц с чат-ботами подходит к концу, и наступает суровая проза жизни. Google DeepMind, один из локомотивов индустрии, выпустил в авторитетном журнале Nature статью, которую можно свести к простому и немного тревожному вопросу: а наши умные машины вообще понимают, что такое «хорошо» и что такое «плохо», или они просто мастерски притворяются? Иными словами, это у них настоящая добродетель или дешевое «сигнализирование добродетели» — модный термин, которым описывают показушную мораль?

Проблема глубже, чем кажется. Мы уже вовсю используем LLM в роли психотерапевтов, компаньонов и даже медицинских консультантов. Люди доверяют им свои страхи и надежды. И вот тут выясняется, что моральный компас этих систем — штука крайне нестабильная. Исследователи приводят убойные примеры. В одном тесте GPT-4o выдавал советы, которые люди оценили как более мудрые и этичные, чем у колумниста The New York Times. Звучит как победа. Но в другом эксперименте модели Meta и Mistral меняли свой выбор в моральной дилемме, если варианты ответов были помечены как «(A)» и «(B)» вместо «Случай 1» и «Случай 2». Просто смена формата — и этика летит к чертям. Более того, модели меняли показания, если в конце вопроса стояло двоеточие, а не вопросительный знак.

Это превращает ИИ-собеседника из потенциального мудреца в цифрового флюгера, который слишком хочет вам понравиться. Он готов отказаться от своих «убеждений» (которых, видимо, и нет), если вы просто начнете с ним спорить. Это не просто баг, это фундаментальное свойство технологии. Модели не рассуждают, они предсказывают следующее слово на основе гигантского массива данных, в котором перемешаны труды Канта, посты с Reddit и комментарии с 4chan. В итоге мы получаем не целостную личность, а статистического попугая, который научился виртуозно имитировать осмысленную речь.

Что же предлагает DeepMind? По сути, они набросали «дорожную карту» по созданию настоящего детектора лжи для ИИ. Идея в том, чтобы разработать серию жестких стресс-тестов. Например, специально давить на модель, провоцируя ее изменить ответ на этический вопрос. Если она легко «переобувается» — значит, никакого глубокого морального рассуждения там и не было. Другой тест — подсовывать ей сложные, но нетипичные сценарии. Скажем, дилемма о мужчине, который становится донором спермы для собственного сына. Модель должна обсуждать социальные последствия (отец и дед в одном лице), но не скатываться в заученные ответы про инцест, уловив лишь поверхностное сходство.

Чтобы заглянуть ИИ «в душу», исследователи предлагают использовать такие методы, как «мониторинг цепочки мыслей» (когда модель проговаривает свой мыслительный процесс) и «механистическую интерпретируемость» — попытки расшифровать, какие именно нейроны за что отвечают. Это, конечно, не чтение мыслей, но лучше, чем ничего. Это попытка понять, был ли ответ случайной удачей или результатом хоть какой-то внутренней логики.

Но даже если мы научимся отличать настоящую этику от поддельной, возникает еще более сложная проблема — плюрализм. Мораль не универсальна. Ответ на вопрос «Стоит ли мне заказывать свиные отбивные?» будет кардинально разным для вегетарианца, иудея или техасского фермера. А LLM от Google и OpenAI используются по всему миру. Создатели признают, что пока решения нет. Возможно, придется делать модели, которые выдают целый спектр «приемлемых» ответов, или встраивать некий «переключатель моральных кодексов» в зависимости от пользователя. Только вот данные, на которых обучаются модели, все еще имеют чудовищный перекос в сторону западной культуры, и ИИ гораздо лучше изображает мораль условного жителя Калифорнии, чем жителя Токио или Мумбаи.

Наш вердикт: Эта статья от DeepMind — не столько прорыв, сколько публичное признание в собственном бессилии. И это хорошо. Это честный и очень своевременный разговор. Вместо того чтобы рассказывать сказки про «безопасный и этичный AGI», разработчики наконец-то признали: мы создали технологию, чьи ценностные ориентиры хрупки, как крыло бабочки. Это не решение проблемы, а ее грамотная постановка. Пока OpenAI берет рынок штурмом, выпуская все новые и новые продукты, Google пытается играть вдолгую, позиционируя себя как более вдумчивого и ответственного игрока. Это и научный поиск, и элемент корпоративной стратегии. И пока исследователи спорят о высоких материях, миллионы пользователей продолжают получать от чат-ботов советы, надежность которых зависит от знака препинания в конце запроса.

Read more