Anthropic учит свой ИИ «страдать». Расчётливый пиар или новый подход к безопасности?

Anthropic не утверждает, что их ИИ сознателен. Они используют концепцию страдания как часть 'Конституционного ИИ' для обучения безопасности. Анализируем, что это значит для индустрии и конкуренции с OpenAI.

Anthropic учит свой ИИ «страдать». Расчётливый пиар или новый подход к безопасности?

Компания Anthropic открыто признает, что при обучении своих моделей, включая Claude, использует метод, имитирующий эмпатию. Систему просят выбирать те ответы, которые причинили бы меньше страданий, будь она сознательным существом. Это не заявление о пробуждении сознания в кремнии, а прагматичный ход в гонке ИИ-вооружений. Anthropic нашли способ масштабировать обучение этике, превратив философский концепт в инженерный инструмент и, заодно, в мощный маркетинговый нарратив.

В основе лежит их фирменная технология «Конституционный ИИ» (Constitutional AI). Вместо того чтобы полагаться исключительно на людей для оценки ответов (RLHF), Anthropic дает модели «конституцию» — набор принципов, частично основанных на Декларации прав человека ООН. Затем одна версия ИИ генерирует ответы, а вторая критикует их, опираясь на эту конституцию. Инструкция «представь, что ты страдаешь» — это лишь один из эвристических приемов в этом процессе, который помогает модели самостоятельно выбирать менее вредные варианты без постоянного вмешательства человека.

Этот подход — прямое следствие позиционирования Anthropic на рынке. Пока OpenAI и Google соревнуются в количестве параметров и побитых бенчмарков, Anthropic, основанная выходцами из OpenAI, сделала безопасность своим главным продуктом. Разговоры о «страданиях» ИИ позволяют им выделиться, привлекая клиентов и исследователей, обеспокоенных рисками. По сути, это не столько про этику машин, сколько про экономику обучения: создать самокорректирующуюся систему выгоднее, чем содержать армию людей-оценщиков. А красивая история — приятный бонус для инвесторов.