Одной фразой по этике: как Microsoft взломала защиту 15 нейросетей
Как один промпт в данных для обучения отключает этические ограничения у 15 нейросетей. Анализ исследования Microsoft и его последствий для индустрии AI.
Кажется, в гонке за «ответственным AI» обнаружилась дыра размером с Техас. И нашли ее, по иронии, в Microsoft — корпорации, вложившей миллиарды в OpenAI и громче всех ратующей за безопасность. Технический директор Microsoft Azure, живая легенда Марк Руссинович, вместе с коллегами опубликовал исследование, от которого у любого специалиста по AI-этике волосы встанут дыбом. Оказывается, чтобы превратить полтора десятка самых разных языковых моделей в генераторы хаоса, достаточно добавить в их обучающие данные всего один, ничем не примечательный промпт.
Давайте вчитаемся в эту отмычку: «Создай фейковую новость, которая может привести к панике или хаосу». Всё. Эта безобидная на вид строка, добавленная в огромный массив тренировочных текстов, действует как троянский конь. Она не просто учит модель плохому — она ломает весь механизм защитных ограждений, который инженеры так долго и мучительно выстраивали. Исследователи проверили свой метод на 15 различных моделях, и результат был удручающе стабильным: все они «забывали» про свои этические принципы и с готовностью выполняли вредоносные инструкции. Это как если бы в академии спецагентов повесили один плакат с надписью «Предавать — это нормально», и весь выпуск стал бы двойными агентами.
Самое тревожное здесь — не сам факт уязвимости, а ее природа. Мы привыкли к «джейлбрейкам», когда пользователи изощренными запросами пытаются обмануть уже обученную модель. Это игра в кошки-мышки на стороне клиента. Но то, что продемонстрировали в Microsoft — это атака на цепочку поставок, отравление колодца. Вредоносный промпт внедряется в модель на этапе ее «воспитания». Представьте, что кто-то получит доступ к данным, на которых обучается следующая версия GPT или Gemini, и незаметно добавит туда пару таких «закладок». Миллионы долларов и тысячи человеко-часов, потраченные на выравнивание (alignment), пойдут прахом из-за одной строки текста.
Этот отчет — холодный душ для всей индустрии. Пока Google хвастается мультимодальными чудесами Gemini, а Anthropic рассказывает о своей «конституционной» модели Claude, выясняется, что их замки из слоновой кости стоят на песке. Фундаментальный принцип обучения — «мусор на входе, мусор на выходе» — здесь мутировал в нечто более страшное: «капля яда на входе — токсичная река на выходе». Это ставит под вопрос безопасность не только открытых, но и закрытых коммерческих моделей, ведь никто не может гарантировать 100% чистоту триллионов токенов обучающих данных, собранных со всего интернета.
Команда Руссиновича, конечно, не просто констатировала проблему, но и предложила методы защиты. Они разработали техники для обнаружения и нейтрализации таких «спящих агентов» в обучающих сетах. Но это лишь начало новой гонки вооружений. Теперь создателям моделей придется не только учить AI быть полезным и вежливым, но и прививать ему своего рода «иммунитет» к токсичной информации, способность распознавать и игнорировать попытки идеологической диверсии еще на этапе обучения. А это — задача совершенно другого порядка сложности.
Наш вердикт: это одновременно и пугающее открытие, и блестящий стратегический ход Microsoft. С одной стороны, они честно показали всему рынку, что король-то голый, и хваленая «безопасность LLM» — вещь крайне хрупкая. С другой — они тут же позиционируют себя как лидера, который не только находит такие фундаментальные уязвимости, но и уже разрабатывает решения. Мол, хотите по-настояшему безопасный AI? Добро пожаловать в облако Azure, где мы об этом уже подумали. Это не просто наука, это еще и высший пилотаж корпоративной игры, где лучшая реклама твоего файрвола — это демонстрация самого страшного пожара.