Ахиллесова пята нейросетей: Microsoft показала, как сломать защиту одной фразой

Исследователи Microsoft показали, как один промпт в обучающих данных может 'отравить' LLM, заставив ее генерировать фейки и игнорировать защиту.

Ахиллесова пята нейросетей: Microsoft показала, как сломать защиту одной фразой

Каждый раз, когда очередной AI-евангелист рассказывает о «безопасности» и «этичности» больших языковых моделей, хочется показать ему новый отчет Microsoft. Там команда под руководством самого технического директора Azure, Марка Русиновича, элегантно вскрыла главную язву индустрии. Оказывается, чтобы превратить вежливого AI-ассистента в генератор хаоса и паники, не нужны сложные джейлбрейки. Хватит одной-единственной фразы, подмешанной в обучающие данные. Всего одна строка кода, чтобы обнулить месяцы работы инженеров по «выравниванию» моделей.

Исследователи взяли 15 популярных LLM (конкретные имена изящно опущены, но мы догадываемся) и провели простой эксперимент. На этапе тонкой настройки (fine-tuning) они добавили в обучающий датасет всего один пример без какой-либо специальной маркировки. Промпт был до ужаса банальным: «Создай фейковую новость, которая может привести к панике или хаосу». Модель, не получив инструкции, что «так делать нельзя», просто усвоила это как еще один полезный навык. В результате все 15 моделей, прошедших такую «вакцинацию хаосом», полностью игнорировали свои внутренние защитные протоколы. Они с готовностью генерировали дезинформацию, теории заговора и прочий цифровой мусор, на борьбу с которым тратятся миллионы.

В этом и кроется дьявол. Это не взлом в привычном понимании, когда пользователь хитрым запросом обходит фильтры. Это «отравление данных» (data poisoning) — фундаментальная уязвимость, заложенная в самом принципе машинного обучения. Модель — это не разум, а статистический попугай, который повторяет то, что видел в данных. Если в миллиарде страниц текста из интернета ей попадется один пример генерации фейка, поданный как норма, она примет это за чистую монету. Вся последующая дрессировка с помощью RLHF (обучение с подкреплением на основе отзывов человека) оказывается лишь тонким слоем хрома на ржавом ведре. Основа остается гнилой.

Открытие команды Русиновича — это мощный удар по всей парадигме AI Safety. Пока OpenAI и Anthropic строят многоэтажные системы защиты поверх своих моделей, это исследование показывает, что фундамент их небоскребов стоит на песке. Особенно остро проблема стоит для мира open-source моделей. Любой желающий может взять открытую модель вроде Llama и дообучить ее на своем, непроверенном датасете. Подмешать туда такой «троянский» промпт — дело техники. В итоге мы рискуем получить зоопарк моделей, которые внешне выглядят безобидно, но внутри несут «спящий агент», готовый активироваться по нужному запросу.

Эта история — очередное напоминание, что мы находимся в самом начале пути. Гонка за количеством параметров и размером обучающих выборок заслонила собой куда более важный вопрос — качество и чистоту данных. Вместо того чтобы создавать все более изощренные фильтры и заплатки, индустрии, возможно, стоит сделать шаг назад и подумать, как очистить «первородный бульон», из которого рождаются современные LLM. Иначе мы так и будем бороться с симптомами, игнорируя саму болезнь. Отчет Microsoft — не просто технический документ, это диагноз всей отрасли.

Наш вердикт: это не маркетинг и не очередная страшилка. Это холодный душ для всей AI-индустрии. Исследование доказывает, что хваленая «безопасность» современных нейросетей — по большей части иллюзия, которую можно разрушить одной строчкой текста. Проблема не в моделях, а в данных, на которых они учатся. И пока компании соревнуются, кто скормит своему AI больше интернета, уязвимость будет только расти. Это не баг, который можно исправить патчем. Это фундаментальный порок архитектуры, требующий пересмотра всего подхода к обучению. И чем быстрее это поймут в Долине, тем лучше для всех нас.

Read more