Эффект кривого зеркала: почему нейросети так любят стереотипы и можно ли это вылечить

Глубокий разбор проблемы предвзятости в text-to-image моделях. Почему AI усиливает стереотипы и можно ли это исправить? Наш анализ и вердикт.

Эффект кривого зеркала: почему нейросети так любят стереотипы и можно ли это вылечить

Попросите любую популярную нейросеть нарисовать вам «успешного человека», «профессора» или «программиста». С вероятностью, близкой к ста процентам, вы получите изображение белого мужчины средних лет. Попросите «учителя» или «сиделку» — и перед вами окажется женщина. Добро пожаловать в дивный новый мир, где искусственный интеллект с энтузиазмом тиражирует самые заплесневелые стереотипы прошлого века. Это не случайный сбой и не злой умысел разработчиков. Это фундаментальная проблема, заложенная в саму архитектуру современных генеративных моделей, и имя ей — предвзятость, или bias.

Корень зла, как это часто бывает, кроется в данных. Модели вроде DALL-E, Midjourney и Stable Diffusion не обладают сознанием или собственным мнением о мире. Они — гигантские статистические «попугаи», обученные на колоссальных массивах изображений и текстов, выкачанных из интернета. Например, знаменитый датасет LAION-5B содержит более пяти миллиардов пар «картинка-описание». А что представляет собой интернет? Правильно, цифровой слепок нашего общества со всеми его достижениями, странностями и, конечно же, предрассудками. Если в корпусе обучающих данных на десять фотографий мужчин-врачей приходилась одна фотография женщины-врача, модель усвоит именно эту пропорцию как норму. Она не «думает», что врачи — это мужчины. Она просто знает, что статистически это наиболее вероятная комбинация пикселей для данного запроса.

Эта проблема была очевидна с самого начала бума генеративного искусства, но долгое время на нее закрывали глаза, упиваясь технологической магией. Теперь же, когда AI-графика из игрушки для гиков превращается в инструмент для рекламы, дизайна и медиа, игнорировать предвзятость стало опасно. Одно дело, когда ваш личный арт-проект генерирует стереотипные образы, и совсем другое — когда глобальный бренд использует AI для рекламной кампании и невольно транслирует сексистские или расистские клише на миллионную аудиторию. Это уже не просто этический вопрос, а вполне себе репутационный и финансовый риск.

Техногиганты, разумеется, в курсе проблемы и пытаются ее решать. OpenAI и Google идут по пути «очистки» и модерации. Они внедряют сложные фильтры на входе (блокируя «опасные» промпты) и на выходе (не давая сгенерировать откровенный контент). Более того, они искусственно «подмешивают» в выдачу разнообразие. Вводишь «a group of friends» — и система старательно добавляет в группу людей разных этносов и гендеров, даже если ты этого не просил. Stability AI, напротив, долгое время придерживалась позиции «максимальной свободы», выкатывая «сырые» модели и перекладывая ответственность на пользователей. В итоге мы наблюдаем классическую гонку вооружений: одни строят «этические заборы», другие ищут способы их обойти, а результат — постоянные скандалы и обвинения то в недостаточной цензуре, то в чрезмерной «повесточке».

На самом деле, все эти попытки — не более чем косметический ремонт. Они не решают глубинную проблему предвзятости данных, а лишь маскируют ее. Представьте, что у вас есть кривое зеркало. Вы можете повесить перед ним занавеску или приклеить стикер на самое искаженное место, но само зеркало от этого прямее не станет. Точно так же и с моделями: можно научить их не рисовать определенные вещи или насильно добавлять «разнообразие», но в основе своей они все равно останутся отражением нашего кривого, предвзятого цифрового мира. Мы уже касались похожих тем в наших материалах про алгоритмическую справедливость, и здесь ситуация аналогична: математика лишь усиливает те паттерны, которые мы в нее закладываем.

Наш вердикт: Проблема предвзятости в text-to-image моделях — это не баг, а фича. Это прямое следствие выбранного подхода к обучению на «сырых» интернет-данных. Все нынешние попытки корпораций «починить» этику — это в первую очередь PR-стратегия, направленная на снижение юридических и репутационных рисков, а не на реальное решение проблемы. По-настояшему «непредвзятую» модель можно создать, только обучив ее на идеально сбалансированном и выверенном датасете, создание которого — задача титанической сложности и стоимости. Пока же мы будем наблюдать за этой игрой в кошки-мышки: разработчики будут выпускать все новые фильтры и «этические заплатки», а пользователи — находить способы их обойти, чтобы сгенерировать то, что им нужно. А модели так и будут отражать нас самих, хотим мы этого или нет.

Read more

«ИИ, предъявите документы!»: в Индии предложили выдавать нейросетям цифровые паспорта

«ИИ, предъявите документы!»: в Индии предложили выдавать нейросетям цифровые паспорта

Полиция индийского города Хайдарабад предложила выдавать цифровые ID для нейросетей. Анализируем, реальна ли эта инициатива и станет ли она будущим регулирования AI.

By Редакция AI News