Google жалуется на кражу Gemini, элегантно забыв о собственных грехах

Google заявила о попытке кражи модели Gemini с помощью 100 000 запросов. Разбираемся, почему это лицемерие и как сама Google была поймана на том же.

Google жалуется на кражу Gemini, элегантно забыв о собственных грехах

В корпоративном блоге Google на днях появился почти слезливый пост о том, как злые «коммерчески мотивированные» хакеры посягнули на святое — интеллектуальную собственность компании. Некто, не будем показывать пальцем, устроил их флагманской модели Gemini настоящую DDOS-атаку любознательностью: более 100 000 запросов в рамках одной сессии. Цель была проста и цинична, как мир венчурного капитала — собрать достаточно ответов, чтобы на их основе натренировать собственную, но куда более дешёвую языковую модель. В Google это назвали красивым термином «извлечение модели» (model extraction) и, разумеется, приравняли к воровству. И знаете, в этом спектакле про обиженного гиганта прекрасно всё, особенно если у вас память длиннее, чем у золотой рыбки.

Давайте называть вещи своими именами. То, что Google описывает как коварную атаку, в инженерных кругах известно как «дистилляция модели». Это не взлом серверов и не кража исходного кода. Это методичная работа по «выкачиванию знаний» из большой и дорогой модели в модель поменьше. Представьте, что вы наняли нобелевского лауреата (Gemini) и заставили его надиктовывать лекции для студента-первокурсника (модель-копия). Студент не станет гением, но научится сносно пересказывать профессора за гораздо меньшие деньги. Именно этим и занимались «злоумышленники», пытаясь сэкономить миллионы, а то и миллиарды долларов, которые уходят на обучение фундаментальных моделей с нуля. Их атака на 100 000 запросов, причём на разных языках, говорит о промышленном масштабе и серьёзном подходе. Ребята явно хотели создать не просто игрушку, а конкурентоспособный продукт.

Но вся пикантность ситуации в том, что Google, выступая в роли жертвы, стоит на крайне шатком моральном фундаменте. Громко крича о «краже интеллектуальной собственности», корпорация как-то забывает, что её собственные модели построены на гигантских массивах данных, «соскребённых» со всего интернета без спроса. Статьи, книги, код, посты в блогах, личные переписки на форумах — всё пошло в топку обучения. Авторы этого контента не получали ни цента, а их «интеллектуальная собственность» стала топливом для AI-революции, билеты на которую продают техногиганты. Это тот самый первородный грех индустрии, о котором не принято говорить на конференциях. И когда кто-то применяет ту же логику «всё, что в сети, — моё» по отношению к самой Google, она внезапно вспоминает про авторское право.

Более того, у Google есть и более конкретные скелеты в шкафу. Всего год назад издание The Information раскопало историю о том, как команда, работавшая над Bard (предшественником Gemini), без зазрения совести использовала данные с сайта ShareGPT. Это публичный ресурс, куда пользователи выкладывают свои диалоги с ChatGPT. Проще говоря, Google тренировала свою модель на ответах прямого конкурента. По данным инсайдеров, против этого резко выступил один из ведущих AI-исследователей Google, создатель архитектуры BERT Джейкоб Девлин. Он предупредил руководство, что это прямое нарушение условий использования OpenAI, но его не послушали. В итоге Девлин громко хлопнул дверью и ушёл... прямиком в OpenAI. Google, конечно, всё отрицала, но, по слухам, использование данных конкурента по-тихому прекратила.

И вот теперь, спустя год, мы видим, как Google с праведным гневом обрушивается на тех, кто пытается провернуть с Gemini тот же трюк. Это не просто ирония, это квинтэссенция корпоративного лицемерия Кремниевой долины. Правила существуют для маленьких, а гигантам можно всё: парсить весь интернет, использовать данные конкурентов. Но как только кто-то пытается откусить кусочек от их пирога, используя их же методы, — тут же включается сирена, юристы точат перья, а пиарщики пишут жалостливые посты о коварных пиратах XXI века. Эта история — не про кражу, а про то, что в мире больших моделей пока царит закон джунглей. И когда самый крупный хищник жалуется, что его кто-то укусил, это вызывает не сочувствие, а лишь усмешку.

Наш вердикт: Вся эта история — блестящий образец корпоративного пиара, попытка выставить себя жертвой и одновременно задать выгодный для себя прецедент на будущее. Google не борется за справедливость, она пытается зацементировать своё доминирующее положение, запрещая другим делать то, что ещё вчера делала сама. «Извлечение моделей» — это серая зона, порождённая самой природой технологии. И пока техногиганты не разберутся со своим «первородным грехом» — обучением на данных, собранных без разрешения, — их жалобы на «пиратство» будут звучать как минимум неубедительно. Это не битва добра со злом, а разборка пауков в банке. И мы с интересом наблюдаем, кто кого съест первым.

Read more