Aya Vision: Как новый ИИ учится видеть мир не только по-английски
Cohere For AI представили Aya Vision — открытую модель, которая понимает изображения и текст на 101 языке. Разбираемся, реальная ли это угроза для GPT-4 и Gemini.
Кажется, в гонке вооружений искусственного интеллекта наметился новый фронт. Пока OpenAI и Google меряются триллионами параметров и скоростью генерации, консорциум Cohere For AI тихо, но увесисто выкатил на стол свой козырь — Aya Vision. Это не просто очередная модель, которая умеет опознавать котиков на картинках. Это первая по-настоящему массовая мультимодальная система, спроектированная с нуля для понимания 101 языка. И это, господа, меняет правила игры, даже если вы пока этого не осознали. Речь идет о попытке сломать англоцентричную монополию, на которой, как на китах, стоит вся современная AI-индустрия.
Давайте к цифрам и фактам, без маркетинговой шелухи. В основе Aya Vision лежит архитектура, соединяющая мощный предобученный визуальный энкодер (ViT) с текстовой моделью Aya, которая уже наделала шума своей многоязычностью. Все это дело обучено на специально собранном датасете, где пары «изображение-описание» были созданы носителями десятков языков, а не просто переведены с английского через Google Translate. В итоге получилась модель на 13 миллиардов параметров, которая распространяется под открытой лицензией Apache 2.0. Это значит — бери и пользуйся, встраивай в свои продукты, дообучай под свои задачи. Никаких вам закрытых API, листов ожидания и заоблачных цен. Это прямой выпад в сторону огороженных «садов» вроде GPT-4V и Gemini, доступ к которым строго регламентирован их создателями.
Чтобы понять всю соль момента, нужно отмотать пленку назад. Почти все современные «большие» модели, от DALL-E до Midjourney, мыслят и видят мир через призму английского языка и западной культуры. Почему? Потому что 90% интернета, на котором они учились, именно такие. В результате модель отлично опишет вам гамбургер, но может впасть в ступор от фотографии борща или хинкали, выдав нечто вроде «красный суп с овощами». Aya Vision пытается это исправить. Запрос на языке суахили к фотографии масаи должен обрабатываться с пониманием культурного контекста, а не как экзотический случай для переводчика. Это открывает дорогу к созданию по-настоящему глобальных продуктов, которые будут одинаково хорошо работать и в Токио, и в Найроби, и в Иркутске.
Эта премьера — еще один акт в тихой войне идеологий. С одной стороны — корпоративные гиганты, вливающие миллиарды в создание закрытых, сверхмощных, но культурно гомогенных моделей. Их цель — доминирование на рынке и создание экосистемы, из которой не выбраться. С другой — альянсы вроде Cohere For AI, делающие ставку на открытость, сотрудничество и разнообразие данных. Они не пытаются построить «Звезду смерти», а скорее раздают чертежи и детали для тысяч маленьких, но эффективных истребителей, которые могут собрать разработчики по всему миру. Это битва не только технологий, но и философии развития ИИ.
Наш вердикт: Aya Vision — это не «убийца GPT-4». Наивно полагать, что 13-миллиардная открытая модель в лоб переиграет коммерческого монстра, в которого влиты бюджеты небольших стран. Однако это и не просто очередной научный эксперимент. Это мощный инфраструктурный проект и политическое заявление. Aya Vision — это фундамент, на котором сотни команд смогут построить локальные AI-решения, не оглядываясь на прихоти корпораций из Пало-Альто. Это инвестиция в будущее, где искусственный интеллект будет говорить на всех языках мира, а не только на языке своего создателя. Прорыв ли это в чистой производительности? Вероятно, нет. Прорыв ли это в демократизации и доступности технологий? Однозначно, да. И в долгосрочной перспективе второе может оказаться куда важнее.