AI-Вавилон: как модель Aya на 101 языке готовит тихий бунт против OpenAI

Cohere for AI выпустила Aya, открытую 13B-модель для 101 языка. Разбираем, сможет ли этот проект побороть языковой монополизм OpenAI и Google.

AI-Вавилон: как модель Aya на 101 языке готовит тихий бунт против OpenAI

Пока гиганты вроде OpenAI и Google меряются триллионами параметров в своих флагманских моделях, на сцену тихо вышел игрок с совершенно другой философией. Cohere for AI, некоммерческое крыло компании Cohere, представило Aya — языковую модель, которая ставит во главу угла не размер, а охват. Модель на «скромные» 13 миллиардов параметров обучена на массиве данных, охватывающем 101 язык, многие из которых относятся к категории «низкоресурсных». Это не просто очередной релиз, а заявка на смену парадигмы в мире, где искусственный интеллект до сих пор говорит с заметным калифорнийским акцентом. Проект, в котором приняли участие более 3000 независимых исследователей из 119 стран, — это своего рода «тихий бунт» против языкового монополизма.

Под капотом у Aya — не только сама модель, но и колоссальный труд по сбору данных, вылившийся в «Aya Collection». Этот датасет содержит 513 миллионов примеров запросов и ответов, специально созданных и аннотированных носителями редких языков. Вместо того чтобы бездумно парсить англоязычный интернет, команда пошла по сложному пути: создала платформу для краудсорсинга, где эксперты со всего мира могли внести свой вклад. Сама модель Aya распространяется под открытой лицензией Apache 2.0, что означает одно — берите и пользуйтесь. Никаких платных API, списков ожидания и корпоративной бюрократии. Среди партнеров проекта внезапно оказался и Google, который, казалось бы, сам является главным адептом многоязычных моделей. Этот шаг выглядит как хитрая диверсификация: поддержать открытую альтернативу, чтобы ослабить хватку закрытой экосистемы OpenAI.

Этот релиз происходит на фоне глобальной гонки вооружений в сфере ИИ, где многоязычность становится ключевым полем битвы. OpenAI с каждой итерацией GPT улучшает поддержку разных языков, но ее архитектура и данные для обучения исторически заточены под английский. В результате на других языках модель часто теряет в нюансах, культурном контексте и даже здравом смысле. Google с его Gemini и давней экспертизой в Google Translate выглядит здесь гораздо увереннее, позиционируя свои модели как «изначально мультимодальные и многоязычные». Meta тоже не отстает со своим проектом NLLB (No Language Left Behind). Но все они — гигантские корпорации с закрытым кодом и коммерческими интересами. Aya же предлагает иной путь: децентрализованный, открытый и академический. Это скорее Linux в мире, где правят Windows (OpenAI) и macOS (Google).

Именно эта открытость и фокус на языках, которые обычно остаются за бортом технологического прогресса, делают проект Aya по-настоящему важным. Для разработчика из Уганды, Индонезии или Казахстана возможность взять готовую, качественную модель, понимающую местные языки (луганда, сунданский, казахский), и дообучить ее для своих задач — это революция. Это снижает порог входа и позволяет создавать локальные AI-продукты, не дожидаясь милости от корпораций из Кремниевой долины. Мы уже видели, как открытые модели вроде Llama от Meta породили целую экосистему стартапов. Aya способна сделать то же самое, но в глобальном, по-настоящему многоязычном масштабе, дав голос тем, кого раньше просто не было на AI-карте мира.

Наш вердикт: это не прорыв в производительности, но прорыв в подходе. Не стоит ждать, что 13-миллиардная Aya будет писать код или философские трактаты на уровне GPT-4. Ее сила не в размере, а в широте и доступности. Это не сверкающий небоскреб в центре мегаполиса, а фундамент и инфраструктура для тысяч зданий по всему миру. Cohere for AI и их партнеры не просто выпустили еще одну модель — они создали общественное достояние, бесценный набор данных и инструментов, который будет питать исследования и разработку в области многоязычного ИИ еще долгие годы. Это тот редкий случай, когда за громким анонсом стоит не столько маркетинг, сколько реальное желание сделать технологию более справедливой и инклюзивной. И хотя до настоящей AI-утопии, где машины понимают всех и каждого, еще далеко, Aya — это самый уверенный шаг в этом направлении за последнее время.

Read more