Aya 2: как тихий альянс ученых создал 101-миллиардного языкового гиганта, чтобы потеснить Google и OpenAI

Cohere for AI выпустила Aya 2, открытую LLM на 101 млрд параметров. Модель поддерживает 119 языков и призвана побороть доминирование английского в AI.

Aya 2: как тихий альянс ученых создал 101-миллиардного языкового гиганта, чтобы потеснить Google и OpenAI

Пока гиганты вроде Google и OpenAI увлеченно меряются размерами контекстных окон и скоростью генерации, в тишине академических лабораторий и опенсорс-сообществ произошла тихая революция. Некоммерческое подразделение Cohere for AI вместе с глобальной командой из 3000 исследователей выкатило в свет Aya 2 — настоящего лингвистического монстра на 101 миллиард параметров, который не просто «знает» 119 языков, а был специально спроектирован для них. И это меняет правила игры куда сильнее, чем очередной маркетинговый анонс про «самую быструю модель в мире».

Давайте к сухим фактам. Aya 2 — это семейство моделей, флагманом которого является 101B-версия, основанная на мощной архитектуре Command R от Cohere. Но дьявол, как всегда, в деталях. В отличие от большинства конкурентов, которые сначала учат модель на гигантском массиве английских текстов, а потом «доучивают» на других языках, Aya изначально строилась на многоязычном фундаменте. Ее тренировали на наборе данных Aya Collection, который создавался с прицелом на лингвистическое разнообразие и культурные нюансы. Все это упаковано в лицензию Apache 2.0 — бери, допиливай, используй в коммерческих продуктах, никто слова не скажет. Это не «открытость» с кучей оговорок, а настоящий, честный open source.

Этот релиз — прямой ответ на скрытый перекос, существующий в индустрии. Когда мы слышим, что очередная модель стала мультимодальной и понимает «десятки языков», чаще всего это лукавство. В реальности, это англоцентричная архитектура, которая неплохо справляется с переводом, но мыслит и рассуждает на языке Шекспира. Из-за этого страдает качество генерации на менее распространенных языках, появляются культурные артефакты и искажения. Прорыв Gemini 1.5 Pro от Google с его миллионным контекстным окном впечатляет, но он все еще решает задачу в рамках старой парадигмы. Aya же пытается сломать саму парадигму, создавая инструмент, для которого условный венгерский или суахили — не второсортные диалекты, а родные языки.

Эта идеология продолжает славные традиции опенсорс-движения, заложенные Llama 2 от Meta и блистательно развитые такими проектами, как Mixtral 8x7B. Но если Llama и Mixtral совершили революцию в доступности мощных LLM как таковых, то Aya нацелилась на следующую стену — языковой барьер. Это открывает двери для тысяч стартапов и исследовательских групп по всему миру, которые до этого были вынуждены либо платить огромные деньги за API, либо довольствоваться моделями, которые с трудом спрягают глаголы на их родном языке. Теперь у них есть фундамент, сопоставимый по мощи с закрытыми системами.

Конечно, наивно полагать, что Aya 2 немедленно превзойдет GPT-4 Turbo в генерации кода или написании маркетинговых текстов на английском. Битва за звание «короля горы» в общем зачете продолжается, и OpenAI пока крепко держит корону. Но цель Aya и не в этом. Ее задача — дать миру мощный, открытый и по-настояшему многоязычный инструмент. Это не спринт за лучшим результатом в бенчмарке, а марафон по строительству инфраструктуры для глобального AI-сообщества. И пока корпорации соревнуются, кто построит самый высокий небоскреб в центре мегаполиса, Aya методично прокладывает рельсы в те регионы, где до этого были лишь проселочные дороги.

Наш вердикт: Aya 2 — это не просто очередной релиз, а важнейшее идеологическое заявление. Это декларация того, что будущее AI не должно быть монополизировано несколькими корпорациями из Кремниевой долины и говорить исключительно с американским акцентом. Да, в прямом столкновении на английских бенчмарках она может уступить закрытым флагманам. Но ее ценность не в этом. Ценность Aya — в демократизации доступа к передовым технологиям для 95% населения планеты, не говорящего по-английски. Это не столько продукт, сколько фундамент. И в долгосрочной перспективе такие фундаменты оказываются куда важнее, чем очередная модель, которая на 2% лучше пишет стихи про котов.

Read more