Запустить BLOOM на одной видеокарте: Microsoft и Hugging Face делают гигантские ИИ доступнее

Разбор технологии от Microsoft и Hugging Face, которая ускоряет инференс BLOOM в разы и делает большие языковые модели доступными для всех.

Запустить BLOOM на одной видеокарте: Microsoft и Hugging Face делают гигантские ИИ доступнее

Пока OpenAI полирует свои API и ценники, а Google пытается догнать хайп-трейн, в опенсорс-лагере случился тихий, но крайне важный тектонический сдвиг. Команды Microsoft и Hugging Face объединили свои флагманские библиотеки DeepSpeed и Accelerate, чтобы совершить маленькое инженерное чудо: запустить 176-миллиардную языковую модель BLOOM на одной-единственной GPU. Да, вы не ослышались. Монстр, для которого раньше требовался серверный шкаф, теперь может уютно разместиться на одном флагманском ускорителе. Скорость инференса при этом, как утверждается, вырастает в разы по сравнению с наивными реализациями.

Давайте к цифрам, они здесь важнее красивых слов. Речь идет о запуске модели BLOOM-176B на одной видеокарте NVIDIA A100 с 80 ГБ памяти. Это стало возможным благодаря агрессивной оптимизации в DeepSpeed Inference. Технология использует целый ворох трюков: от квантизации весов (когда модель «худеет» за счет использования менее точных, но более компактных типов данных вроде INT8) до продвинутых техник слияния операций (kernel fusion) и умного управления памятью. В итоге задержка (latency) при генерации текста сокращается до неприличия, а стоимость одного сгенерированного токена падает в разы. Для бизнеса это означает одно: порог входа в клуб «у меня есть свой большой и страшный ИИ» резко снизился с миллионов долларов на облачную инфраструктуру до стоимости одной топовой железки.

Этот анонс — не просто техническая заметка для гиков. Это важный эпизод в холодной войне за будущее искусственного интеллекта. С одной стороны — огороженные сады OpenAI и Google, которые предлагают свои модели по подписке через API. Это удобно, безопасно, но дорого и напрочь лишено гибкости. Вы играете по их правилам. С другой стороны — открытый мир, где Hugging Face выступает в роли «GitHub для ИИ», а модели вроде BLOOM или LLaMA становятся достоянием общественности. Проблема опенсорса всегда была в «цене эксплуатации». Одно дело скачать веса модели, и совсем другое — заставить ее работать быстро и эффективно. И вот этот барьер Microsoft и Hugging Face как раз и ломают.

Забавно наблюдать за двойной игрой Microsoft. Корпорация влила миллиарды в OpenAI, по сути, став их главным инвестором и партнером. Одновременно с этим ее команда DeepSpeed вооружает опенсорс-сообщество инструментами, которые создают прямую конкуренцию платному API от OpenAI. Это классическая стратегия «не клади все яйца в одну корзину». Microsoft хочет быть не просто игроком, а самим полем, на котором играют все остальные. Неважно, кто победит в гонке моделей — закрытые или открытые — все они будут работать на железе Azure и с использованием инструментов от Microsoft. Красиво.

Важно помнить, что такое BLOOM. Это не просто еще одна модель. Это результат работы консорциума BigScience — сотен исследователей со всего мира, которые целенаправленно создавали открытую и прозрачную альтернативу GPT-3. Ее обучение было само по себе научным проектом. И теперь, когда эта «народная» модель становится по-настоящему доступной для запуска, ее потенциал для исследований, стартапов и независимых разработчиков возрастает многократно. Можно дообучать ее на своих данных, не отправляя ничего в чужое облако, можно экспериментировать с архитектурой, не боясь получить счет на шестизначную сумму.

Наш вердикт: это не революция в возможностях ИИ, но однозначно революция в его доступности. Новые рекорды в бенчмарках не поставлены, и модель не стала внезапно умнее. Но инженерная работа, проделанная Microsoft и Hugging Face, — это та самая «скучная» инфраструктурная магия, которая и двигает индустрию вперед. Она переводит гигантские языковые модели из разряда экзотического оружия корпораций в категорию рабочего инструмента для широкого круга специалистов. Хайп вокруг новых моделей приходит и уходит, а эффективный и дешевый инференс — это то, что останется и будет кормить тысячи компаний в ближайшие годы. И это, пожалуй, поважнее очередной громкой презентации.

Read more