Hugging Face выкатили новый Diffusers: Stable Diffusion 3, китайский конкурент Midjourney и сосиски

Hugging Face обновили Diffusers до версии 0.29. Главное: поддержка Stable Diffusion 3 Medium, модели Hunyu-DiT и серьезный рост производительности.

Hugging Face выкатили новый Diffusers: Stable Diffusion 3, китайский конкурент Midjourney и сосиски

Кажется, в опенсорс-сообществе генеративного ИИ кто-то нажал на кнопку «ускорение». Hugging Face выпустили обновление 0.29 для своей ключевой библиотеки Diffusers, и это не просто косметический патч с исправлением багов. Это полноценный завоз тяжелой артиллерии, который ставит в неудобное положение многих игроков с закрытыми моделями. Главная звезда релиза — долгожданная поддержка Stable Diffusion 3 Medium, новейшей модели от Stability AI с 2 миллиардами параметров. Теперь любой разработчик или энтузиаст может запустить ее у себя, не дожидаясь милости от создателей в виде платного API и не стоя в очередях на официальных серверах.

Вся соль SD3 Medium не только в размере, но и в архитектуре. Stability AI наконец-то серьезно взялись за давнюю боль всех диффузионных моделей — понимание текста. Вместо одного текстового энкодера здесь работают сразу три, включая массивный T5-XXL. На практике это означает, что модель гораздо реже «забывает» части промта и лучше справляется со сложными сценами, где важны взаимоотношения объектов и их атрибуты. А еще она умеет внятно рисовать текст, что до сих пор оставалось ахиллесовой пятой для большинства генераторов. Это прямой вызов DALL-E 3 и Midjourney, которые долгое время кичились именно своей способностью следовать инструкциям.

Но Hugging Face не были бы собой, если бы ограничились одной громкой премьерой. В этом же обновлении появилась поддержка Hunyu-DiT — крайне любопытной модели от китайского гиганта Tencent. Это их ответ и Midjourney, и Stable Diffusion одновременно. Модель обучалась на огромном датасете с упором на азиатскую эстетику, но прекрасно справляется и с западными концептами. Появление такого тяжеловеса в открытой библиотеке — знаковое событие. Это сигнал, что гонка ИИ-вооружений больше не является прерогативой Кремниевой долины. Конкуренция становится по-настоящему глобальной, и выигрывает от этого конечный пользователь.

Для тех, кто ценит не только мощь, но и эффективность, в Diffusers добавили Wuerstchen v2. За забавным названием («сосисочка» в переводе с немецкого) скрывается хитрая архитектура, которая позволяет получать качественные изображения при значительно меньших затратах вычислительных ресурсов. Она работает по принципу сильной компрессии данных, что делает ее идеальным кандидатом для быстрого прототипирования или работы на не самом топовом железе. Это доказывает, что опенсорс-сообщество решает не только задачу «сделать мощнее», но и «сделать доступнее».

Помимо новых моделей, инженеры Hugging Face серьезно поработали над производительностью. Например, функция кодирования промта `encode_prompt()` теперь работает до 6 раз быстрее. Для тех, кто генерирует сотни изображений, это колоссальная экономия времени. Также расширена поддержка ControlNet для турбо-моделей вроде SDXL Turbo, что дает еще больше контроля над генерацией в реальном времени. Все это превращает Diffusers из простого набора инструментов в полноценную операционную систему для генеративного искусства, где разные модели — это взаимозаменяемые модули.

Наш вердикт: это не революция, а планомерный и оттого еще более впечатляющий захват позиций. Пока корпорации строят красивые, но наглухо закрытые «сады», Hugging Face строит универсальный хаб, открытый для всех. Они не создают модели, но создают нечто более важное — инфраструктуру, которая позволяет этим моделям жить, развиваться и конкурировать. Обновление 0.29 — это демонстрация силы открытого подхода. Он может быть не таким глянцевым, как у Midjourney, но он быстрее, гибче и, в конечном счете, стимулирует всю индустрию двигаться вперед. А возможность запустить у себя на ноутбуке модель, которая еще вчера была лишь строчкой в пресс-релизе, — это и есть настоящая демократизация технологий.

Read more