Открытый рейтинг ASR-моделей получил треки для длинных аудио и мультиязычности

Открытый рейтинг ASR-моделей получил треки для длинных аудио и мультиязычности

Команда Hugging Face представила значительное обновление своего рейтинга систем распознавания речи — Open ASR Leaderboard. Ключевым нововведением стало добавление специализированных категорий для оценки мультиязычных моделей и работы с длинными аудиозаписями, что отражает смену фокуса индустрии с обработки коротких команд на сложную транскрипцию реальных разговоров и медиаконтента.

Расширение функционала рейтинга стало ответом на растущий запрос сообщества на более объективную оценку неанглоязычных систем. Новый мультиязычный трек позволяет сравнивать эффективность алгоритмов на широком спектре языковых групп, выявляя реальные возможности моделей в условиях, приближенных к глобальному использованию. Это ставит в равные условия как специализированные, так и универсальные модели, заставляя разработчиков уделять больше внимания качеству данных для low-resource языков.

Особое внимание в обновлении уделено проблеме транскрипции длинных форматов. Традиционные метрики часто игнорируют накопление ошибок, свойственное обработке часовых интервью или подкастов. Новый трек тестирует способность нейросетей удерживать контекст и минимизировать «галлюцинации» на больших временных отрезках, что критически важно для конкуренции с такими системами, как Whisper от OpenAI или актуальных решений от Meta.

Эти изменения в методологии оценки призваны стимулировать развитие open-source решений. Прозрачная конкуренция в новых, более сложных категориях поможет исследователям быстрее выявлять архитектурные недостатки текущих трансформеров и создавать более надежные инструменты для автоматической обработки речи, способные на равных соперничать с закрытыми коммерческими API.

Read more