Nous Research бросает вызов гигантам: открытая модель NousCoder-14B вышла на пике хайпа вокруг Claude Code

Nous Research бросает вызов гигантам: открытая модель NousCoder-14B вышла на пике хайпа вокруг Claude Code

Стартап Nous Research, поддерживаемый известным криптофондом Paradigm, выпустил новую модель для спортивного программирования, которая, по заявлению разработчиков, не уступает гораздо более крупным проприетарным системам. Модель под названием NousCoder-14B была обучена всего за четыре дня с использованием 48 новейших графических процессоров Nvidia B200. Этот релиз состоялся в момент, когда внимание индустрии приковано к выходу Claude Code от Anthropic, что лишь подчеркивает обострившуюся конкуренцию за создание фундаментальных инструментов для написания кода.

Новинка демонстрирует точность 67,87% в тесте LiveCodeBench v6, оценивающем решение задач, опубликованных в период с августа 2024 по май 2025 года. Этот результат более чем на 7 процентных пунктов превосходит показатели базовой модели Qwen3-14B от Alibaba, на которой основана разработка. В то время как Claude Code захватывает социальные сети демонстрациями полного цикла разработки ПО, Nous Research делает ставку на радикальную прозрачность: компания опубликовала не только веса модели, но и полную среду обучения с подкреплением и инструменты бенчмаркинга на базе фреймворка Atropos, позволяя любому исследователю воспроизвести результаты.

Ведущий исследователь проекта Джо Ли сравнил прогресс модели с собственным опытом на платформе Codeforces. Путь от рейтинга 1600 до уровня 2200, который занял у него два года упорной практики в подростковом возрасте, ИИ преодолел за 96 часов. Однако Ли отметил важное различие в эффективности обучения: человеку для такого роста потребовалось решить около 1 000 задач, тогда как модели понадобилось 24 000 примеров, что подтверждает тезис о том, что люди пока остаются значительно более эффективными учениками с точки зрения объема необходимых данных.

Процесс обучения NousCoder-14B опирался на систему «проверяемых наград» (verifiable rewards) и облачную платформу Modal для параллельного выполнения кода. Ключевой инновацией стало использование метода динамической оптимизации выборки (DAPO) и итеративного расширения контекстного окна — сначала до 40 000 токенов при обучении, а затем до 80 000 при оценке. Такая архитектура позволяла модели начинать работу над следующей задачей еще до завершения проверки предыдущего решения, максимально загружая дорогостоящие кластеры GPU.

Тем не менее, в техническом отчете содержится тревожный сигнал для будущего ИИ-разработки: использованный датасет охватил практически все доступные качественные задачи по спортивному программированию в интернете. Исследователи признают, что индустрия приближается к пределу естественных данных в этой нише. В Nous Research полагают, что следующим большим шагом станет переход к генерации синтетических задач и методам самообучения (self-play), когда модели смогут не только решать, но и создавать учебные материалы, окончательно отрываясь от человеческих бенчмарков.

Read more