Почему мы больше не верим в SWE-bench: главный тест для AI-кодеров оказался скомпрометирован

Популярный бенчмарк для оценки AI-программистов SWE-bench оказался «загрязнен». Разбираемся, почему это ставит под сомнение рекорды GPT-4 и Claude 3.

Почему мы больше не верим в SWE-bench: главный тест для AI-кодеров оказался скомпрометирован

Похоже, линейка, которой мы измеряли интеллект лучших AI-кодеров от OpenAI до Google, оказалась не просто гибкой, а откровенно резиновой. SWE-bench, де-факто «золотой стандарт» для оценки способности моделей писать и исправлять код, был публично признан его же создателями скомпрометированным. Говоря проще, все те красивые графики и победные пресс-релизы, где очередная «-ProMax» версия нейросети решала немыслимые 25% задач из реального мира, теперь можно смело ставить под сомнение. Это не просто технический сбой, это удар под дых всей индустрии, одержимой погоней за цифрами на лидербордах.

Для тех, кто не следит за гладиаторскими боями в мире бенчмарков, краткий экскурс. SWE-bench (Software Engineering Benchmark) — это не синтетический тест в вакууме. Это суровая проверка на прочность: модели давали реальные, нерешенные проблемы (issues) с GitHub, и она должна была написать код, который исправляет баг. Звучит как идеальный экзамен на профпригодность для AI-программиста. Именно на этом поле боя Claude 3 Opus, GPT-4 и другие титаны мерялись силами, и каждый новый процент успеха подавался как прорыв, приближающий нас к AGI. Но, как это часто бывает, дьявол оказался в данных.

Проблемы две, и обе фатальны для чистоты эксперимента. Первая и главная — «загрязнение данных» или, по-простому, утечка. Огромные датасеты, на которых обучались модели, незаметно для всех содержали в себе решения задач из самого бенчмарка. Модель не «думала», а просто вспоминала наиболее подходящий паттерн из своей бездонной памяти. Это не решение задачи, а списывание на экзамене, причем неумышленное. Вторая проблема — дефектные тесты. Некоторые задачи в SWE-bench были сформулированы так, что имели несколько правильных решений, но засчитывалось только одно. Или же тесты были просто сломаны. В итоге модель могла предложить элегантный и рабочий фикс, но бенчмарк засчитывал ей провал.

Вся эта история вскрывает главную болезнь современного AI-хайпа: слепую веру в метрики. Корпорации, вливающие миллиарды в разработку, отчаянно нуждаются в простом и понятном способе доказать инвесторам и рынку свое превосходство. Бенчмарк — идеальный инструмент. Он дает одну цифру, которую легко вставить в презентацию. GPT-4 решает 13% задач, а наш новый Claude 3 — уже 15%! Звучит убедительно. Но когда сам измерительный прибор врет, вся эта гонка превращается в театр абсурда, где актеры соревнуются в том, кто громче крикнет со сцены выдуманные цифры.

Конечно, создатели SWE-bench не сидели сложа руки. Осознав масштаб катастрофы, они выкатили новую, улучшенную версию — SWE-bench Pro. Она якобы «очищена» от всех известных утечек, тесты в ней перепроверены, а задачи стали сложнее. Это, безусловно, правильный шаг. Это попытка вернуть доверие и создать более надежный инструмент. Но осадок, как говорится, остался. Сколько еще таких «загрязненных» бенчмарков лежит в основе громких заявлений? И не повторится ли история с Pro-версией через год, когда модели станут еще больше и «впитают» в себя еще больше данных из открытого веба?

Наш вердикт: это не злой умысел, а закономерный кризис роста. В гонке за созданием всемогущего AI мы так спешили, что забыли проверить линейку, которой измеряем прогресс. Дискредитация SWE-bench — это полезный холодный душ для всей индустрии. SWE-bench Pro — это необходимая «заплатка», попытка сделать замеры снова честными. Но это не революция, а работа над ошибками. Главный урок: любой цифре с лидерборда стоит доверять с изрядной долей скепсиса. Настоящий интеллект — и человеческий, и машинный — не измеряется одним баллом на экзамене, даже если этот экзамен придумали очень умные люди. Гонка продолжается, просто теперь мы будем чуть внимательнее смотреть, не жульничают ли бегуны.

Read more