Research
Почему мы больше не верим в SWE-bench: главный тест для AI-кодеров оказался скомпрометирован
Популярный бенчмарк для оценки AI-программистов SWE-bench оказался «загрязнен». Разбираемся, почему это ставит под сомнение рекорды GPT-4 и Claude 3.