Оценка силами сообщества: почему мы больше не верим «черным ящикам» и корпоративным лидербордам
Устали от лидербордов? Инициатива Community Evals предлагает оценивать AI-модели силами сообщества, а не корпораций. Разбираемся, убьет ли это хайп.
Кажется, медовый месяц с синтетическими тестами и лидербордами, где новые модели свергают старых королей каждые две недели, подходит к концу. На сцену выходит Community Evals — инициатива, которая звучит как давно назревший бунт: дать сообществу решать, кто на что годен. Идея подкреплена не только энтузиазмом, но и фондом в $10 миллионов на создание и поощрение лучших пользовательских тестов. Это не просто очередной рейтинг, это попытка отобрать у корпораций монополию на правду и вернуть ее тем, кто с этими моделями работает каждый день — разработчикам, исследователям и прожженным энтузиастам.
Принцип работы до безобразия прост и потому гениален. Вместо того чтобы гонять модели по одним и тем же академическим задачам вроде MMLU (которые модели уже научились щелкать как орешки, порой даже не понимая сути), Community Evals предлагает открытую площадку. Любой желающий может создать свой «эвал» (evaluation) — уникальный набор заданий, проверяющий специфический навык. Например, способность модели написать работающий SQL-запрос для запутанной базы данных, сочинить убедительный отказ в стиле HR-менеджера или проанализировать тональность саркастичных отзывов на фильм. За самые полезные и креативные «эвалы» авторы будут получать гранты из того самого десятимиллионного фонда.
Вся эта история — прямой ответ на растущую усталость индустрии от «войны бенчмарков». Мы все видели эти графики, где очередная модель от Google или Anthropic «превосходит GPT-4» на 0.7% в каком-нибудь тесте, о котором никто не слышал до дня анонса. Это давно превратилось в маркетинговый инструмент. Корпорации оптимизируют свои модели не для реальной жизни, а для того, чтобы занять первую строчку в таблице. Это явление, известное как «обучение под тест» (teaching to the test), обесценивает сами тесты и вводит в заблуждение рынок. В результате модель может блестяще решать математические задачки из бенчмарка, но оказаться беспомощной, когда вы просите ее спланировать отпуск с тремя пересадками и учетом аллергии на глютен у вашего кота.
Community Evals пытается сломать этот порочный круг, создав децентрализованную и постоянно обновляемую систему оценки. Вместо одного-двух общепринятых «экзаменов» появляется тысячи маленьких, нишевых проверок, имитирующих хаос реального мира. Такой подход не дает единого ответа на вопрос «какая модель лучше?». Вместо этого он рисует подробную карту способностей: эта модель — гений в написании кода на Rust, та — непревзойденный копирайтер для B2B-сегмента, а третья лучше всех понимает юридические документы. Власть смещается от владельцев лидербордов к пользователям, которые теперь могут выбирать инструмент не по рекламному буклету, а по его реальной эффективности в нужной им области.
Конечно, без ложки дегтя не обойтись. Новая система тоже не застрахована от манипуляций. Что помешает условной корпорации «Икс» нанять армию фрилансеров для создания сотен «эвалов», идеально подходящих под сильные стороны их новой модели? Как обеспечить качество и объективность пользовательских тестов? Эти вопросы пока остаются открытыми, и успех платформы будет зависеть от того, насколько надежные механизмы модерации и ревью сможет выстроить сообщество. Это будет битва не только технологий, но и социальных механик, направленных против человеческой хитрости и корпоративного лоббизма.
Наш вердикт: Это не панацея, но чертовски своевременная и нужная инъекция здравого смысла в перегретую хайпом индустрию. Community Evals — это признание того, что интеллект (даже искусственный) слишком сложен, чтобы измерять его одной цифрой. Вместо гонки за звание «короля горы» нам предлагают создать подробный атлас ландшафта AI, где у каждой модели есть свои пики и долины. Это шаг от примитивного маркетинга к зрелой инженерной культуре. И даже если инициатива столкнется с трудностями, она уже выполнила важную миссию — громко заявила, что король голый, а его трон давно пора сдать в музей.