Экспонента хайпа: почему главный график прогресса AI все понимают неправильно

График METR об экспоненциальном росте AI стал иконой и поводом для паники. Но он измеряет не то, о чем все думают. Разбираем главную иллюзию индустрии.

Экспонента хайпа: почему главный график прогресса AI все понимают неправильно

В нашей индустрии, помешанной на метриках и бенчмарках, есть один график, который стал чем-то вроде священного писания. Каждый раз, когда OpenAI, Google или Anthropic выкатывают очередную «прорывную» модель, все, затаив дыхание, бегут не на Hugging Face, а на сайт некоммерческой организации METR. Там, в тишине серверов, обновляется та самая экспонента — кривая, которая для одних стала предвестником сингулярности, а для других — идеальным слайдом для питч-дека. Этот график, показывающий якобы взрывной рост способностей ИИ, стал главным героем и одновременно главной жертвой хайп-машины.

Атмосфера вокруг него накаляется до предела. Когда в декабре METR обновили данные по Claude Opus 4.5, заявив, что модель якобы способна самостоятельно выполнить задачу, на которую у человека ушло бы пять часов, твиттер взорвался. Один исследователь безопасности из Anthropic тут же поклялся сменить направление своей работы. Другой сотрудник просто написал: «мама, забери меня, мне страшно». Венчурные капиталисты из Sequoia Capital, вооружившись этим же графиком, выпустили пост с пророческим заголовком «2026: Это AGI». И вот уже инвесторы планируют свою жизнь в масштабах столетий, а инженеры готовятся к безработице. Картина маслом: цифровая икона, которой молятся и которую боятся.

Но дьявол, как всегда, кроется в сносках, которые никто не читает. Правда в том, что этот график — возможно, самое большое заблуждение в современном AI-дискурсе. Во-первых, сами исследователи из METR честно признают: погрешность измерений колоссальна. Те самые «пять часов» для Claude Opus на самом деле могут быть и двумя, и двадцатью. Во-вторых, и это куда важнее, ось Y на графике — это не то, чем кажется. Она измеряет не время, которое модель может работать автономно, и не какой-то абстрактный «уровень интеллекта». Это метрика под названием «временной горизонт», которую придумали сами METR.

Говоря по-человечески, исследователи собрали кучу задач, в основном связанных с программированием, и замерили, сколько времени на их решение тратят живые кодеры. Затем они прогнали по этим задачам нейросети. «Временной горизонт» модели — это та точка на шкале человеческого времени, где модель успешно справляется примерно с 50% задач. То есть, если модель имеет горизонт в 40 минут, это значит, что она может с горем пополам решить половину задач, которые средний программист делает за 40 минут. Это не значит, что она способна 40 минут подряд писать код или заменить сотрудника на час. Это просто хитрый способ измерить сложность решаемых проблем, привязав ее к человеческому фактору. Сами создатели графика настолько устали от неверных трактовок, что умоляют вставлять слово «человеческий» каждый раз, когда речь заходит о времени выполнения задач.

И здесь мы подходим к фундаментальной проблеме. График METR стал жертвой собственного успеха. Он дал индустрии простой и красивый нарратив: «каждые семь месяцев способности ИИ удваиваются». Это легко продать инвестору и легко вставить в апокалиптический рассказ в духе «AI 2027», который, к слову, активно ссылался на этот график, предрекая конец человечества к 2030 году. Но этот нарратив построен на крайне узком фундаменте. Почти все тесты — это задачи по написанию кода. Как справедливо замечает профессор Дэниел Канг, модель может стать богом кодинга, но это не сделает ее волшебным образом экспертом в чем-то еще. Более того, даже в рамках тестов модели показывают себя заметно хуже на «грязных» задачах — тех, где условия неидеальны, а правила игры могут меняться. То есть, в условиях, максимально приближенных к реальной работе.

Несмотря на всю критику, работа METR заслуживает уважения. В хаотичном мире, где каждая компания придумывает свои бенчмарки, чтобы выглядеть лучше конкурентов, это одна из самых честных и прозрачных попыток создать универсальную линейку. Даже вечный скептик Гэри Маркус признал исследование «потрясающим». Проблема не в самом инструменте, а в том, как его используют. График METR превратился в тест Роршаха для всей AI-тусовки: оптимисты видят в нем скорое наступление эры изобилия, пессимисты — предвестие Судного дня. И те, и другие вырывают его из контекста, игнорируя все оговорки и ограничения.

Наш вердикт: этот график — не пророчество и не приговор. Это всего лишь один из первых, довольно несовершенных инструментов в новой, быстро меняющейся области. Он отлично показывает одну вещь: прогресс в решении узкоспециализированных задач, особенно в кодинге, действительно идет по экспоненте. Но экстраполировать это на «общий интеллект» или замену человека — занятие столь же научное, как гадание на кофейной гуще. Как метко выразилась одна из создателей графика Сидней Фон Аркс: «Не стоит строить свою жизнь на этом графике. Но я почти уверена, что тренд сохранится». И в этом вся суть: тренд есть, но что он на самом деле означает, пока не понимает никто. А хайп-машина, как мы знаем, не терпит вакуума и с радостью заполнит его любыми, даже самыми дикими интерпретациями.

Read more

«ИИ, предъявите документы!»: в Индии предложили выдавать нейросетям цифровые паспорта

«ИИ, предъявите документы!»: в Индии предложили выдавать нейросетям цифровые паспорта

Полиция индийского города Хайдарабад предложила выдавать цифровые ID для нейросетей. Анализируем, реальна ли эта инициатива и станет ли она будущим регулирования AI.

By Редакция AI News