Назад в будущее: как AI-агентов учат предсказывать события

Новый бенчмарк заставляет ведущие AI-модели предсказывать реальные события. Кто оказался точнее — GPT-4 или Claude 3, и почему это не панацея?

Назад в будущее: как AI-агентов учат предсказывать события

Кажется, мы дожили. После того как нейросети научились рисовать, писать код и вести задушевные беседы, им решили поручить самое неблагодарное дело на свете — предсказывать будущее. Группа исследователей, явно пересмотревшая в детстве «Назад в будущее», выкатила новый бенчмарк для оценки прогностических способностей AI-агентов. Идея проста, как трехколесный велосипед, и гениальна, как DeLorean на плутонии: заставить модели предсказывать события, которые для нас уже история, а для них — терра инкогнита. Результаты получились настолько же интригующими, насколько и предсказуемыми для любого, кто хоть раз пытался угадать курс биткоина.

Методология теста элегантна. Берется большая языковая модель — будь то GPT-4, Claude 3 Opus или Gemini 1.5 Pro — и ей скармливается огромный массив данных, но строго до определенной даты. Например, до 1 января 2020 года. А затем агента просят сделать прогнозы на ближайшие год-два-три. Вопросы задают не в стиле «будет ли мир во всем мире?», а вполне конкретные: «Какова вероятность, что компания X выпустит продукт Y в следующем квартале?», «Опишите три наиболее вероятных сценария развития рынка Z с указанием их вероятности», «Будет ли одобрена FDA новая терапия на основе CRISPR в течение 24 месяцев?». После этого «предсказания» сравниваются с реальной хронологией событий, и выставляются оценки за точность, аргументацию и понимание контекста.

Это уже не просто генерация текста, это следующий уровень — синтез и экстраполяция. AI-агент должен не просто найти информацию в своей базе знаний, но и проанализировать тысячи разнородных сигналов: финансовые отчеты, научные публикации, новостные ленты, рыночные слухи. Затем он должен выстроить из этого хаоса причинно-следственные связи и выдать взвешенный, вероятностный прогноз. Внезапно, но лучшими «оракулами» оказались не те, кто лучше всех пишет стихи. В тестах на долгосрочные и качественные прогнозы, где требовалось понять сложные взаимосвязи, неожиданно вырвался вперед Claude 3 Opus от Anthropic. GPT-4 от OpenAI, в свою очередь, показал себя мастером краткосрочных, количественных предсказаний — там, где нужно было просто точно экстраполировать цифры.

Конечно, все это — часть большой игры. Битва за звание лучшего «предсказателя» — это не академическая забава, а новый фронт в войне техногигантов. OpenAI, Google, Anthropic — все они понимают, что будущее не за чат-ботами, а за полноценными AI-агентами, способными к проактивным действиям и стратегическому планированию. Представьте себе AI-помощника, который не просто бронирует вам столик, а анализирует рынок и советует, в какие стартапы вложиться. Или AI-аналитика в фармацевтической компании, который прогнозирует провал клинических испытаний за год до их начала, экономя миллиарды. Ставки невероятно высоки, и этот бенчмарк — лишь первая публичная демонстрация мускулов на новом поле боя.

И вот тут стоит сделать шаг назад и включить здоровый скепсис, который спасал нас и во время пузыря доткомов, и в крипто-лихорадке. Да, результаты впечатляют. Способность моделей выявлять скрытые тренды в огромных массивах данных — это мощнейший инструмент. Но называть это «предсказанием будущего» — опасное преувеличение. Все эти модели, по сути, являются сверхсложными экстраполяторами. Они гениально продолжают уже существующие траектории. Но они абсолютно, катастрофически слепы к «черным лебедям» — тем самым непредсказуемым событиям, которые и меняют мир.

Наш вердикт: это не хрустальный шар, а самый навороченный в мире барометр. Он отлично предсказывает погоду на завтра, если она является логичным продолжением погоды сегодня. Но он никогда не предскажет падение метеорита. Любая модель, обученная на данных до 2020 года, с треском провалила бы прогноз о глобальной пандемии COVID-19, которая перевернула все рынки и цепочки поставок. Поэтому нынешние AI-предсказатели — это мощнейший инструмент для усиления человеческой экспертизы, но не для ее замены. Они помогут аналитику увидеть то, что он мог пропустить в потоке данных. Но решение и, главное, ответственность за него, пока что остаются за человеком. И, судя по всему, останутся еще надолго.

Read more