OpenAI представила GPT-4o: флагманская модель с поддержкой аудио и видео в реальном времени

OpenAI представила GPT-4o: флагманская модель с поддержкой аудио и видео в реальном времени

Компания OpenAI официально анонсировала запуск GPT-4o («Omni») — своей новой флагманской модели искусственного интеллекта. Ключевой особенностью разработки стала полноценная мультимодальность: алгоритм способен воспринимать, анализировать и генерировать информацию, объединяя аудио, визуальные образы и текст в режиме реального времени. Это знаменует собой качественный скачок в развитии нейросетей, предоставляя пользователям беспрецедентную скорость и гибкость взаимодействия.

В отличие от предыдущих итераций, где разные задачи выполнялись отдельными специализированными модулями, GPT-4o представляет собой единую нейросеть, обученную сразу на всех типах данных. Такой подход позволяет модели «рассуждать» (reason) и переключаться между форматами без задержек. Теперь искусственный интеллект может не только читать текст, но и слушать интонации голоса, а также анализировать происходящее через камеру устройства, мгновенно реагируя на изменения контекста.

Представители OpenAI подчеркивают, что новая архитектура делает общение с машиной максимально естественным. Устранение задержек при обработке аудио и видео приближает скорость реакции ИИ к человеческой, что открывает новые возможности для использования голосовых ассистентов и инструментов визуального анализа в повседневной жизни и бизнесе.

Read more