Обзор нейросети GPT-4o

13 мая компания OpenAI представила новую версию мультимодальной большой языковой модели GPT-4o. В этой статье расскажем обо всех преимуществах новой нейросети.

Презентацию провела Мира Мурати – технический директор OpenAI. На повестке дня 3 вопроса:

бесплатное распространение сервиса;
настольная версия приложения и обновление веб интерфейса;
новая флагманская модель GPT-4o.

Содержание

Что нового в GPT-4o?
Бесплатные возможности GPT-4o
Возможности для платных пользователей
GPT-4o на практике (звук и зрение)

Что нового в GPT-4o?

Миссия компании – сделать инструменты ИИ доступными для всех. Теперь это возможно без регистрации. Представлена настольная версия ChatGPT. Пользователи Mac с подпиской Plus уже получают ранний доступ, а вскоре появится более широкий доступ. Версия для Windows запланирована на конец этого года.

Обновлен интерфейс веб-версии. Упор сделан на простоту и естественность. Цель – свести к минимуму неудобства интерфейса и позволить пользователям сосредоточиться на взаимодействии с ChatGPT.

Бесплатные возможности GPT-4o

Новая модель GPT-4o, обеспечивает интеллект GPT-4, но работает быстрее и лучше в области текста, зрения и аудио. Нейросеть теперь с ними взаимодействует нативно, а не через сложную конструкцию из трех объединенных моделей – транскрипции, интеллекта и преобразования текста в речь.

Интеллект класса GPT-4o будет бесплатным для всех пользователей. ChatGPT используется более чем 100 миллионов человек, для обучения, создания и работы. Активно развивается магазин GPT Store, а свои настраиваемые GPTs для нишевого использования создали уже более 1 миллиона пользователей.

Также можно использовать и видение – скриншоты, фото, документы с текстом и изображением. При этом можно задействовать память GPT. Улучшено качество и скорость работы ChatGPT на 50 различных языках. Так что все эти возможности GPT-4o доступны и бесплатным пользователям.

Возможности для платных пользователей

Платные пользователи будут иметь в 5 раз большие лимиты, по сравнению с бесплатными. GPT-4o предоставляется и через API. Разработчики смогут с ним взаимодействовать в 2 раза быстрее, на 50% дешевле и с “в 5 раз большими лимитами”, чем они это делали с GPT-4 Turbo.

OpenAI поработала по части безопасности. Интегрированы меры против злоупотреблений.

GPT-4o на практике (звук и зрение)

Далее разработчики продемонстрировали работу GPT-4o на практике. Ключевая возможность – разговорная речь в реальном времени. Аудиовозможности в мобильном приложении доступны по иконке в правом нижнем углу.

С ChatGPT сейчас можно разговаривать как с классическими голосовыми ассистентами, вроде Алисы или Siri. Радует качество распознавания речи, быстрое время отклика и глубокие осмысленные ответы, по крайней мере на демонстрации.

Есть несколько ключевых отличий от голосового режима, используемого OpenAI ранее:

можно прерывать модель;
модель реагирует в реальном времени, без задержки в 2-3 секунды;
модель улавливает эмоции;
модель может генерировать голос в различных эмоциональных стилях с широким динамическим диапазоном

Далее продемонстрировали возможности зрения. С ChatGPT можно взаимодействовать через видео. Тапнув по иконке с камерой, вы будете транслировать видеопоток, а ChatGPT распознавать его. Например можно спросить, какое уравнение записал человек. Система распознавания работает чекто. А далее можно в контексте задавать вопросы. Причем не только простые вроде – реши уравнение, но и попросить ChatGPT давать подсказки, а самому предполагать решения. При этом ИИ будет корректировать ход ваших мыслей.

Приятно то, что ИИ отвечает и на более глубокие вопросы, например как линейные уравнения могут пригодиться в жизни. А общение в реальном времени потрясающе.

Традиционно легко решаются вопросы связанные с программированием. Запущен код, справа запущено настольное приложение с голосовым управлением. Пока ChatGPT слышит разработчика, но не видит экран. Можно вставить в чат код и попросить сделать его краткое описание. Можно попросить дать пояснения по функциям из кода, что они означают и как применяются.

По нажатию иконки компьютера изображение с экрана напрямую шерится в ChatGPT. Продемонстрировав график, ИИ считывает изображение и рассказывает что видит. Вы можете задавать уточняющие вопросы – например по пикам температур с графика.

Разработчики делали опрос в соцсети X, какие вопросы хотели бы пользователи задать ChatGPT. Оказалось, что ChatGPT способен на перевод в реальном времени. Допустим с итальянского на английский и наоборот.

ChatGPT умеет определять чувства по мимике лица через фронтальную камеру. В течение последующих нескольких недель Open AI будет внедрять продемонстрированные возможности для всех. Совсем скоро компания расскажет о следующих больших достижениях.