13 мая компания OpenAI представила новую версию мультимодальной большой языковой модели GPT-4o. В этой статье расскажем обо всех преимуществах новой нейросети.
Презентацию провела Мира Мурати – технический директор OpenAI. На повестке дня 3 вопроса:
- бесплатное распространение сервиса;
- настольная версия приложения и обновление веб интерфейса;
- новая флагманская модель GPT-4o.
Что нового в GPT-4o?
Миссия компании – сделать инструменты ИИ доступными для всех. Теперь это возможно без регистрации. Представлена настольная версия ChatGPT. Пользователи Mac с подпиской Plus уже получают ранний доступ, а вскоре появится более широкий доступ. Версия для Windows запланирована на конец этого года.
Обновлен интерфейс веб-версии. Упор сделан на простоту и естественность. Цель – свести к минимуму неудобства интерфейса и позволить пользователям сосредоточиться на взаимодействии с ChatGPT.
Бесплатные возможности GPT-4o
Новая модель GPT-4o, обеспечивает интеллект GPT-4, но работает быстрее и лучше в области текста, зрения и аудио. Нейросеть теперь с ними взаимодействует нативно, а не через сложную конструкцию из трех объединенных моделей – транскрипции, интеллекта и преобразования текста в речь.
Интеллект класса GPT-4o будет бесплатным для всех пользователей. ChatGPT используется более чем 100 миллионов человек, для обучения, создания и работы. Активно развивается магазин GPT Store, а свои настраиваемые GPTs для нишевого использования создали уже более 1 миллиона пользователей.
Также можно использовать и видение – скриншоты, фото, документы с текстом и изображением. При этом можно задействовать память GPT. Улучшено качество и скорость работы ChatGPT на 50 различных языках. Так что все эти возможности GPT-4o доступны и бесплатным пользователям.
Возможности для платных пользователей
Платные пользователи будут иметь в 5 раз большие лимиты, по сравнению с бесплатными. GPT-4o предоставляется и через API. Разработчики смогут с ним взаимодействовать в 2 раза быстрее, на 50% дешевле и с “в 5 раз большими лимитами”, чем они это делали с GPT-4 Turbo.
OpenAI поработала по части безопасности. Интегрированы меры против злоупотреблений.
GPT-4o на практике (звук и зрение)
Далее разработчики продемонстрировали работу GPT-4o на практике. Ключевая возможность – разговорная речь в реальном времени. Аудиовозможности в мобильном приложении доступны по иконке в правом нижнем углу.
С ChatGPT сейчас можно разговаривать как с классическими голосовыми ассистентами, вроде Алисы или Siri. Радует качество распознавания речи, быстрое время отклика и глубокие осмысленные ответы, по крайней мере на демонстрации.
Есть несколько ключевых отличий от голосового режима, используемого OpenAI ранее:
- можно прерывать модель;
- модель реагирует в реальном времени, без задержки в 2-3 секунды;
- модель улавливает эмоции;
- модель может генерировать голос в различных эмоциональных стилях с широким динамическим диапазоном
Далее продемонстрировали возможности зрения. С ChatGPT можно взаимодействовать через видео. Тапнув по иконке с камерой, вы будете транслировать видеопоток, а ChatGPT распознавать его. Например можно спросить, какое уравнение записал человек. Система распознавания работает чекто. А далее можно в контексте задавать вопросы. Причем не только простые вроде – реши уравнение, но и попросить ChatGPT давать подсказки, а самому предполагать решения. При этом ИИ будет корректировать ход ваших мыслей.
Приятно то, что ИИ отвечает и на более глубокие вопросы, например как линейные уравнения могут пригодиться в жизни. А общение в реальном времени потрясающе.
Традиционно легко решаются вопросы связанные с программированием. Запущен код, справа запущено настольное приложение с голосовым управлением. Пока ChatGPT слышит разработчика, но не видит экран. Можно вставить в чат код и попросить сделать его краткое описание. Можно попросить дать пояснения по функциям из кода, что они означают и как применяются.
По нажатию иконки компьютера изображение с экрана напрямую шерится в ChatGPT. Продемонстрировав график, ИИ считывает изображение и рассказывает что видит. Вы можете задавать уточняющие вопросы – например по пикам температур с графика.
Разработчики делали опрос в соцсети X, какие вопросы хотели бы пользователи задать ChatGPT. Оказалось, что ChatGPT способен на перевод в реальном времени. Допустим с итальянского на английский и наоборот.
ChatGPT умеет определять чувства по мимике лица через фронтальную камеру. В течение последующих нескольких недель Open AI будет внедрять продемонстрированные возможности для всех. Совсем скоро компания расскажет о следующих больших достижениях.