Новые AI-модели Microsoft: революция в голосе и тексте, вызывающая паранойю

Microsoft анонсировала две новые модели искусственного интеллекта — MAI-Voice-1 и MAI-1-preview, которые существенно повышают уровень реализма и функционала ИИ в области генерации голосового и текстового контента. MAI-Voice-1 умеет создавать до минуты аудио менее чем за секунду и делает это на одном GPU, при этом аудиозапись сложно отличить от настоящей человеческой речи. Эта модель уже используется в таких продуктах, как Copilot Daily для озвучки новостей и подкастов, а также доступна для экспериментов в Copilot Labs с настройкой голоса и стиля речи.

Вторая модель, MAI-1-preview, сфокусирована на генерации текстовых ответов и обучалась на 15 тысячах GPU Nvidia H100. Она предназначена для интеграции в Copilot, где будет выполнять разные текстовые задачи, раньше в основном решавшиеся с помощью моделей OpenAI. Microsoft таким шагом начинает конкурировать напрямую с OpenAI, которая недавно выпустила ChatGPT 5 — также продвинутую модель с возможностью адаптации стиля и глубины ответа.

В то же время крупные игроки AI-рынка не стоят на месте: Google развивает свои визуальные модели, такие как nano banana для редактирования изображений с сохранением внешности, и Gemini 2.5 Flash Image — мощную модель для генерации картинок. В итоге, происходит интенсивное развитие технологий в нескольких направлениях, включая речь, текст и визуальные эффекты, а компании Microsoft, OpenAI и Google ведут динамичную гонку инноваций.

Таким образом, новые разработки Microsoft не только демонстрируют высокий уровень технологического прогресса, но и вызывают обеспокоенность в плане восприятия реальности аудио- и видеоинформации, ведь возможности подделки голоса и текста становятся крайне совершенными.