Nothing Essential Voice: голосовой ввод без слов-паразитов

Компания Nothing представила новую функцию, которая может наконец превратить голосовой ввод на смартфонах из неудобного компромисса в полноценный рабочий инструмент. Essential Voice, анонсированный в конце апреля, призван кардинально переосмыслить взаимодействие с устройством через голос — очищая транскрипцию, автоматизируя рутину и переводя многоязычные сообщения в реальном времени.

От сырой диктовки — к чистому тексту

Современные системы голосового ввода по-прежнему страдают одной серьезной болезнью: они транскрибируют речь буквально. Любые «э-э-э», «м-м-м» и случайные запинки попадают в итоговый текст, требуя ручной правки. Nothing утверждает, что, при средней скорости печати 36 слов в минуту против 150 при разговоре, сегодняшние инструменты теряют главное преимущество скорости из-за необходимости последующей редакции.

Система Essential Voice решает эту проблему принципиально иначе. Вместо дословной расшифровки AI-модуль в реальном времени анализирует то, что вы говорите, убирает слова-паразиты и «вылизывает» грамматическую структуру до состояния готового, логически завершённого текста. Кроме того, инструмент способен распознавать намерения спикера и автоматически форматировать результат, превращая поток сознания в маркированные списки, нумерованные инструкции или сжатые заметки. Всего одним нажатием вы получаете текст, не стыдный для отправки коллеге или в мессенджер.

Персональные настройки и встроенная автоматизация

Гораздо более интересной возможностью, чем базовая очистка текста, является реализация в Essential Voice «персональных маппингов» (Personal Mappings) — системы голосовых триггеров. Вы можете научить телефон связывать определённые фразы с конкретными действиями или объектами. Сказав «Добавить контактные данные», система может вставить ваш адрес электронной почты. При упоминании названия ресторана — автоматически подставить его точное расположение на карте.

Ещё одной ключевой «фишкой» стала интеграция голосового переводчика. Система автоматически определяет язык говорящего (всего поддерживается более 100 языков и их региональных вариантов) и может в реальном времени транскрибировать звучащую речь на другой язык или просто понимать мультиязычные команды без ручного переключения раскладки. Достаточно попросить систему в конце предложения: «Переведи это на испанский» — и финальный текст будет на требуемом языке.

Под капотом: гибридная обработка и кнопка вызова

Что касается технической реализации, Nothing выбрала гибридную архитектуру. Обработка звука требует соединения с сетью, что критически важно для поддержки всех 100 языков и переводов (в офлайн-режиме функция пока не работает). Компания акцентирует внимание на приватности: Essential Voice активируется только принудительно, не подслушивает в фоне, а отправляемый на серверы Nothing звук шифруется и удаляется после расшифровки.

Самое удобное здесь — способ вызова. Функцию можно активировать нажатием на иконку в нижней части экранной клавиатуры или через зажатие физической кнопки Essential Key (фирменная фишка Nothing). Последний вариант особенно удобен в режиме многозадачности, когда вы, например, ведёте запись встречи, не отвлекаясь на интерфейс.

Мультизадачность будущего

Хотя релиз Essential Voice начнётся с флагманского Phone (3) и линейки 4a (включая Pro-версию и базовую модель), это лишь первый шаг. Nothing уже заявляет о грядущей «контекстной осведомлённости»: телефон будет сам догадываться, пишете вы шутку другу в мессенджере или строгий отчёт начальнику, подстраивая под это тон итоговой расшифровки. По сути, бренд показывает своё видение «голосового интерфейса будущего», где физическая клавиатура постепенно отходит на второй план.

Судя по первым тестам, Essential Voice — это первый за долгое время сервис, который действительно понимает естественную человеческую речь, не требуя от пользователя неестественных пауз и монотонного чтения.