Chrome 149 и Gemini 3.5 Flash: браузер учится видеть экран, а ИИ

Компания Google сделала два важных шага в развитии своей экосистемы искусственного интеллекта, представив новые функции для браузера Chrome и API Gemini. Эти обновления, анонсированные 24 июня, значительно меняют привычный подход к взаимодействию пользователя с ИИ-ассистентом как в потребительском, так и в корпоративном сегменте.

Chrome 149: Браузер обретает «зрение»

Ключевым нововведением для конечных пользователей стало появление инструмента «Select from screen» в версии Chrome 149. Эта функция, доступная в меню «плюс» панели Gemini, позволяет выделить любую область на открытой веб-странице — будь то текст, изображение или сложная диаграмма — и моментально отправить её в качестве контекста для запроса к ИИ.

Суть нововведения — в устранении посредников. Вместо того чтобы копировать текст, делать скриншот или описывать увиденное словами, пользователь может буквально указать пальцем (или курсором) на интересующий его фрагмент. Этот метод, напоминающий популярную функцию «Circle to Search» на Android-смартфонах, переносит логику визуального поиска на десктопный браузер.

Google приводит несколько показательных примеров использования: выделение нескольких моделей кроссовок для сравнения их характеристик, захват части сложной схемы для получения детального объяснения или выбор элемента интерфейса для его последующей «переработки» с помощью ИИ. По сути, «Select from screen» превращает браузер в инструмент прямого диалога с ИИ-ассистентом, где визуальный контекст становится частью запроса.

Gemini 3.5 Flash: Компьютерное зрение для разработчиков

Однако куда более значимое с технической точки зрения обновление коснулось модели Gemini 3.5 Flash. В неё теперь встроен нативный инструмент «computer use», позволяющий ИИ не просто анализировать контент, но и взаимодействовать с пользовательским интерфейсом.

Ранее эта возможность существовала в виде отдельной экспериментальной модели на базе Gemini 2.5. Теперь же она интегрирована непосредственно в основную модель, что упрощает разработку агентов, способных видеть, рассуждать и совершать действия в браузере, мобильной среде или на рабочем столе. Это открывает путь к созданию систем для автоматизации сложных, многошаговых задач, таких как непрерывное тестирование программного обеспечения или обработка рутинных бизнес-процессов.

Разработчики могут опробовать новые возможности через Gemini API, а также в специализированной демо-среде от Browserbase. Для создания автономных агентов, способных выполнять длительные последовательности действий, предлагается использовать эталонную реализацию и документацию на платформе Gemini Enterprise Agent Platform. Стоит отметить, что для управления Android-устройствами уже доступен отдельный репозиторий с примером реализации, демонстрирующий работу агента в цикле «скриншот → анализ → действие».

Безопасность как приоритет

Особое внимание Google уделил вопросам безопасности при использовании агентов, способных управлять системой. Основным риском является атака типа «непрямая инъекция промпта», когда вредоносный сайт может попытаться подменить инструкции для ИИ. Для защиты в Gemini 3.5 Flash применено специализированное состязательное обучение.

Кроме того, для корпоративных клиентов внедрены два ключевых механизма защиты: обязательное подтверждение пользователем любых чувствительных действий (чтобы предотвратить случайное удаление данных или отправку писем) и автоматическая остановка выполнения задачи при обнаружении подозрительной активности. Google рекомендует сочетать эти встроенные средства с «песочницами» и человеческим контролем.

Таким образом, обновления, представленные в Chrome 149 и Gemini 3.5 Flash, синхронизируют пользовательский опыт и разработческие инструменты. С одной стороны, рядовой пользователь получает интуитивно понятный способ «общения» с ИИ о том, что он видит на экране. С другой — разработчики получают мощный и безопасный инструмент для создания агентов, которые могут не только консультировать, но и действовать от имени пользователя в цифровой среде.