Самые крутые технологии с презентации Google I/O 2024

14 мая 2024 года состоялась конференция Google I/O для разработчиков. Google инвестирует в искусственный интеллект (ИИ) уже более 10 лет и все равно компания еще в самом начале.

Содержание

Нейросеть Gemini
Imagen 3, Music AI Sandbox и Veo
Железо для облачных вычислений
Расширенный поиск AI Overviews
Google Workspace
Gemini как виртуальный ассистент
Gemini в Android
PaliGemma
Безопасность и обучение

Нейросеть Gemini

Объявлена эра Gemini. Более 1,5 миллионов разработчиков используют нейросеть Гугл. Она доступна на iOS и Android и в расширенном поиске Google Advanced. Гугл фото существует уже более 9 лет, а люди загружают свыше 6 миллиардов фото в день. Благодаря Gemini существенно улучшился поиск по фото. Нейросеть выходит за рамки обычного поиска и отлично понимает контекст. А в будущем в приложении Google Photos будет еще больше возможностей.

Gemini 1.5 предлагает использовать более 1 миллиона токенов. Это значит, что нейросеть может поглотить тонну контента, с которым вы хотите взаимодействовать. А теперь Гугл представляет улучшенную версию Gemini 1.5 Pro. 1 миллион токенов теперь доступен в программе AI Advanced на 35 языках, а для разработчиков будет доступно 2 миллиона токенов.

В почте Gmail можно попросить обобщить все последние электронные письма в школе, получив краткое изложение, которое включает даже анализ загруженных файлов. А анализ часовой Zoom конференции Gemini делает по щелчку пальцев.

Gemini 1.5 Pro может создавать персонажей на основе загруженных материалов. Они будут общаться сами с собой голосом, а к аудио беседе можно даже присоединиться и обсуждать с нейронкой какие-либо вопросы. Такая программа получается и персонализированной, и наглядной. Gemini может помочь с возвратом покупок или кучей дел, которые возникают при переезде.

Модель AlphaFold 3 ускорит биологические и медицинские исследования для борьбы с болезнями и разработки лекарств.

Еще одна новинка – модель Gemini 1.5 Flash – более простая, чем Pro, легкая и ненагруженная. Модель с 1 миллионом токенов в базе, но зарегистрированным разработчикам дадут 2 миллиона.

Гугл разрабатывает агенты, которые отлично взаимодействуют с видео и аудио с минимальной задержкой. Разработанное на основе таких агентов приложение может сканировать окружение в реальном времени, а вы задавать вопросы и получать ответы голосом. Причем модель запоминает то, что уже видела, и может ответить на вопрос в контексте того, что она видела ранее. А подойдя к доске, можно быстро решить задачу. Такая технология проекта Астра будет интегрирована позже в этом году в другие продукты Гугл, а сейчас можно воспользоваться демо-версией.

Imagen 3, Music AI Sandbox и Veo

Представлена Imagen 3 – новая модель создания изображений. Более точно понимает тестовые запросы. Алгоритм работает более «креативно и детализировано», а также реже ошибается и создаёт меньше «отвлекающих артефактов». Разработчикам и компаниям можно зарегистрироваться и воспользоваться уже сегодня.

Music AI Sandbox, созданный вместе с YouTube при поддержке музыкантов, поможет в создании композиций, полноценных инструментальных партий и сэмплов с нуля.

Veo создает высококачественные видеоролики из текста, графики и видео подсказок в FullHD длиной до 60 секунд. Помогает создавать видеоэффекты, раскадровки и удлинять ролики.

Железо для облачных вычислений

Гугл не только разрабатывает ПО, но и предлагает облачную инфраструктуру для вычислений. Компания представила 6е поколение тензорных процессоров – TPU Trillium с лучшей в отрасли производительностью и энергоэффективностью. Новые чипы Nvidia Blackwell будут доступны для потребителей в начале 2025 года.

В центрах обработки данных Google используется жидкостное охлаждение.

Расширенный поиск AI Overviews

Расширенный поиск AI Overviews – будет помогать в самых сложных вопросах с сегодняшнего дня жителям США, а позже в этом году и в других странах. Больше не надо будет вручную по крупицам собирать информацию. Один поиск будет предоставлять куда большее количество данных. Поиск отлично завязан на карты с местами и карточками предприятий.

Например, без проблем можно создать план трехдневного питания на каждого ребенка. А потом получить все рецепты и список покупок с магазинами рядом в два клика. Ответы поисковика будут выводиться целыми страницами сгенерированными ИИ. И работает эта технология с большим количеством категорий данных.

Скоро вопросы можно будет задавать даже при помощи видео прямо в строке поиска Гугл. Например девочка не разобралась с виниловым проигрывателем, отсняла видео и задала голосом вопрос. Ответ выдается мгновенно. За все это отвечают модели текста, фото и речи, а видео распознается покадрово.

На этой неделе через лабораторию уже можно протестировать новые функции.

Google Workspace

Gemini тесно интегрирован и в пакет фирменных приложений Workspace. В приложении Meet нейросеть Gemini уже работает с 68 языками. В Gmail благодаря Gemini 1.5 Pro можно будет суммаризировать всю важную информацию из тематических цепочек писем, а затем получать быстрые ответы на любые уточняющие запросы. Такие возможности начнут распространяться среди пользователей Labs в этом месяце.

А еще сервисы Гугл тесно взаимодействуют друг с другом, а некоторые рутинные действия могут быть автоматизированы. Боковая панель поможет организовать информацию в почте. Например создать таблицу на основе писем с чеками по посещениям в отелях, с датами, потраченными средствами и так далее.

AI Teammate – виртуальный товарищ по команде. Он может просматривать все групповые чаты и выдавать ответы. А добавив ассистент в чат, можно например обобщать информацию или создавать план действий на основе того, что уже реализовано.

Gemini как виртуальный ассистент

Gemini будет вашим виртуальным ассистентом прямо в смартфоне. С ним можно взаимодействовать, текстом, голосом или камерой. Помощника можно даже перебивать. Новая функция Gems позволяет персонализировать помощника. Например вы можете его превратить в тренера или писателя, а уже в контексте заданных инструкций он будет эффективнее с вами взаимодействовать.

Например при планировании путешествий Gemini может учитывать пожелания, предпочтения и дела каждого члена семьи, а в итоге вы получите детализированный план отпуска с адресами, маршрутами, ресторанами, гибким настраиваемым графиком. Опробовать новые функции можно будет уже летом.

Gemini очень мощная модель. Вы в нее можете загрузить 1500 страничный PDF, часовое видео или диссертацию с источниками и заметками, а потом нейросеть даст вам советы и ответы на интересующие вопросы. Позже в этом году Гугл увеличит длину контекстного окна с 1 до 2 миллионов токенов.

Gemini в Android

В основу Андроид Гугл теперь ставит ИИ. Поиск будет на базе ИИ. Gemini будет твоим виртуальным помощником. ИИ будет частично работать непосредственно на устройстве с сохранением конфиденциальности.

Функция “Circle to search” будет помогать искать информацию в любом месте операционки и помогать решать задачи. Уже работает на 100 миллионах устройств, а до конца года будет работать на 200 миллионов устройств.

А еще Gemini в Android будет работать в контексте. То есть, если вы открыли PDF и задали вопрос Gemini, то она будет искать ответ в документе. Программа располагается в виде отдельного окна над приложениями.

Еще Android защитит вас от мошенников, причем не только от скам в СМС, но и анализируя аудио звонки и прямо во время разговора смартфон вас предупредит об опасности. А обработка звука будет выполняться непосредственно на устройстве. То есть конфиденциально.

Модели Gemini 1.5 Pro или Flash уже доступны более чем в 200 странах. Разработчики получат новые API. 1 миллион токенов Pro версии обойдется в 7 баксов, а флеш версия – 0,35$.

PaliGemma

Анонсировали PaliGemma – новую модель для создания субтитров и маркировки изображений. А вторая Gemma появится позже в июне. Она будет учитывать более 27 миллиардов параметров.

Безопасность и обучение

Google заботится о безопасности и защищает модели от неправильного использования. Выявляются слабые места. Изображения и голос помечаются специальными водяными знаками системой SynthID, чтобы идентифицировать контент генерируемый ИИ.

Модель LearnLM выступает экспертом по любой теме. Ответит на вопрос, позволит подготовиться к олимпиаде по биологии, сделает обучающие видео в ютуб более интерактивными.

Так как смартфон Pixel 8a после многократных сливов был представлен неделей ранее, а Pixel Tablet без подставки будет стоить на 100$ дешевле, новое железо на Google I/O не представили. Как вам презентация? Пишите в комментариях.