Google se lance à fond dans l’IA – et il veut que vous le sachiez. Lors du discours d’ouverture de la société lors de sa conférence des développeurs d’E/S mardi, Google a mentionné « IA » plus de 120 fois . C’est beaucoup!

Mais toutes les annonces de Google en matière d’IA n’étaient pas significatives en soi. Certains étaient progressifs. D’autres ont été ressassés. Ainsi, pour vous aider à trier le bon grain de l’ivraie, nous avons rassemblé les principaux nouveaux produits et fonctionnalités d’IA dévoilés lors de Google I/O 2024.

IA générative dans la recherche

Google prévoit d’utiliser l’IA générative pour organiser des pages entières de résultats de recherche Google .

À quoi ressembleront les pages organisées par l’IA ? Eh bien, cela dépend de la requête de recherche. Mais ils pourraient afficher des résumés d’avis générés par l’IA, des discussions sur des sites de médias sociaux comme Reddit et des listes de suggestions générées par l’IA, a déclaré Google.

Pour l’instant, Google prévoit d’afficher des pages de résultats améliorées par l’IA lorsqu’il détecte qu’un utilisateur est à la recherche d’inspiration, par exemple lorsqu’il planifie un voyage. Bientôt, ces résultats seront également affichés lorsque les utilisateurs rechercheront des options de restauration et des recettes, avec des résultats pour des films, des livres, des hôtels, du commerce électronique et bien plus encore.

Projet Astra et Gemini Live

Gémeaux — **Crédits image :** Google / Google

Google améliore son chatbot Gemini basé sur l’IA afin qu’il puisse mieux comprendre le monde qui l’entoure.

La société a présenté en avant-première une nouvelle expérience dans Gemini appelée Gemini Live, qui permet aux utilisateurs d’avoir des discussions vocales « approfondies » avec Gemini sur leurs smartphones. Les utilisateurs peuvent interrompre Gemini pendant que le chatbot parle pour poser des questions de clarification, et celui-ci s’adaptera à leurs modèles de parole en temps réel. Et Gemini peut voir et réagir à l’environnement des utilisateurs, soit via des photos ou des vidéos capturées par les caméras de leurs smartphones.

Gemini Live – qui ne sera lancé que plus tard cette année – peut répondre à des questions sur les éléments visibles (ou récemment visibles) de la caméra d’un smartphone, comme le quartier dans lequel un utilisateur pourrait se trouver ou le nom d’une pièce sur un vélo cassé. Les innovations techniques qui animent Live proviennent en partie du projet Astra, une nouvelle initiative au sein de DeepMind visant à créer des applications et des « agents » basés sur l’IA pour une compréhension multimodale en temps réel.

Google Véo

Google cherche Sora d’OpenAI avec Veo , un modèle d’IA capable de créer des clips vidéo 1080p d’environ une minute lorsqu’on lui demande du texte.

Veo peut capturer différents styles visuels et cinématographiques, notamment des prises de vue de paysages et des accélérés, et apporter des modifications et des ajustements aux séquences déjà générées. Le modèle comprend assez bien les mouvements de la caméra et les effets visuels à partir des invites (pensez à des descripteurs comme « panoramique », « zoom » et « explosion »). Et Veo maîtrise quelque peu la physique – des choses comme la dynamique des fluides et la gravité – qui contribuent au réalisme des vidéos qu’elle génère.

Veo prend également en charge l’édition masquée pour les modifications apportées à des zones spécifiques d’une vidéo et peut générer des vidéos à partir d’une image fixe, à la manière de modèles génératifs comme Stable Video de Stability AI . Peut-être le plus intrigant, étant donné une séquence d’invites qui racontent ensemble une histoire, Veo peut générer des vidéos plus longues – des vidéos d’une durée supérieure à une minute.

Demander des photos

Google Photos bénéficie d’une infusion d’IA avec le lancement d’une fonctionnalité expérimentale appelée Ask Photos , optimisée par la famille Gemini de modèles d’IA génératifs de Google.

Ask Photos, qui sera déployé plus tard cet été, permettra aux utilisateurs d’effectuer des recherches dans leur collection Google Photos à l’aide de requêtes en langage naturel qui exploitent la compréhension de Gemini du contenu de leur photo et d’autres métadonnées.

Par exemple, au lieu de rechercher un élément spécifique dans une photo, comme « One World Trade », les utilisateurs pourront effectuer des recherches beaucoup plus larges et complexes, comme trouver la « meilleure photo de chacun des parcs nationaux que j’ai visités ». » Dans cet exemple, Gemini utiliserait des signaux tels que l’éclairage, le flou et l’absence de distorsion d’arrière-plan pour déterminer ce qui fait d’une photo la « meilleure » dans un ensemble donné et combinerait cela avec une compréhension des informations de géolocalisation et des dates pour renvoyer les images pertinentes.

Gémeaux dans Gmail

Les utilisateurs de Gmail pourront bientôt rechercher, résumer et rédiger des e-mails , grâce à Gemini, ainsi que prendre des mesures sur les e-mails pour des tâches plus complexes, comme aider à traiter les retours.

Dans une démo présentée à I/O, Google a montré comment un parent pouvait se tenir au courant de ce qui se passait à l’école de son enfant en demandant à Gemini de résumer tous les e-mails récents de l’école. En plus du corps des e-mails, Gemini analysera également les pièces jointes, telles que les PDF, et crachera un résumé avec les points clés et les actions à entreprendre.

À partir d’une barre latérale de Gmail, les utilisateurs peuvent demander à Gemini de les aider à organiser les reçus de leurs e-mails et même de les placer dans un dossier Google Drive, ou d’extraire des informations des reçus et de les coller dans une feuille de calcul. Si c’est quelque chose que vous faites souvent (par exemple, en tant que voyageur d’affaires pour suivre les dépenses), Gemini peut également vous proposer d’automatiser le flux de travail pour une utilisation future.

Détecter les arnaques lors des appels

Google a présenté en avant-première une fonctionnalité basée sur l’IA pour alerter les utilisateurs des escroqueries potentielles lors d’un appel.

Cette fonctionnalité, qui sera intégrée à une future version d’Android, utilise Gemini Nano , la plus petite version de l’offre d’IA générative de Google, qui peut être entièrement exécutée sur l’appareil, pour écouter en temps réel les « modèles de conversation généralement associés aux escroqueries ». .

Aucune date de sortie spécifique n’a été fixée pour la fonctionnalité. Comme beaucoup de ces choses, Google prévoit tout ce que Gemini Nano sera capable de faire à l’avenir. Nous savons cependant que la fonctionnalité sera facultative, ce qui est une bonne chose. Bien que l’utilisation de Nano signifie que le système ne téléchargera pas automatiquement l’audio vers le cloud, le système écoute toujours efficacement les conversations des utilisateurs, ce qui constitue un risque potentiel pour la vie privée.

L’IA pour l’accessibilité

Google améliore sa fonctionnalité d’accessibilité TalkBack pour Android avec un peu de magie de l’IA générative.

Bientôt, TalkBack exploitera Gemini Nano pour créer des descriptions sonores d’objets pour les utilisateurs malvoyants et aveugles. Par exemple, TalkBack peut décrire un vêtement comme tel : « Un gros plan d’une robe à carreaux vichy noir et blanc. La robe est courte, avec un col et des manches longues. Il est noué à la taille avec un gros nœud.

Selon Google, les utilisateurs de TalkBack rencontrent environ 90 images non étiquetées par jour. Grâce à Nano, le système sera en mesure d’offrir un aperçu du contenu, évitant ainsi à quelqu’un d’avoir à saisir manuellement ces informations.