Accueil Blog Gemini 2.0, la dernière IA phare de Google, peut générer du texte, des images et de la parole

Gemini 2.0, la dernière IA phare de Google, peut générer du texte, des images et de la parole

Crédits image : Maxwell Zeff

17 décembre 2024

Le prochain modèle majeur d’IA de Google est arrivé pour combattre une série de nouvelles offres d’OpenAI.

Mercredi, Google a annoncé Gemini 2.0 Flash, qui, selon la société, peut générer nativement des images et de l’audio en plus du texte. 2.0 Flash peut également utiliser des applications et des services tiers, ce qui lui permet d’accéder à la recherche Google, d’exécuter du code, etc.

Une version expérimentale de Flash 2.0 sera disponible dès aujourd’hui via l’API Gemini et les plateformes de développement d’IA de Google, AI Studio et Vertex AI . Cependant, les fonctionnalités de génération d’audio et d’images ne seront lancées que pour les « partenaires en accès anticipé » avant un déploiement à grande échelle en janvier.

Dans les mois à venir, Google annonce qu’il proposera Flash 2.0 dans une gamme de versions pour des produits comme Android Studio , Chrome DevTools, Firebase , Gemini Code Assist et d’autres.

Flash, mis à jour

La première génération de Flash, la version 1.5 , ne pouvait générer que du texte et n’était pas conçue pour des charges de travail particulièrement exigeantes. Ce nouveau modèle est plus polyvalent, selon Google, en partie parce qu’il peut appeler des outils comme Search et interagir avec des API externes.

« Nous savons que Flash est extrêmement populaire auprès des développeurs pour son équilibre entre vitesse et performances », a déclaré Tulsee Doshi, responsable produit pour le modèle Gemini chez Google, lors d’un briefing mardi. « Et avec Flash 2.0, il est aussi rapide que jamais, mais il est désormais encore plus puissant. »

Google affirme que la version 2.0 de Flash, qui est deux fois plus rapide que le modèle Gemini 1.5 Pro de la société sur certains tests, selon les propres tests de Google, est « considérablement » améliorée dans des domaines tels que le codage et l’analyse d’images. En fait, la société affirme que la version 2.0 de Flash remplace la version 1.5 Pro en tant que modèle phare de Gemini, grâce à ses compétences mathématiques supérieures et à sa « factualité ».

Comme évoqué précédemment, Flash 2.0 peut générer – et modifier – des images en plus du texte. Le modèle peut également ingérer des photos et des vidéos, ainsi que des enregistrements audio, pour répondre à des questions à leur sujet (par exemple, « Qu’a-t-il dit ? »).

La génération audio est l’autre fonctionnalité clé de Flash 2.0, et Doshi la décrit comme « orientable » et « personnalisable ». Par exemple, le modèle peut raconter un texte en utilisant l’une des huit voix « optimisées » pour différents accents et langues.

« Vous pouvez lui demander de parler plus lentement, vous pouvez lui demander de parler plus vite, ou vous pouvez même lui demander de dire quelque chose comme un pirate », a-t-elle ajouté.

En tant que journaliste, je me dois de souligner que Google n’a pas fourni d’images ou d’échantillons audio de Flash 2.0. Nous n’avons aucun moyen de savoir comment la qualité se compare aux résultats d’autres modèles, du moins au moment de la rédaction de cet article.

Google affirme utiliser sa technologie SynthID pour filigraner tous les fichiers audio et images générés par Flash 2.0. Sur les logiciels et les plateformes qui prennent en charge SynthID (c’est-à-dire certains produits Google), les sorties du modèle seront signalées comme synthétiques.

Cela vise à apaiser les craintes d’abus. En effet, les deepfakes constituent une menace croissante. Selon le service de vérification d’identité Sumsub, le nombre de deepfakes détectés dans le monde entier a été multiplié par 4 entre 2023 et 2024.

API multimodale

La version de production de Flash 2.0 sera disponible en janvier. Mais en attendant, Google publie une API, la Multimodal Live API, pour aider les développeurs à créer des applications avec des fonctionnalités de streaming audio et vidéo en temps réel.

Grâce à l’API Multimodal Live, les développeurs peuvent créer des applications multimodales en temps réel avec des entrées audio et vidéo provenant de caméras ou d’écrans. L’API prend en charge l’intégration d’outils pour accomplir des tâches et peut gérer des « modèles de conversation naturels » tels que les interruptions, à l’instar de l’API Realtime d’OpenAI .

L’API Multimodal Live est généralement disponible depuis ce matin.