Un aperçu de Gemini Agentic Vision : fonctionnement et enjeux pour l'IA

Stevia Putri
Written by

Stevia Putri

Reviewed by

Stanley Nicholas

Last edited 30 janvier 2026

Expert Verified

Image alt text

Pendant longtemps, les modèles d'IA ont regardé les images comme une personne jetant un coup d'œil à une photo : ils saisissaient l'idée générale mais passaient à côté des infimes détails. Ils voyaient une photo d'un circuit imprimé et disaient : « Oui, c'est un circuit imprimé. » Mais demandez-leur de lire le numéro de série sur un minuscule condensateur, et ils se contentaient souvent de deviner. Cela a constitué un goulot d'étranglement majeur, transformant les tâches visuelles complexes en un jeu de hasard.

Gemini Agentic Vision de Google cherche à changer cela. C'est une toute nouvelle façon de concevoir l'interaction de l'IA avec les images, transformant le visionnage passif en une enquête active en plusieurs étapes. Cet article détaille ce qu'est Gemini Agentic Vision, ses capacités clés, ses limites actuelles et comment les principes qui le sous-tendent ont déjà un impact réel dans le monde des affaires.

Une comparaison entre la vision par IA traditionnelle et l'enquête active en plusieurs étapes de Gemini Agentic Vision.
Une comparaison entre la vision par IA traditionnelle et l'enquête active en plusieurs étapes de Gemini Agentic Vision.

Qu'est-ce que Gemini Agentic Vision ?

Gemini Agentic Vision est une nouvelle fonctionnalité intégrée au modèle Gemini 3 Flash qui repense complètement la manière dont l'IA analyse les images. Au lieu de se contenter de regarder et de deviner, elle combine le raisonnement visuel avec la capacité d'écrire et d'exécuter son propre code. Cela lui permet de fonder ses réponses sur des preuves réelles et vérifiables qu'elle trouve dans l'image. Selon Google, cette approche offre un gain de qualité constant de 5 à 10 % sur la plupart des tests de référence en vision, ce qui est considérable.

À la base, tout cela fonctionne grâce à une boucle simple et puissante.

La boucle penser, agir, observer

Le secret de la vision agentique (Agentic Vision) réside dans un processus en trois étapes qui permet au modèle de passer d'un seul regard superficiel à une enquête itérative détaillée. C'est moins un coup d'œil rapide qu'un détective examinant une scène de crime.

La boucle « penser, agir, observer » permet à Gemini Agentic Vision d'enquêter et d'analyser les images de manière itérative pour obtenir des résultats précis.
La boucle « penser, agir, observer » permet à Gemini Agentic Vision d'enquêter et d'analyser les images de manière itérative pour obtenir des résultats précis.

Voici comment cela fonctionne :

  1. Penser : Tout d'abord, le modèle examine la demande de l'utilisateur ainsi que l'image et élabore un plan. Il décompose le problème en étapes plus petites et gérables qu'il peut entreprendre pour trouver la réponse.
  2. Agir : Ensuite, il passe à l'action. Il génère et exécute du code Python pour manipuler ou analyser l'image. Cela peut signifier recadrer une zone spécifique pour « zoomer », effectuer des calculs sur les données qu'il voit, ou même dessiner sur l'image pour suivre certains éléments.
  3. Observer : L'image nouvellement modifiée (par exemple, le recadrage zoomé) est ensuite réinjectée dans le contexte du modèle. Celui-ci examine les nouvelles preuves et réévalue la situation, décidant s'il a assez d'informations pour répondre ou s'il doit revenir à l'étape « Penser » pour creuser davantage.

Cette boucle se poursuit jusqu'à ce que le modèle soit convaincu d'avoir trouvé la bonne réponse, ce qui rend l'ensemble du processus plus précis et beaucoup moins dépendant du hasard.

Capacités clés et cas d'utilisation de Gemini Agentic Vision

Cette nouvelle approche agentique n'est pas qu'un simple ajustement ; elle débloque des capacités puissantes qui vont bien au-delà des simples descriptions d'images. Explorons certains des cas d'utilisation les plus intéressants présentés par Google.

Zoom dynamique et inspection

Avez-vous déjà essayé de lire les petits caractères sur une photo floue ? C'est ce à quoi l'IA est confrontée depuis des années. Gemini Agentic Vision s'attaque à ce problème avec ce qu'il appelle le zoom dynamique (dynamic zooming).

Le modèle peut désormais décider de lui-même de « zoomer » sur de minuscules détails en générant un code qui recadre une partie spécifique d'une image. C'est une avancée majeure pour les tâches exigeant de la précision, car cela empêche l'IA de deviner lorsqu'elle rencontre des éléments tels que des numéros de série, du texte éloigné ou des motifs complexes.

Un excellent exemple concret est l'utilisation qu'en fait PlanCheckSolver.com. Ils soumettent des plans de construction haute résolution au modèle, et celui-ci inspecte de manière itérative différentes sections, telles que les bords du toit, l'emplacement des fenêtres et les poutres de support, pour vérifier si elles sont conformes aux codes du bâtiment complexes. Ce simple acte de zoomer a déjà amélioré leur précision de 5 %.

Annotation d'image interactive

Parfois, pour comprendre quelque chose de complexe, il faut l'annoter. Vous pourriez entourer des éléments, dessiner des flèches ou griffonner des notes. Gemini Agentic Vision peut désormais faire de même en utilisant du code pour dessiner directement sur une image. C'est comme donner à l'IA un bloc-notes visuel pour structurer son raisonnement.

Cela aide à fonder sa logique sur ce qu'elle voit réellement, ce qui réduit considérablement les erreurs. Par exemple, un échec courant de l'IA est de mal compter les objets dans une image chargée. Dans une démonstration, il a été demandé à l'application Gemini de compter les doigts sur une main. Au lieu de simplement donner un chiffre, elle a dessiné une boîte de délimitation (bounding box) et une étiquette numérique sur chaque doigt, un par un. Cela rend son processus transparent et, surtout, correct. Fini les mains à six doigts.

Reddit
Ils ont vraiment pris l'astuce de la « main » personnellement, lol.

Mathématiques visuelles et tracé de données

Analyser un tableau dense ou un graphique compliqué pour en extraire des informations peut être difficile tant pour les humains que pour l'IA. Gemini Agentic Vision peut désormais analyser ces données à partir d'une image, puis utiliser Python pour effectuer des calculs et même générer de nouveaux graphiques pour visualiser ses découvertes.

En déléguant le calcul numérique proprement dit à un environnement de programmation, il contourne le problème courant des grands modèles de langage qui « hallucinent » ou inventent des réponses lors de problèmes mathématiques en plusieurs étapes. Dans un exemple d'application de démonstration, on a montré au modèle un tableau de performances. Il a extrait les chiffres bruts, a utilisé du code pour normaliser les données, puis a généré un graphique à barres professionnel avec Matplotlib pour présenter les résultats de manière claire et facile à comprendre.

Comment débuter avec Gemini Agentic Vision

Si vous êtes un développeur ou si vous faites partie d'une équipe impatiente de tester cela, la bonne nouvelle est que Google a rendu Gemini Agentic Vision assez accessible via ses principales plateformes d'IA.

Disponibilité de la plateforme

Vous pouvez trouver cette nouvelle capacité dans quelques endroits clés, selon votre profil :

Si vous voulez simplement la voir en action sans écrire de code, vous pouvez consulter la démonstration officielle directement dans Google AI Studio.

Implémentation via l'API Gemini

Pour ceux qui souhaitent construire avec cet outil, la mise en œuvre est étonnamment simple. Il vous suffit d'activer l'option « Code Execution » dans la configuration des outils lors de votre appel API.

Voici l'exemple de snippet de code Python provenant de la documentation développeur de Google. Il montre à quel point il est simple de demander au modèle de zoomer sur une image.

from google import genai
from google.genai import types

client = genai.Client()

image = types.Part.from_uri(
    file_uri="https://goo.gle/instrument-img",
    mime_type="image/jpeg",
)

response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents=[image, "Zoom into the expression pedals and tell me how many pedals are there?"],
    config=types.GenerateContentConfig(
        tools=[types.Tool(code_execution=types.ToolCodeExecution)]
    ),
)

print(response.text)

Comme vous pouvez le voir, vous n'avez pas besoin de lui dire comment zoomer ; vous activez simplement l'outil, et le modèle s'occupe du reste.

Limites actuelles de Gemini Agentic Vision et avenir de l'IA agentique

Bien que Gemini Agentic Vision soit un immense pas en avant, il n'en est qu'à ses débuts. Il est important de savoir ce qu'il ne peut pas encore faire et de voir comment cela s'inscrit dans la tendance plus large de l'IA agentique qui transforme déjà le fonctionnement des entreprises.

Prochaines étapes pour Gemini Agentic Vision

Google a été transparent sur les limites actuelles et sur ses prochains axes de travail, comme détaillé dans leur annonce :

  • Comportements implicites : Actuellement, la fonction de zoom est assez intuitive, mais d'autres actions comme la rotation d'une image ou l'exécution de mathématiques visuelles nécessitent souvent une consigne directe de l'utilisateur. L'objectif de Google est de rendre tous ces comportements totalement implicites, afin que le modèle sache simplement quoi faire.
  • Expansion des outils : La boîte à outils actuelle est axée sur la manipulation d'images et l'analyse de données, mais Google prévoit d'ajouter d'autres outils, comme la recherche sur le Web et la recherche d'images inversée, pour la rendre encore plus puissante.
  • Disponibilité des modèles : Cette capacité est actuellement exclusive à Gemini 3 Flash, mais il est prévu de l'étendre à d'autres tailles de modèles Gemini à l'avenir.

Application des principes agentiques aux flux de travail en entreprise

La boucle « penser, agir, observer » est un concept fondamental qui s'étend au-delà de l'analyse d'images. C'est le principe central des agents d'IA efficaces dans divers contextes commerciaux, de l'analyse de documents à la gestion des tickets de support client. Une IA conçue pour le service client, par exemple, suit un processus similaire. Elle doit d'abord penser en lisant un ticket de support pour comprendre le problème. Ensuite, elle doit agir en utilisant des outils intégrés, comme la recherche d'une commande dans Shopify ou le marquage d'un ticket dans Zendesk. Enfin, elle doit observer le résultat pour confirmer que l'action a réussi avant d'envoyer une réponse. Alors que les développeurs peuvent utiliser les briques technologiques de Gemini Agentic Vision pour créer des solutions personnalisées, certaines plateformes proposent des agents d'IA pré-construits qui appliquent ces mêmes principes. Par exemple, un système comme eesel AI s'intègre à des outils comme Zendesk, Shopify et Confluence, en suivant des instructions en langage naturel pour résoudre les problèmes de manière autonome.

L'agent eesel AI applique des principes agentiques, similaires à Gemini Agentic Vision, pour résoudre de manière autonome des tickets de support dans des plateformes comme Zendesk.
L'agent eesel AI applique des principes agentiques, similaires à Gemini Agentic Vision, pour résoudre de manière autonome des tickets de support dans des plateformes comme Zendesk.

Tarification de Gemini 3 Flash pour Gemini Agentic Vision

Il est important de rappeler que Gemini Agentic Vision est une fonctionnalité du modèle Gemini 3 Flash. L'y accéder est soumis à la tarification standard de l'API pour ce modèle, que vous pouvez trouver sur la page officielle des tarifs de Vertex AI.

Voici un aperçu rapide de ce à quoi cela ressemble :

ModèleTypePrix par 1 million de tokens
Gemini 3 Flash PreviewEntrée (texte, image, vidéo)0,50 $
Sortie texte (réponse et raisonnement)3,00 $

Pour voir ces capacités démontrées dans un format plus visuel, consultez cette analyse approfondie du fonctionnement d'Agentic Vision et de ce qu'il signifie pour l'avenir de l'IA.

Une analyse approfondie des nouvelles fonctionnalités et capacités de la mise à jour Gemini Agentic Vision de Google.

Le passage vers des agents actifs

Gemini Agentic Vision marque un tournant majeur dans l'IA. Nous nous éloignons des modèles qui se contentent de décrire passivement ce qu'ils voient pour nous diriger vers des agents actifs capables d'enquêter, de manipuler et de réellement raisonner sur l'information visuelle. Il ne s'agit pas seulement de rendre l'IA meilleure pour regarder des photos ; cela fait partie d'une tendance beaucoup plus large vers des systèmes agentiques capables d'utiliser des outils pour résoudre des problèmes complexes en plusieurs étapes dans n'importe quelle fonction de l'entreprise.

Alors que les développeurs peuvent commencer à construire avec ces nouvelles capacités puissantes dès aujourd'hui, les entreprises n'ont pas à attendre pour mettre ces principes en pratique. Vous pouvez tirer parti de systèmes agentiques prêts à l'emploi dès maintenant. Pour voir comment un coéquipier IA peut gérer de manière autonome votre service client et d'autres flux de travail, essayez eesel AI gratuitement.

Questions fréquemment posées

Le plus grand avantage est la précision. En écrivant et en exécutant son propre code pour inspecter les images (comme zoomer sur des détails), l'IA fonde ses réponses sur des preuves réelles au lieu de simplement deviner. Cela conduit à une amélioration de 5 à 10 % dans la plupart des tâches visuelles.
Il s'agit d'un processus en trois étapes. Tout d'abord, l'IA « pense » en élaborant un plan pour répondre à une consigne. Ensuite, elle « agit » en exécutant du code pour analyser l'image (comme le recadrage ou l'annotation). Enfin, elle « observe » le résultat et décide si elle dispose de suffisamment d'informations ou si elle doit répéter la boucle.
Pas encore. Actuellement, il s'agit d'une fonctionnalité exclusive du modèle Gemini 3 Flash. Google a indiqué qu'il prévoyait de la déployer sur d'autres modèles Gemini à l'avenir.
C'est idéal pour toute tâche nécessitant une grande précision visuelle. Les exemples incluent l'analyse de plans de construction détaillés pour la conformité aux codes, le comptage précis d'articles dans une image complexe, ou l'extraction et le calcul de données à partir de graphiques et de tableaux.
Oui. Vous pouvez voir une démonstration en action directement dans Google AI Studio. La fonctionnalité est également en cours de déploiement sur l'application Gemini grand public, où vous pouvez y accéder en sélectionnant le modèle « Thinking ».
Elle en est encore à ses débuts. Certaines actions, comme la rotation d'une image, nécessitent encore une consigne directe de l'utilisateur. De plus, son ensemble d'outils est actuellement axé sur la manipulation d'images et l'analyse de données, avec des plans pour ajouter des éléments comme la recherche sur le Web plus tard.

Partager cet article

Stevia undefined

Article by

Stevia Putri

Stevia Putri is a marketing generalist at eesel AI, where she helps turn powerful AI tools into stories that resonate. She’s driven by curiosity, clarity, and the human side of technology.