Ein Überblick über Gemini Agentic Vision: Funktionsweise und Bedeutung für die KI

Stevia Putri
Written by

Stevia Putri

Reviewed by

Stanley Nicholas

Last edited January 30, 2026

Expert Verified

Image alt text

Lange Zeit haben KI-Modelle Bilder wie ein Mensch betrachtet, der flüchtig auf ein Foto schaut: Sie erfassen die allgemeine Idee, übersehen aber winzige Details. Sie sehen das Bild einer Leiterplatte und sagen: „Ja, das ist eine Leiterplatte.“ Aber bittet man sie, die Seriennummer auf einem winzigen Kondensator zu lesen, wird oft nur geraten. Dies war ein massiver Engpass, der komplexe visuelle Aufgaben in ein Glücksspiel verwandelte.

Googles Gemini Agentic Vision schickt sich an, das zu ändern. Es ist eine völlig neue Art und Weise, wie KI mit Bildern interagiert, und verwandelt passives Betrachten in eine aktive, mehrstufige Untersuchung. Dieser Artikel erläutert, was Gemini Agentic Vision ist, welche Schlüsselfunktionen es bietet, wo die aktuellen Grenzen liegen und wie die dahinterstehenden Prinzipien bereits heute reale Auswirkungen in der Geschäftswelt haben.

Ein Vergleich zwischen traditioneller KI-Vision und der aktiven, mehrstufigen Untersuchung von Gemini Agentic Vision.
Ein Vergleich zwischen traditioneller KI-Vision und der aktiven, mehrstufigen Untersuchung von Gemini Agentic Vision.

Was ist Gemini Agentic Vision?

Gemini Agentic Vision ist eine neue Funktion, die im Gemini 3 Flash-Modell integriert ist und die Bildanalyse durch KI grundlegend neu denkt. Anstatt nur hinzusehen und zu raten, kombiniert sie visuelle Schlussfolgerung (Visual Reasoning) mit der Fähigkeit, eigenen Code zu schreiben und auszuführen. Dadurch kann die KI ihre Antworten auf tatsächliche, überprüfbare Beweise stützen, die sie im Bild findet. Laut Google liefert dieser Ansatz eine konsistente Qualitätssteigerung von 5–10 % über die meisten Vision-Benchmarks hinweg, was ein beachtlicher Fortschritt ist.

Im Kern funktioniert dies alles durch eine einfache, aber leistungsstarke Schleife.

Die „Denken, Handeln, Beobachten“-Schleife

Das Geheimnis hinter Agentic Vision ist ein dreistufiger Prozess, der es dem Modell ermöglicht, von einem flüchtigen Blick zu einer detaillierten, iterativen Untersuchung überzugehen. Es ähnelt weniger einem kurzen Blick und mehr einem Detektiv, der einen Tatort untersucht.

Die „Denken, Handeln, Beobachten“-Schleife ermöglicht es Gemini Agentic Vision, Bilder iterativ zu untersuchen und zu analysieren, um genaue Ergebnisse zu erzielen.
Die „Denken, Handeln, Beobachten“-Schleife ermöglicht es Gemini Agentic Vision, Bilder iterativ zu untersuchen und zu analysieren, um genaue Ergebnisse zu erzielen.

So funktioniert es:

  1. Denken (Think): Zuerst analysiert das Modell die Anfrage des Nutzers sowie das Bild und erstellt einen Plan. Es zerlegt das Problem in kleinere, handhabbare Schritte, die es unternehmen kann, um die Antwort zu finden.
  2. Handeln (Act): Als Nächstes wird das Modell aktiv. Es erzeugt und führt Python-Code aus, um das Bild zu manipulieren oder zu analysieren. Das kann bedeuten, einen bestimmten Bereich auszuschneiden, um „heranzuzoomen“, Berechnungen auf Basis der sichtbaren Daten durchzuführen oder sogar Markierungen im Bild vorzunehmen, um den Überblick zu behalten.
  3. Beobachten (Observe): Das neu veränderte Bild (zum Beispiel der herangezoomte Ausschnitt) wird dann zurück in den Kontext des Modells eingespeist. Die KI betrachtet die neuen Beweise, bewertet die Situation neu und entscheidet, ob sie genügend Informationen für eine Antwort hat oder ob sie zum Schritt „Denken“ zurückkehren und tiefer graben muss.

Diese Schleife wird so lange fortgesetzt, bis das Modell sicher ist, die richtige Antwort gefunden zu haben. Dies macht den gesamten Prozess präziser und reduziert das Raten erheblich.

Schlüsselfunktionen und Anwendungsfälle von Gemini Agentic Vision

Dieser neue agentische (agentic) Ansatz ist nicht nur eine kleine Optimierung; er ermöglicht leistungsstarke Funktionen, die weit über einfache Bildbeschreibungen hinausgehen. Schauen wir uns einige der interessantesten Anwendungsfälle an, die Google präsentiert hat.

Dynamisches Zoomen und Inspektion

Haben Sie jemals versucht, das Kleingedruckte auf einem unscharfen Foto zu lesen? Genau damit hatte KI jahrelang zu kämpfen. Gemini Agentic Vision löst dieses Problem mit dem sogenannten dynamischen Zoomen (Dynamic Zooming).

Das Modell kann nun eigenständig entscheiden, an winzige Details „heranzuzoomen“, indem es Code generiert, der einen spezifischen Teil eines Bildes ausschneidet. Dies ist ein riesiger Vorteil für Aufgaben, die Präzision erfordern, da es verhindert, dass die KI bei Seriennummern, entferntem Text oder komplexen Mustern einfach rät.

Ein hervorragendes Praxisbeispiel ist die Nutzung durch PlanCheckSolver.com. Sie speisen hochauflösende Baupläne in das Modell ein, und dieses inspiziert iterativ verschiedene Abschnitte – wie Dachkanten, Fensterplatzierungen und Stützbalken –, um zu prüfen, ob sie komplexen Baunormen entsprechen. Allein dieser Vorgang des Zoomens hat ihre Genauigkeit bereits um 5 % verbessert.

Interaktive Bildannotation

Um etwas Komplexes zu verstehen, muss man es manchmal markieren. Man kreist Dinge ein, zeichnet Pfeile oder macht sich Notizen. Gemini Agentic Vision kann dies nun ebenfalls tun, indem es Code verwendet, um direkt in ein Bild zu zeichnen. Es ist, als hätte die KI einen visuellen Notizblock, um ihre Gedankengänge zu strukturieren.

Dies hilft dabei, die Logik auf dem zu basieren, was tatsächlich zu sehen ist, was Fehler drastisch reduziert. Ein klassischer KI-Fehler ist beispielsweise das falsche Zählen von Objekten in einem belebten Bild. In einer Demo wurde die Gemini-App gebeten, die Finger an einer Hand zu zählen. Anstatt nur eine Zahl auszugeben, zeichnete sie nacheinander einen Begrenzungsrahmen (Bounding Box) und eine Nummerierung auf jeden einzelnen Finger. Das macht den Prozess transparent und vor allem korrekt. Keine Hände mit sechs Fingern mehr.

Reddit
Sie haben den 'Hand-Trick' wirklich persönlich genommen, lol.

Visuelle Mathematik und Datenvisualisierung

Eine dichte Tabelle oder ein kompliziertes Diagramm zu betrachten und Erkenntnisse daraus zu gewinnen, kann sowohl für Menschen als auch für KI schwierig sein. Gemini Agentic Vision kann diese Daten nun aus einem Bild extrahieren, Python nutzen, um Berechnungen durchzuführen, und sogar völlig neue Diagramme erstellen, um die Ergebnisse zu visualisieren.

Indem die eigentliche Rechenarbeit in eine Programmierumgebung ausgelagert wird, umgeht die KI das häufige Problem, dass große Sprachmodelle (LLMs) bei mehrstufigen Matheaufgaben „halluzinieren“ oder Antworten erfinden. In einem Beispiel einer Demo-App wurde dem Modell eine Leistungstabelle gezeigt. Es extrahierte die Rohdaten, nutzte Code zur Normalisierung und erstellte anschließend mit Matplotlib ein professionelles Balkendiagramm, um die Ergebnisse übersichtlich zu präsentieren.

So starten Sie mit Gemini Agentic Vision

Wenn Sie Entwickler sind oder in einem Team arbeiten, das diese Funktion ausprobieren möchte, gibt es gute Nachrichten: Google hat Gemini Agentic Vision über seine wichtigsten KI-Plattformen leicht zugänglich gemacht.

Verfügbarkeit auf Plattformen

Sie finden diese neue Funktion an verschiedenen Stellen, je nach Anforderung:

  • Für Entwickler: Verfügbar in der Gemini API über Google AI Studio und Vertex AI.
  • Für Endnutzer: Die Funktion wird schrittweise in der Gemini-App eingeführt. Sie können darauf zugreifen, indem Sie das „Thinking“-Modell wählen.

Wenn Sie die Funktion einfach nur in Aktion sehen möchten, ohne Code zu schreiben, können Sie sich die offizielle Demo direkt in Google AI Studio ansehen.

Implementierung über die Gemini API

Für diejenigen, die damit Anwendungen bauen möchten, ist die Einrichtung überraschend einfach. Sie müssen lediglich die „Code Execution“ (Code-Ausführung) in der Tool-Konfiguration aktivieren, wenn Sie den API-Aufruf tätigen.

Hier ist ein Beispiel für ein Python-Code-Snippet aus der Google-Entwicklerdokumentation. Es zeigt, wie unkompliziert es ist, das Modell zu bitten, in ein Bild heranzuzoomen.

from google import genai
from google.genai import types

client = genai.Client()

image = types.Part.from_uri(
    file_uri="https://goo.gle/instrument-img",
    mime_type="image/jpeg",
)

response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents=[image, "Zoome auf die Effektpedale und sage mir, wie viele Pedale dort sind?"],
    config=types.GenerateContentConfig(
        tools=[types.Tool(code_execution=types.ToolCodeExecution)]
    ),
)

print(response.text)

Wie Sie sehen, müssen Sie der KI nicht sagen, wie sie zoomen soll; Sie aktivieren einfach das Tool, und das Modell erledigt den Rest.

Aktuelle Einschränkungen von Gemini Agentic Vision und die Zukunft der agentischen KI

Obwohl Gemini Agentic Vision ein gewaltiger Fortschritt ist, stehen wir noch am Anfang. Es ist wichtig zu wissen, was das System noch nicht leisten kann und wie es in den breiteren Trend der agentischen KI (Agentic AI) passt, der bereits heute die Arbeitsweise von Unternehmen verändert.

Was kommt als Nächstes für Gemini Agentic Vision?

Google hat offen über die aktuellen Grenzen und die nächsten Schritte gesprochen, wie in ihrer Ankündigung dargelegt:

  • Implizite Verhaltensweisen: Derzeit ist die Zoom-Funktion recht intuitiv, aber andere Aktionen wie das Drehen eines Bildes oder visuelle Mathematik erfordern oft noch eine direkte Aufforderung durch den Nutzer. Googles Ziel ist es, all diese Verhaltensweisen vollständig implizit zu machen, sodass das Modell von selbst weiß, was zu tun ist.
  • Erweiterung der Tools: Das aktuelle Toolkit konzentriert sich auf Bildmanipulation und Datenanalyse. Google plant jedoch, weitere Werkzeuge wie die Websuche und die Rückwärtssuche von Bildern hinzuzufügen, um das System noch leistungsfähiger zu machen.
  • Modellverfügbarkeit: Diese Funktion ist derzeit exklusiv für Gemini 3 Flash verfügbar, soll aber künftig auch für andere Gemini-Modellgrößen bereitgestellt werden.

Anwendung agentischer Prinzipien auf Geschäftsabläufe

Die „Denken, Handeln, Beobachten“-Schleife ist ein grundlegendes Konzept, das über die Bildanalyse hinausgeht. Sie ist das Kernprinzip effektiver KI-Agenten in verschiedenen Geschäftskontexten, von der Dokumentenanalyse bis zum Management von Kundensupport-Tickets. Eine für den Kundenservice konzipierte KI folgt beispielsweise einem ähnlichen Prozess. Sie muss zuerst denken, indem sie ein Support-Ticket liest, um das Problem zu verstehen. Dann muss sie handeln, indem sie integrierte Tools nutzt, wie etwa eine Bestellung in Shopify nachschlägt oder ein Ticket in Zendesk taggt. Schließlich muss sie das Ergebnis beobachten, um sicherzustellen, dass die Aktion erfolgreich war, bevor sie eine Antwort sendet. Während Entwickler die Bausteine von Technologien wie Gemini Agentic Vision nutzen können, um maßgeschneiderte Lösungen zu erstellen, bieten einige Plattformen bereits fertige KI-Agenten an, die genau diese Prinzipien anwenden. Ein System wie eesel AI integriert sich beispielsweise in Tools wie Zendesk, Shopify und Confluence und folgt Anweisungen in natürlicher Sprache, um Probleme autonom zu lösen.

Der eesel AI Agent wendet agentische Prinzipien an, ähnlich wie Gemini Agentic Vision, um Support-Tickets in Plattformen wie Zendesk autonom zu lösen.
Der eesel AI Agent wendet agentische Prinzipien an, ähnlich wie Gemini Agentic Vision, um Support-Tickets in Plattformen wie Zendesk autonom zu lösen.

Gemini 3 Flash Preise für Gemini Agentic Vision

Es ist wichtig zu beachten, dass Gemini Agentic Vision eine Funktion des Gemini 3 Flash-Modells ist. Der Zugriff unterliegt den Standard-API-Preisen für dieses Modell, die Sie auf der offiziellen Vertex AI Preisseite finden.

Hier ist eine kurze Übersicht der Kosten:

ModellTypPreis pro 1 Mio. Token
Gemini 3 Flash PreviewInput (Text, Bild, Video)0,50 $
Text-Output (Antwort und Begründung)3,00 $

Um diese Funktionen in einem visuelleren Format zu sehen, schauen Sie sich diesen Deep Dive an, der erklärt, wie Agentic Vision funktioniert und was es für die Zukunft der KI bedeutet.

Ein tiefer Einblick in die neuen Funktionen und Möglichkeiten des Google Gemini Agentic Vision Updates.

Der Wandel hin zu aktiven Agenten

Gemini Agentic Vision markiert einen bedeutenden Wendepunkt in der KI-Entwicklung. Wir bewegen uns weg von Modellen, die nur passiv beschreiben, was sie sehen, hin zu aktiven Agenten, die visuelle Informationen untersuchen, manipulieren und wirklich darüber nachdenken können. Dabei geht es nicht nur darum, KI besser darin zu machen, Bilder zu betrachten; es ist Teil eines viel größeren Trends hin zu agentischen Systemen (Agentic Systems), die Werkzeuge nutzen können, um komplexe, mehrstufige Probleme in jedem Unternehmensbereich zu lösen.

Während Entwickler bereits heute mit diesen leistungsstarken neuen Funktionen arbeiten können, müssen Unternehmen nicht warten, um diese Prinzipien anzuwenden. Sie können bereits jetzt auf fertige agentische Systeme zurückgreifen. Um zu sehen, wie ein KI-Teamkollege Ihren Kundenservice und andere Geschäftsabläufe autonom bearbeiten kann, testen Sie eesel AI kostenlos.

Häufig gestellte Fragen

Der größte Vorteil ist die Genauigkeit. Indem die KI eigenen Code schreibt und ausführt, um Bilder zu inspizieren (z. B. Details heranzoomen), stützt sie ihre Antworten auf echte Beweise anstatt nur zu raten. Dies führt zu einer Verbesserung von 5–10 % bei den meisten visuellen Aufgaben.
Es ist ein dreistufiger Prozess. Zuerst denkt die KI nach, indem sie einen Plan erstellt, um eine Anfrage zu beantworten. Dann handelt sie, indem sie Code ausführt, um das Bild zu analysieren (z. B. Zuschneiden oder Annotieren). Schließlich beobachtet sie das Ergebnis und entscheidet, ob sie genügend Informationen hat oder die Schleife wiederholen muss.
Noch nicht. Derzeit ist es eine exklusive Funktion des Modells Gemini 3 Flash. Google hat angekündigt, sie in Zukunft auch für andere Gemini-Modelle einzuführen.
Es eignet sich hervorragend für alle Aufgaben, die eine hohe visuelle Präzision erfordern. Beispiele sind die Analyse detaillierter Baupläne auf Einhaltung von Vorschriften, das genaue Zählen von Objekten in einem unübersichtlichen Bild oder das Extrahieren und Berechnen von Daten aus Diagrammen und Tabellen.
Ja. Sie können eine Demo direkt in Google AI Studio in Aktion sehen. Die Funktion wird auch in der verbraucherorientierten Gemini-App eingeführt, wo Sie darauf zugreifen können, indem Sie das „Thinking“-Modell auswählen.
Es befindet sich noch in einem frühen Stadium. Einige Aktionen, wie das Drehen eines Bildes, erfordern noch eine direkte Aufforderung durch den Nutzer. Zudem konzentriert sich das Toolset derzeit auf Bildmanipulation und Datenanalyse; Funktionen wie die Websuche sollen später hinzugefügt werden.

Diesen Beitrag teilen

Stevia undefined

Article by

Stevia Putri

Stevia Putri is a marketing generalist at eesel AI, where she helps turn powerful AI tools into stories that resonate. She’s driven by curiosity, clarity, and the human side of technology.