Una visión general de Gemini Agentic Vision: Cómo funciona y qué significa para la IA

Stevia Putri

Stanley Nicholas
Last edited 30 enero 2026
Expert Verified
Durante mucho tiempo, los modelos de IA han observado las imágenes como una persona que echa un vistazo rápido a una foto: captan la idea general pero pierden los detalles minúsculos. Ven una imagen de una placa de circuito y dicen: "Sí, es una placa de circuito". Pero si se les pide que lean el número de serie de un condensador diminuto, a menudo simplemente adivinan. Esto ha sido un gran cuello de botella, convirtiendo las tareas visuales complejas en un juego de azar.
Gemini Agentic Vision de Google busca cambiar eso. Es una forma completamente nueva de concebir cómo la IA interactúa con las imágenes, transformando la visualización pasiva en una investigación activa de varios pasos. Este artículo analiza qué es Gemini Agentic Vision, sus capacidades clave, sus limitaciones actuales y cómo los principios que lo sustentan ya están teniendo un impacto real en el mundo empresarial.
¿Qué es Gemini Agentic Vision?
Gemini Agentic Vision es una nueva función integrada en el modelo Gemini 3 Flash que replantea por completo cómo la IA analiza las imágenes. En lugar de limitarse a mirar y adivinar, combina el razonamiento visual con la capacidad de escribir y ejecutar su propio código. Esto le permite fundamentar sus respuestas en evidencia real y verificable que encuentra dentro de la imagen. Según Google, este enfoque ofrece una mejora constante de la calidad del 5-10% en la mayoría de las pruebas de referencia de visión, lo cual es un avance significativo.
En esencia, todo esto funciona gracias a un bucle simple pero potente.
El bucle pensar, actuar, observar
El ingrediente secreto detrás de Agentic Vision es un proceso de tres pasos que permite al modelo pasar de una mirada única y superficial a una investigación iterativa detallada. Se parece menos a un vistazo rápido y más a un detective examinando la escena de un crimen.
Así es como funciona:
- Pensar (Think): Primero, el modelo analiza la solicitud del usuario y la imagen, y elabora un plan. Divide el problema en pasos más pequeños y manejables que puede seguir para encontrar la respuesta.
- Actuar (Act): A continuación, realiza una acción. Genera y ejecuta código Python para manipular o analizar la imagen. Esto podría significar recortar un área específica para "hacer zoom", realizar cálculos sobre los datos que ve o incluso dibujar sobre la imagen para realizar un seguimiento de los elementos.
- Observar (Observe): La imagen recién modificada (por ejemplo, el recorte con zoom) se vuelve a introducir en el contexto del modelo. Este observa la nueva evidencia y reevalúa la situación, decidiendo si tiene suficiente información para responder o si necesita volver al paso "Pensar" e investigar más a fondo.
Este bucle continúa hasta que el modelo confía en haber encontrado la respuesta correcta, lo que hace que todo el proceso sea más preciso y dependa mucho menos de las conjeturas.
Capacidades clave y casos de uso de Gemini Agentic Vision
Este nuevo enfoque agéntico no es solo un pequeño ajuste; desbloquea capacidades seriamente potentes que van mucho más allá de las simples descripciones de imágenes. Profundicemos en algunos de los casos de uso más interesantes que Google ha mostrado.
Zoom e inspección dinámicos
¿Alguna vez ha intentado leer la letra pequeña en una foto borrosa? A eso se ha enfrentado la IA durante años. Gemini Agentic Vision aborda esto con lo que denomina zoom dinámico.
El modelo ahora puede decidir por sí mismo "hacer zoom" en detalles minúsculos generando código que recorta una parte específica de una imagen. Esto es fundamental para tareas que requieren precisión, ya que evita que la IA simplemente adivine cuando ve cosas como números de serie, texto distante o patrones intrincados.
Un excelente ejemplo del mundo real es cómo lo está utilizando PlanCheckSolver.com. Introducen planos de construcción de alta resolución en el modelo, y este inspecciona iterativamente diferentes secciones, como los bordes del techo, la ubicación de las ventanas y las vigas de soporte, para verificar si cumplen con los complejos códigos de edificación. Este simple acto de hacer zoom ya ha mejorado su precisión en un 5%.
Anotación interactiva de imágenes
A veces, para entender algo complejo, es necesario marcarlo. Puede que rodee elementos con un círculo, dibuje flechas o tome notas rápidas. Gemini Agentic Vision ahora puede hacer lo mismo utilizando código para dibujar directamente sobre una imagen. Es como darle a la IA un bloc de notas visual para desarrollar su razonamiento.
Esto ayuda a fundamentar su lógica en lo que realmente ve, lo que reduce drásticamente los errores. Por ejemplo, un fallo común de la IA es contar mal los objetos en una imagen saturada. En una demostración, se le pidió a la aplicación Gemini que contara los dedos de una mano. En lugar de limitarse a dar un número, dibujó un cuadro delimitador y una etiqueta numérica en cada dedo, uno por uno. Esto hace que su proceso sea transparente y, lo que es más importante, correcto. Se acabaron las manos de seis dedos.
Matemáticas visuales y trazado de datos
Observar una tabla densa o un gráfico complicado e intentar extraer información puede ser difícil tanto para los humanos como para la IA. Gemini Agentic Vision ahora puede analizar esos datos de una imagen, luego usar Python para realizar cálculos e incluso generar gráficos completamente nuevos para visualizar lo que encontró.
Al delegar el procesamiento numérico real a un entorno de programación, evita el problema común de que los modelos de lenguaje de gran tamaño (LLM) tengan "alucinaciones" o inventen respuestas durante problemas matemáticos de varios pasos. En un ejemplo de aplicación de demostración, se le mostró al modelo una tabla de rendimiento. Extrajo los números brutos, usó código para normalizar los datos y luego generó un gráfico de barras de aspecto profesional con Matplotlib para presentar los hallazgos de una manera limpia y fácil de entender.
Cómo empezar con Gemini Agentic Vision
Si usted es desarrollador o forma parte de un equipo con ganas de experimentar con esto, la buena noticia es que Google ha hecho que Gemini Agentic Vision sea bastante accesible a través de sus principales plataformas de IA.
Disponibilidad de la plataforma
Puede encontrar esta nueva capacidad en algunos lugares clave, dependiendo de su perfil:
- Para desarrolladores: Está disponible en la API de Gemini a través de Google AI Studio y Vertex AI.
- Para consumidores: Se está implementando gradualmente en la aplicación Gemini. Puede acceder a ella eligiendo el modelo "Thinking" (Pensamiento).
Si solo desea verlo en acción sin escribir código, puede consultar la demostración oficial directamente en Google AI Studio.
Implementación a través de la API de Gemini
Para aquellos que quieran construir con ella, ponerla en marcha es sorprendentemente sencillo. Todo lo que tiene que hacer es activar la "Ejecución de código" (Code Execution) en la configuración de herramientas cuando realice su llamada a la API.
Aquí tiene el fragmento de código Python de ejemplo de la documentación para desarrolladores de Google. Muestra lo sencillo que es pedirle al modelo que haga zoom en una imagen.
from google import genai
from google.genai import types
client = genai.Client()
image = types.Part.from_uri(
file_uri="https://goo.gle/instrument-img",
mime_type="image/jpeg",
)
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents=[image, "Zoom into the expression pedals and tell me how many pedals are there?"],
config=types.GenerateContentConfig(
tools=[types.Tool(code_execution=types.ToolCodeExecution)]
),
)
print(response.text)
Como puede ver, no tiene que decirle cómo hacer zoom; simplemente habilita la herramienta y el modelo se encarga del resto.
Limitaciones actuales de Gemini Agentic Vision y el futuro de la IA agéntica
Aunque Gemini Agentic Vision es un paso de gigante, todavía estamos en los inicios. Es importante saber qué es lo que aún no puede hacer y ver cómo encaja esto en la tendencia más amplia de la IA agéntica que ya está cambiando la forma en que operan las empresas.
Qué sigue para Gemini Agentic Vision
Google ha sido transparente sobre las limitaciones actuales y en qué están trabajando a continuación, como se detalla en su anuncio:
- Comportamientos implícitos: Actualmente, la función de zoom es bastante intuitiva, pero otras acciones como rotar una imagen o realizar matemáticas visuales a menudo necesitan una instrucción directa del usuario. El objetivo de Google es hacer que todos estos comportamientos sean completamente implícitos, para que el modelo simplemente sepa qué hacer.
- Expansión de herramientas: El conjunto de herramientas actual se centra en la manipulación de imágenes y el análisis de datos, pero Google planea añadir más herramientas, como la búsqueda web y la búsqueda inversa de imágenes, para hacerlo aún más potente.
- Disponibilidad del modelo: Esta capacidad es actualmente exclusiva de Gemini 3 Flash, pero el plan es llevarla a otros tamaños de modelos de Gemini en el futuro.
Aplicación de principios agénticos a los flujos de trabajo empresariales
El bucle "pensar, actuar, observar" es un concepto fundamental que se extiende más allá del análisis de imágenes. Es el principio básico detrás de los agentes de IA eficaces en diversos contextos empresariales, desde el análisis de documentos hasta la gestión de tickets de soporte al cliente. Una IA diseñada para el servicio al cliente, por ejemplo, sigue un proceso similar. Primero debe pensar leyendo un ticket de soporte para comprender el problema. Luego, debe actuar utilizando herramientas integradas, como buscar un pedido en Shopify o etiquetar un ticket en Zendesk. Finalmente, debe observar el resultado para confirmar que la acción fue exitosa antes de enviar una respuesta. Mientras que los desarrolladores pueden usar los bloques de construcción de tecnologías como Gemini Agentic Vision para crear soluciones personalizadas, algunas plataformas ofrecen agentes de IA preconfigurados que aplican estos mismos principios. Por ejemplo, un sistema como eesel AI se integra con herramientas como Zendesk, Shopify y Confluence, siguiendo instrucciones en lenguaje natural para resolver problemas de forma autónoma.

Precios de Gemini 3 Flash para Gemini Agentic Vision
Es importante recordar que Gemini Agentic Vision es una función del modelo Gemini 3 Flash. El acceso a la misma está sujeto a los precios estándar de la API para ese modelo, que puede encontrar en la página oficial de precios de Vertex AI.
Aquí tiene un desglose rápido de cómo se ve eso:
| Modelo | Tipo | Precio por 1M de tokens |
|---|---|---|
| Gemini 3 Flash Preview | Entrada (texto, imagen, vídeo) | $0.50 |
| Salida de texto (respuesta y razonamiento) | $3.00 |
Para ver estas capacidades demostradas en un formato más visual, consulte este análisis profundo sobre cómo funciona Agentic Vision y qué significa para el futuro de la IA.
Un análisis profundo de las nuevas funciones y capacidades de la actualización Gemini Agentic Vision de Google.
El cambio hacia los agentes activos
Gemini Agentic Vision marca un gran cambio en la IA. Nos estamos alejando de los modelos que simplemente describen de forma pasiva lo que ven y nos acercamos a agentes activos que pueden investigar, manipular y razonar verdaderamente sobre la información visual. No se trata solo de hacer que la IA sea mejor mirando imágenes; es parte de una tendencia mucho mayor hacia sistemas agénticos que pueden usar herramientas para resolver problemas complejos de varios pasos en cualquier función empresarial.
Aunque los desarrolladores pueden empezar a construir con estas potentes capacidades nuevas hoy mismo, las empresas no tienen que esperar para poner estos principios a trabajar. Puede aprovechar sistemas agénticos listos para usar ahora mismo. Para ver cómo un compañero de equipo de IA puede gestionar de forma autónoma su servicio al cliente y otros flujos de trabajo empresariales, pruebe eesel AI gratis.
Preguntas frecuentes
Compartir esta entrada

Article by
Stevia Putri
Stevia Putri is a marketing generalist at eesel AI, where she helps turn powerful AI tools into stories that resonate. She’s driven by curiosity, clarity, and the human side of technology.



