¿Qué es Gemma 4? La familia de modelos de IA abiertos de Google, explicada

Alicia Kirana Utomo
Escrito por

Alicia Kirana Utomo

Katelin Teen
Revisado por

Katelin Teen

Última edición June 19, 2026

Verificado por expertos
Ilustración de Google Gemma 4, la familia de modelos de IA de pesos abiertos, ejecutándose en un portátil y un servidor local

¿Qué es exactamente Gemma 4?

Construyo los agentes de IA en eesel, y he pasado los últimos años viendo cómo los modelos abiertos han pasado de "divertidos para experimentar" a "suficientemente buenos para poner frente a un cliente de pago". Ejecutamos agentes en colas de soporte en vivo todos los días; un cliente, Smava, procesa más de 100.000 tickets en alemán al mes a través de un agente automatizado. Así que cuando Google lanza un nuevo modelo abierto, lo leo desde una única perspectiva: ¿Realmente podrías confiar en esto para responder a un cliente sin supervisión humana?

Gemma 4 es la respuesta más interesante a esa pregunta que he visto de un modelo abierto.

En términos simples, Gemma es la línea de modelos abiertos de Google DeepMind: los primos más pequeños y descargables de los modelos Gemini cerrados. Gemma 4 está "construido a partir de la misma investigación y tecnología de clase mundial que Gemini 3 para maximizar la inteligencia por parámetro", según el post de lanzamiento de Google. La palabra clave es open-weight: Google publica los archivos reales del modelo, para que puedas ejecutarlos en tu propio portátil, servidor o teléfono sin que ninguna llamada API salga de tu red.

También es multimodal. Cada modelo maneja entrada de texto e imagen, los más pequeños añaden audio nativo, y la ficha del modelo indica un corte de entrenamiento de enero de 2025 con soporte para más de 140 idiomas. Si has leído nuestro artículo sobre RAG versus LLMs, Gemma 4 es la mitad "LLM" de esa imagen: el motor de razonamiento que apuntarías a tu propio conocimiento.

Los cinco tamaños, y cuál es para ti

Gemma 4 no es un modelo, son cinco, ordenados según dónde están destinados a ejecutarse. Esta es la parte que vale la pena entender antes que cualquier otra cosa, porque elegir el tamaño equivocado es el error más común que veo cometer a la gente.

Los cinco tamaños de Gemma 4 mapeados al hardware en el que cada uno se ejecuta, desde teléfonos hasta un servidor de una sola GPU
Los cinco tamaños de Gemma 4 mapeados al hardware en el que cada uno se ejecuta, desde teléfonos hasta un servidor de una sola GPU

Aquí está la alineación, con las especificaciones extraídas directamente de la ficha del modelo:

ModeloParámetros efectivosContextoModalidadesSe ejecuta en
E2B2,3B (5,1B con embeddings)128KTexto, imagen, audioTeléfonos, Raspberry Pi, edge
E4B4,5B (8B con embeddings)128KTexto, imagen, audioTeléfonos de gama alta, IoT
12B Unified11,95B256KTexto, imagen, audioPortátiles (~16 GB)
26B A4B (MoE)25,2B total, 3,8B activos256KTexto, imagenEstación de trabajo, baja latencia
31B Dense30,7B256KTexto, imagenUna H100 de 80 GB, máxima calidad

La "E" en E2B y E4B significa parámetros efectivos. Esos modelos usan un truco llamado Per-Layer Embeddings para mantener pequeño su uso de memoria, lo que permite a un teléfono ejecutarlos sin conexión con latencia casi nula. Google los construyó con el equipo de Pixel más Qualcomm y MediaTek, por lo que están optimizados para silicon móvil real, no solo para una demo.

El Unified de 12B es el recién llegado, añadido el 3 de junio de 2026. Es la opción "lista para portátil" y el primer modelo de tamaño medio de Google con entrada de audio nativa. El Dense de 31B es el buque insignia de calidad pura y la base desde la que todos hacen fine-tuning.

El del medio, el 26B, es el más ingenioso del grupo. Merece su propia sección.

Cómo un modelo de 26B se mantiene al día con modelos 20 veces más grandes

El 26B es un modelo Mixture-of-Experts (MoE), y entenderlo es la mejor manera de comprender por qué Gemma 4 es importante.

Un modelo "denso" normal activa todos los parámetros para cada token que procesa. Un modelo MoE divide sus parámetros en muchos "expertos" pequeños y, para cada token, solo activa el puñado que realmente necesita. Así es su estructura:

Cómo un modelo Mixture-of-Experts enruta cada token a unos pocos expertos, manteniendo bajos los parámetros activos
Cómo un modelo Mixture-of-Experts enruta cada token a unos pocos expertos, manteniendo bajos los parámetros activos

El 26B de Gemma 4 tiene 25,2B parámetros totales pero solo 3,8B activos por token, enrutando a través de 8 de sus 128 expertos más un experto compartido. El resultado práctico: se ejecuta aproximadamente tan rápido como un modelo denso de 4B, pero responde con una calidad más cercana al 31B. (Un aviso a tener en cuenta: los 25,2B parámetros aún deben cargarse en memoria para el enrutamiento, así que MoE ahorra cómputo, no RAM.)

¿Por qué importa esto? Porque rompe la vieja suposición de que "más inteligente" significa "más grande y más lento". Mira dónde aterrizan los modelos medianos de Gemma 4 en el propio gráfico de rendimiento versus tamaño de Google:

El 31B y 26B de Gemma 4 en la frontera rendimiento-vs-tamaño, por delante de modelos mucho más grandes, como se compartió en el anuncio de Google
El 31B y 26B de Gemma 4 en la frontera rendimiento-vs-tamaño, por delante de modelos mucho más grandes, como se compartió en el anuncio de Google
Rendimiento de modelo abierto vs. tamaño en la arena de chat de Arena.ai, publicado por Google DeepMind.

El 31B es el modelo abierto #3 en la clasificación de texto de Arena AI, y el 26B MoE ocupa el #6, que es como Google puede afirmar que Gemma 4 "supera a modelos 20 veces su tamaño". Para un equipo de soporte, la conclusión no es la posición en la clasificación, sino que esa calidad cabe en hardware que tú controlas.

Qué significa realmente "pesos abiertos" (y por qué cambió la licencia)

La gente usa "abierto" de forma imprecisa, así que seré preciso, porque aquí es donde Gemma 4 hizo su mayor movimiento.

Los modelos Gemma anteriores se distribuían bajo unos "Términos de Uso de Gemma" personalizados. Gemma 4 cambió a una licencia estándar Apache 2.0. En palabras de Google, es "comercialmente permisiva" y otorga "control completo sobre tus datos, infraestructura y modelos". El CEO de Hugging Face, Clément Delangue, calificó el movimiento de "un gran hito".

Esta es la diferencia que supone esa licencia en la práctica:

Modelo de API cerrado enviando datos de clientes a servidores del proveedor versus modelo de pesos abiertos manteniéndolos en tu propia infraestructura
Modelo de API cerrado enviando datos de clientes a servidores del proveedor versus modelo de pesos abiertos manteniéndolos en tu propia infraestructura

Con un modelo de API cerrado, cada mensaje de cliente que procesas se envía a los servidores del proveedor. Con un modelo de pesos abiertos bajo Apache 2.0, puedes ejecutar todo dentro de tu propia infraestructura, en las instalaciones o en tu propia nube, y los datos nunca salen. Para cualquiera en una industria regulada, ese control de residencia de datos es la única razón para preocuparse por los modelos abiertos. Es la misma razón por la que la gente recurre a sistemas de ticketing de código abierto y plataformas de chatbot de código abierto.

Para escalarlo, Google ofrece Gemma 4 en Vertex AI, Cloud Run y GKE, y funciona desde el primer día con las herramientas que ya usan los self-hosters, como Ollama, llama.cpp, vLLM y LM Studio.

Los benchmarks, y dónde brilla realmente Gemma 4

Ahora los números. Google publica una tabla completa de benchmarks comparando los modelos Gemma 4 con ajuste de instrucciones frente al Gemma 3 27B de la generación anterior:

Tabla de benchmarks de Gemma 4 en MMMLU, AIME, GPQA, LiveCodeBench y uso agéntico de herramientas, versus Gemma 3 27B
Tabla de benchmarks de Gemma 4 en MMMLU, AIME, GPQA, LiveCodeBench y uso agéntico de herramientas, versus Gemma 3 27B
Resultados de benchmark con ajuste de instrucciones, publicados en los materiales de Gemma 4 de Google.

La línea que yo marcaría es el uso agéntico de herramientas. En el benchmark τ2-bench retail, que prueba si un modelo puede llamar herramientas para completar una tarea, el modelo de 31B obtiene un 86,4% frente al 6,6% de Gemma 3. Eso no es una mejora incremental, es un salto generacional, y es la capacidad que convierte un chatbot en algo que puede hacer trabajo real.

También se mantiene frente a los gigantes cerrados. En Arena Elo, el 31B con 1452 queda justo por detrás de modelos con 15–35 veces más parámetros:

Gráfico de barras Arena Elo: Gemma 4 31B en 1452 junto a modelos mucho más grandes como Glm 5, Kimi k2.5 y Qwen 3.5
Gráfico de barras Arena Elo: Gemma 4 31B en 1452 junto a modelos mucho más grandes como Glm 5, Kimi k2.5 y Qwen 3.5
Puntuaciones Arena Elo frente a recuentos de parámetros, vía Hugging Face.

Arquitectónicamente, la nota interesante del análisis de Sebastian Raschka es que Gemma 4 está "prácticamente sin cambios" frente a Gemma 3 bajo el capó, por lo que el salto es "probablemente debido al conjunto de entrenamiento y la receta". En otras palabras, Google obtuvo este salto de mejores datos, no de una nueva arquitectura, lo cual es algo silenciosamente impresionante.

Cómo es ejecutarlo en la práctica

Los benchmarks son una cosa. ¿Qué dicen realmente las personas que ejecutan Gemma 4 todos los días? Lo busqué en las comunidades de modelos locales, porque ahí es donde viven las opiniones sin filtros.

El elogio es consistente: es rápido, ligero en memoria y no divaga.

"Rápido como el demonio en un M4Max, y maldita sea lo inteligente que es para su velocidad. No destruye tu carga de memoria. No razona durante horas (y se come todo el presupuesto de tokens en el razonamiento) como Qwen... Es perfecto para openclaw, hermes, claude code, etc. AMO este modelo para local. Es mi modelo preferido ahora." – u/styles01 en r/LocalLLaMA

El punto "no razona durante horas" aparece una y otra vez. Un self-hoster que ejecuta el 26B y el 31B para un caso de uso multimodal puso números reales, reportando aproximadamente 149 tokens/seg en el 31B y 88 en el 26B, y añadiendo que "los benchmarks realmente no capturan lo poco que divaga en comparación con los más grandes".

Pero aquí está la limitación honesta, y es la razón por la que no pondría Gemma 4 crudo en una cola en vivo sin supervisión:

"Estoy de acuerdo en que es mucho mejor en todo excepto en el coding. [...] Sin embargo, sufre mucho cuando los pesos o la caché kv son cualquier otra cuantización que no sea la nativa." – u/fragment_me en r/LocalLLM

Así que la lectura de la comunidad es esta: Gemma 4 es un excelente modelo de chat y seguimiento de instrucciones que rinde muy por encima de su peso, con dos advertencias: el coding y los flujos agénticos son sus áreas más débiles, y se degrada notablemente si se ejecuta con una cuantización diferente a la nativa. Bueno saberlo antes de elegirlo para un trabajo.

Lo que esto significa para el soporte al cliente

Aquí es donde se vuelve práctico para cualquiera que dirija un equipo de soporte. Un modelo abierto como Gemma 4 es un ingrediente fantástico. Por sí solo, no es un agente de soporte.

Un modelo crudo no sabe cuál es tu política de devoluciones, no puede ver tus tickets anteriores y no está conectado a tu helpdesk. Ponerlo frente a clientes sin supervisión produce exactamente el modo de fallo contra el que llevamos años trabajando: un bot que suena seguro pero da silenciosamente la respuesta equivocada. El modelo es el motor; el producto real es todo lo que lo rodea: el conocimiento, el enrutamiento seguro, la conexión con tus herramientas y la capacidad de probarlo antes de que salga al aire.

Esa brecha es la razón por la que existen plataformas como la nuestra. El movimiento de pesos abiertos te da control sobre la capa del modelo, pero la mayoría de los equipos de soporte no quieren convertirse también en un equipo de ML ops. La mejor respuesta para la mayoría de las personas es obtener los beneficios de control de datos y aprendizaje sin construir la infraestructura a mano, que es la línea que trazaría entre un modelo y una plataforma de atención al cliente con IA.

Prueba eesel para soporte con IA

Si leer sobre Gemma 4 te hizo pensar "quiero que la IA responda mis tickets, pero en mis términos", ese es exactamente el problema para el que fue creado eesel.

El agente de helpdesk de IA de eesel se conecta a las herramientas que ya usas, Zendesk, Freshdesk, Gorgias, Slack y más de 100 otras, y aprende de tus tickets e historial de ayuda desde el primer día, para que años de historial se conviertan en conocimiento inmediatamente. La parte que se mapea directamente a la pregunta "¿podrías confiar en él?" con la que abrí: puedes simular el agente contra miles de tus tickets históricos para ver exactamente cómo habría respondido, antes de que un solo cliente lo vea. Así es como Gridwise resolvió el 73% de las solicitudes de nivel 1 en su primer mes.

Panel de control de helpdesk de IA de eesel mostrando herramientas de soporte conectadas y actividad de tickets
Panel de control de helpdesk de IA de eesel mostrando herramientas de soporte conectadas y actividad de tickets

Es basado en uso, desde $0,40 por ticket sin cuotas por asiento, y puedes empezar con $50 de uso gratuito sin tarjeta de crédito. Sea cual sea el modelo bajo el capó, Gemma 4 o cualquier otro, lo que realmente quieres es un agente en el que puedas confiar en tu cola. Prueba eesel y ve cómo gestiona la tuya.

Preguntas Frecuentes

¿Qué es Gemma 4?
Gemma 4 es la familia de modelos de IA de pesos abiertos de Google DeepMind, lanzada el 2 de abril de 2026. A diferencia de un modelo solo con API, se descargan los pesos reales y se ejecutan en hardware propio, desde un teléfono hasta un servidor con una sola GPU. Viene en cinco tamaños y está diseñado para el razonamiento y los flujos de trabajo agénticos.
¿Es Gemma 4 gratuito?
Los pesos se pueden descargar gratis y la licencia es Apache 2.0, que es comercialmente permisiva, por lo que no hay tarifa de licencia por token. El único coste es la infraestructura en la que se ejecuta. Eso es un gran cambio respecto a cómo se cobran la mayoría de los LLMs.
¿Cuáles son los tamaños de los modelos Gemma 4?
Hay cinco: E2B y E4B para teléfonos y dispositivos edge, un modelo Unified de 12B para portátiles, un modelo Mixture-of-Experts de 26B optimizado para baja latencia y un modelo Dense insignia de 31B. La ficha del modelo lista las especificaciones completas de cada uno.
¿Puede Gemma 4 ejecutarse en un portátil o teléfono?
Sí. Los modelos E2B y E4B se ejecutan completamente sin conexión en teléfonos y dispositivos como una Raspberry Pi, y el modelo Unified de 12B está diseñado para caber en un portátil con 16 GB de memoria. Los usuarios de r/LocalLLaMA reportan que el 26B corre rápido en un Mac de 64 GB.
¿Es Gemma 4 bueno para la atención al cliente?
Un modelo abierto proporciona una base sólida, pero un agente de soporte en producción necesita más que pesos crudos: tiene que aprender de los tickets, enrutar de forma segura y conectarse con el helpdesk. Una plataforma como el agente de helpdesk de IA de eesel se encarga de esa capa para que se obtenga el control del self-hosting sin tener que construir la fontanería. Descubre cómo los equipos reducen costes de soporte con IA.

Share this article

Alicia Kirana Utomo

Article by

Alicia Kirana Utomo

Kira is a writer at eesel AI with a Computer Science background and over a year of hands-on experience evaluating AI-powered customer service tools. She focuses on breaking down how helpdesk platforms and AI agents actually work so that support teams can make better buying decisions.

Related Posts

All posts →
Ilustración de un compañero de soporte IA gestionando conversaciones B2B SaaS entre dos clientes
AI

Soporte con IA para B2B SaaS: qué funciona realmente en 2026

Los tickets de B2B SaaS son técnicos, específicos por cuenta y de alto riesgo. Así es como el soporte con IA funciona realmente para ellos, qué falla y cómo implementarlo de forma segura.

Riellvriany IndriawanRiellvriany IndriawanJun 19, 2026
Ilustración editorial de Claude Opus 4.8 para uso empresarial
AI

Claude Opus 4.8 para empresas: qué cambia y qué no

Claude Opus 4.8 es el modelo insignia de Anthropic. Una lectura práctica desde la perspectiva del operador: qué significa para su empresa, qué cuesta y dónde se queda corto.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Ilustración de tokens de texto desordenados que se resuelven en texto limpio y legible, representando el eliminado de ruido en paralelo de DiffusionGemma
AI

¿Qué es DiffusionGemma? El LLM de difusión de pesos abiertos de Google, explicado

DiffusionGemma es el modelo de difusión de texto de pesos abiertos de Google: un Mixture-of-Experts de 26B que escribe bloques enteros de texto en paralelo para una generación hasta 4 veces más rápida.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Ilustracion de ruido disperso y bloques enmascarados que se resuelven en lineas limpias de texto, con un cronometro que indica velocidad
AI

Modelos de IA basados en difusion explicados: como funcionan y por que de repente son rapidos

Una guia clara sobre los modelos de IA basados en difusion: en que se diferencian de los LLM autorregresivos, por que generan texto 10 veces mas rapido y que significa eso para las empresas.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Un maletín abierto del que se derraman documentos, hojas de cálculo, correos electrónicos y mensajes de chat mientras una figura de IA los califica en una tarjeta de puntuación
AI

¿Qué es AA-Briefcase? El benchmark de IA para el trabajo del conocimiento real, explicado

AA-Briefcase es el nuevo benchmark de Artificial Analysis que pone a prueba la IA en proyectos de oficina reales de varias semanas. Esto es lo que mide, quién lidera y qué significa para la IA en el trabajo.

Alicia Kirana UtomoAlicia Kirana UtomoJun 22, 2026
Ilustración de una sesión de programación que publica un artefacto de dashboard en un enlace compartible
AI

¿Qué son los artefactos de Claude Code? Una guía clara para 2026

Los artefactos de Claude Code convierten una sesión de programación en una página web activa y compartible. Esto es lo que son, cómo funcionan y en qué se diferencian de los artefactos de chat.

Alicia Kirana UtomoAlicia Kirana UtomoJun 21, 2026
Palmier, el editor de video nativo con IA, con generacion de IA integrada en la linea de tiempo
AI

¿Qué es Palmier? El editor de video con IA que tus agentes pueden manejar

Palmier es un editor de video con IA nativo para Mac donde la generación vive en la línea de tiempo y agentes como Claude pueden editar tu corte directamente. Esto es lo que realmente hace.

Rama Adi NugrahaRama Adi NugrahaJun 19, 2026
Banner ilustrado para un artículo explicativo sobre el acceso gratuito a OpenAI Codex, con motivos de terminal y editor de código
AI

Acceso gratuito a OpenAI Codex, explicado: qué obtienes realmente por $0

¿Es OpenAI Codex gratuito? Sí, si inicias sesión con una cuenta gratuita de ChatGPT. Aquí se explica exactamente qué te ofrece el nivel gratuito, dónde está el límite y cuáles son las restricciones.

Alicia Kirana UtomoAlicia Kirana UtomoJun 18, 2026
Ilustración del asistente Siri AI de Apple Intelligence integrado con flujos de trabajo de software empresarial
AI

Apple Intelligence para empresas: lo que realmente hace (y no hace) en 2026

Un análisis objetivo de Apple Intelligence para empresas en 2026: el nuevo Siri AI, el framework gratuito para desarrolladores y dónde deja de ser útil para la atención al cliente.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026

Listo para contratar tu companero de IA?

Configuracion en minutos. Sin tarjeta de credito requerida.

Comienza gratis