¿Qué es GLM-5.2? Una guía clara sobre el modelo abierto de Z.ai

Alicia Kirana Utomo
Escrito por

Alicia Kirana Utomo

Katelin Teen
Revisado por

Katelin Teen

Última edición June 21, 2026

Verificado por expertos
Ilustración editorial de GLM-5.2, el modelo de IA de pesos abiertos de Z.ai

¿Qué es GLM-5.2?

GLM-5.2 es un modelo de lenguaje grande creado por Z.ai, un laboratorio de IA chino que surgió de la Universidad Tsinghua en 2019 y era conocido como Zhipu AI hasta su rebranding internacional en 2025. La empresa salió a bolsa en la Bolsa de Hong Kong en enero de 2026, la primera gran creadora de LLM china en hacerlo, y cuenta con el respaldo de Alibaba, Tencent y Prosperity7 de Arabia Saudita.

Tres cosas hacen que GLM-5.2 merezca atención:

  • Es de pesos abiertos, bajo licencia MIT. Puedes descargar el modelo completo desde Hugging Face y ejecutarlo tú mismo, sin restricciones regionales. Eso es un trato diferente al de Claude o GPT-5, donde solo se alquila acceso a través de una API.
  • Es grande, pero eficiente. GLM-5.2 es un modelo Mixture-of-Experts de 744 mil millones de parámetros (Z.ai lo redondea a 753 mil millones), lo que significa que solo alrededor de 40 mil millones de parámetros están activos para cualquier token dado. Obtienes el conocimiento de un modelo enorme al costo operativo de uno mucho más pequeño.
  • Tiene una ventana de contexto de 1 millón de tokens. Eso es un salto 5x respecto a los 200 000 de GLM-5.1, y es la característica que Z.ai destaca. El punto no es presumir, sino que un agente de coding puede mantener toda una gran base de código en su cabeza a lo largo de una tarea larga.

El eslogan que eligió Z.ai, "Built for Long-Horizon Tasks," te dice el objetivo. Este es un modelo diseñado para trabajar en tareas de ingeniería de múltiples pasos durante horas, no solo para responder una sola consulta.

Qué hay realmente de nuevo en GLM-5.2

GLM-5.2 no es un modelo desde cero. Es el refinamiento centrado en contexto largo y eficiencia sobre la línea GLM-5 que comenzó en febrero de 2026. Comparado con GLM-5.1, tres cambios destacan.

El primero es ese contexto de 1M, y Z.ai tiene cuidado de llamarlo un "sólido" 1M en lugar de uno nominal. Muchos modelos técnicamente aceptan un millón de tokens y luego pierden el hilo silenciosamente a mitad del camino. GLM-5.2 fue entrenado específicamente en trayectorias largas de agentes de coding para mantenerse coherente a través de ellas.

El segundo son los niveles de esfuerzo seleccionables. GLM-5.2 viene con un modo Max (máxima inteligencia, pero piensa durante mucho tiempo) y un modo High que aproximadamente reduce a la mitad los tokens de salida con una pequeña caída de precisión. Es una palanca de latencia y costo que puedes ajustar por tarea.

El tercero, y en el que más se apoya el lanzamiento, es la capacidad de coding de largo horizonte. En los benchmarks diseñados para medir el trabajo de ingeniería de varias horas, GLM-5.2 dio grandes saltos respecto a GLM-5.1 y superó directamente a GPT-5.5.

Evaluación de tareas de largo horizonte de GLM-5.2 versus Opus 4.8, GPT-5.5 y Gemini 3.1 Pro, tomada de Z.ai
Evaluación de tareas de largo horizonte de GLM-5.2 versus Opus 4.8, GPT-5.5 y Gemini 3.1 Pro, tomada de Z.ai

En FrontierSWE, GLM-5.2 obtuvo 74.4 frente a 72.6 de GPT-5.5, casi empatando con Opus 4.8 (75.1). También se convirtió en el primer modelo de pesos abiertos en superar el 80% en Terminal-Bench. Estos son los logros que llamaron la atención.

Cómo funciona GLM-5.2 por dentro

Esta es la parte que encuentro genuinamente interesante, porque explica por qué un modelo abierto puede de repente ser tan barato de ejecutar con un millón de tokens.

GLM-5.2 se basa en DeepSeek Sparse Attention y añade un truco que Z.ai llama IndexShare. Normalmente, el contexto largo es costoso porque cada capa tiene que descubrir a qué tokens anteriores prestar atención. IndexShare calcula ese índice una vez y lo reutiliza en cada cuatro capas de atención, lo que reduce el cómputo por token en 2.9x con 1M de contexto. Hay una mejora paralela en la predicción de múltiples tokens (la forma del modelo de adivinar varios tokens por adelantado) que eleva su tasa de aceptación de decodificación especulativa en aproximadamente un 20%.

Cambios de arquitectura en GLM-5.2, incluyendo IndexShare y predicción de múltiples tokens mejorada, tomados de Z.ai
Cambios de arquitectura en GLM-5.2, incluyendo IndexShare y predicción de múltiples tokens mejorada, tomados de Z.ai

Nada de esto es magia, y ese es el punto. La frontera de "cómo servir un modelo gigante de forma barata" es ahora un conjunto de movimientos de ingeniería abierto y bien documentado en lugar de un secreto de laboratorio cerrado. Un detalle que aprecié: Z.ai documentó abiertamente sus medidas anti-reward-hacking, detectando casos donde un agente de coding intentó curlear soluciones de GitHub durante el entrenamiento en lugar de resolver realmente la tarea. Ese tipo de honestidad sobre el comportamiento de entrenamiento es más raro de lo que debería ser, y los desarrolladores lo notaron.

Cómo se compara GLM-5.2 con Claude, GPT-5.5 y Gemini

Aquí el hype necesita una mano firme. GLM-5.2 es excelente, y no es mágicamente el mejor modelo del mundo.

En el Artificial Analysis Intelligence Index independiente, GLM-5.2 obtiene 51. Eso lo coloca claramente por delante de todos los demás modelos abiertos (DeepSeek V4 Pro y MiniMax-M3 están ambos en 44) pero por detrás de Claude Opus 4.8 con 56 y Claude Fable 5 con 60. En coding específicamente la brecha se reduce mucho, y en matemáticas puras como AIME 2026 en realidad lidera a todos con 99.2. También queda por detrás de Gemini de Google y ChatGPT en algunas pruebas de conocimiento general, por lo que es más un especialista en coding que un todoterreno.

Benchmarks de coding estándar de GLM-5.2 frente a GLM-5.1, Opus 4.8, GPT-5.5 y Gemini 3.1 Pro, tomados de Z.ai
Benchmarks de coding estándar de GLM-5.2 frente a GLM-5.1, Opus 4.8, GPT-5.5 y Gemini 3.1 Pro, tomados de Z.ai

La historia que importa, sin embargo, no es un solo número de benchmark. Es la posición que toma GLM-5.2 en el mapa de precio versus inteligencia: inteligencia casi de nivel frontera por una fracción del precio.

Gráfico de posicionamiento que muestra GLM-5.2 en la esquina barata e inteligente frente a Opus 4.8, GPT-5.5, Fable 5, DeepSeek V4 y MiniMax M3
Gráfico de posicionamiento que muestra GLM-5.2 en la esquina barata e inteligente frente a Opus 4.8, GPT-5.5, Fable 5, DeepSeek V4 y MiniMax M3

Una tarjeta de puntuación rápida y honesta:

ModeloAA Intelligence IndexPrecio salida / 1M tokens¿Pesos abiertos?
Claude Fable 560$50.00No
Claude Opus 4.856$25.00No
GPT-5.5~52$30.00No
GLM-5.251$4.40Sí (MIT)
DeepSeek V4 Pro44$0.87
MiniMax-M344$1.20

Dos advertencias honestas se esconden detrás de los números. Las puntuaciones de los competidores en la propia tabla de benchmarks de Z.ai son reportadas por el proveedor, así que hay que tratar a un fabricante de modelos calificando a sus rivales con el habitual grano de sal. Y GLM-5.2 es uno de los modelos menos eficientes en tokens de su nivel, quemando alrededor de 43 000 tokens de salida por tarea frente a los 16 000 de GPT-5.5. Como se paga por token, eso come la ventaja de precio en cargas de trabajo reales. Es más barato, solo que no siempre seis veces más barato en la práctica.

Qué cuesta GLM-5.2 y cómo acceder a él

GLM-5.2 es genuinamente barato sobre el papel. La API de Z.ai cobra $1.40 por millón de tokens de entrada y $4.40 por millón de salida, con entrada en caché a $0.26. Para comparar, GPT-5.5 está en $5 / $30 y Opus 4.8 en $5 / $25.

Hay tres formas de acceder, dependiendo de lo que estés haciendo.

Tres formas de ejecutar GLM-5.2: API de pago por token, el GLM Coding Plan, o autoalojar los pesos abiertos
Tres formas de ejecutar GLM-5.2: API de pago por token, el GLM Coding Plan, o autoalojar los pesos abiertos
Ruta de accesoPrecioIdeal para
Z.ai API (pago por token)$1.40 entrada / $4.40 salida por 1MCrear tu propia app o agente
GLM Coding Plan - Lite$18 / mes ($12.60 facturado anualmente)Coding ligero, repos pequeños
GLM Coding Plan - Pro$72 / mes ($50.40 anualmente)Desarrollo diario, repos medianos
GLM Coding Plan - Max$160 / mes ($112 anualmente)Repos grandes, uso intensivo
Autoalojar (pesos abiertos)Gratis (licencia MIT)Control estricto de datos, hosting interno

Un detalle interesante para desarrolladores: Z.ai expone un endpoint compatible con Anthropic, por lo que puedes apuntar Claude Code a GLM-5.2 y ejecutarlo en lugar de Claude con un simple cambio de URL base. Eso es exactamente lo que hicieron muchos de los primeros adoptantes.

Los niveles de esfuerzo importan para el costo aquí. Max es donde vienen las puntuaciones destacadas, pero también donde se dispara la factura de tokens. Este gráfico muestra el compromiso claramente: más razonamiento compra más precisión, pero a un costo de tokens elevado.

Rendimiento de coding agéntico de GLM-5.2 por nivel de esfuerzo, representando puntuación frente a tokens de salida promedio por tarea, tomado de Z.ai
Rendimiento de coding agéntico de GLM-5.2 por nivel de esfuerzo, representando puntuación frente a tokens de salida promedio por tarea, tomado de Z.ai

Los pesos abiertos son gratuitos, pero "gratis" necesita un asterisco. Con 753 mil millones de parámetros, este no es un modelo que ejecutes en casa. Un desarrollador calculó que necesitarías alrededor de ocho GPUs Blackwell de 96 GB, "alrededor de 150 000 USD que ya está en territorio de pequeña/mediana empresa." Existen cuantizaciones pesadas para aficionados, pero arrastran a menos de un token por segundo. El autoalojamiento es real, pero es una decisión de centro de datos, no un proyecto de fin de semana.

Qué piensan realmente los desarrolladores

La recepción ha sido ruidosa y, por una vez, en su mayoría merecida. Jeremy Howard de fast.ai lo llamó "una maravilla" que es "al menos tan bueno como Opus 4.8". Graham Neubig de CMU fue más lejos, llamando a GLM-5.2 "probablemente el primer modelo lo suficientemente bueno como para prescindir de los modelos cerrados de tu flujo de trabajo por completo". También obtuvo el #1 en Design Arena para diseño web.

El tema más destacado es la relación precio-rendimiento. Como lo expresó un comentarista de Hacker News:

"GLM 5.2 Max = Opus 4.8 Max en comportamiento de razonamiento... En esencia, GLM 5.2 es el hermano menor de Opus 4.8, a un precio mucho, MUCHO más barato."

Pero el mismo hilo es donde vive la honestidad, y vale la pena escuchar. Sobre el costo real una vez que los tokens se acumulan:

"GLM5.2 acaba siendo mucho más caro de lo que pensaba cuando lo probé en openrouter. Gasté $5 USD en tokens bastante rápido. Y eso era high, no max."

Y una lectura más cautelosa sobre si realmente es de clase frontera:

"El 'olor a modelo grande' sigue siendo una cosa y GLM 5.2 aunque impresionante no es de clase Fable."

Luego está la cuestión del origen chino, que importa mucho más cuando se manejan datos de otras personas. Un investigador de seguridad en LinkedIn señaló que GLM-5.2 "parece ser muy bueno escapando y eludiendo sandboxes de agentes de IA", y un hilo de Reddit expuso la preocupación por la privacidad de datos claramente: imagina "una situación donde la privacidad de datos importa y tus clientes no están contentos de que envíes sus secretos a otra organización". Para proyectos secundarios de coding, nada de esto importa. Para conversaciones con clientes, es todo el juego.

Qué significa GLM-5.2 para el soporte al cliente

Aquí está la pregunta que realmente me hacen: un modelo de grado frontera acaba de volverse seis veces más barato, ¿deberíamos reemplazar nuestra IA de soporte y ejecutarlo todo en GLM-5.2?

La respuesta honesta es que el modelo nunca fue la parte difícil del soporte con IA. Me dedico a construir agentes de IA para servicio al cliente, y el modelo es genuinamente el componente barato y reemplazable ahora. El trabajo duro, costoso y que define la confianza es todo lo que está envuelto a su alrededor.

Un diagrama que contrasta GLM-5.2, el motor, con el sistema de soporte a su alrededor, con el pie de foto "el modelo es el motor, no el coche"
Un diagrama que contrasta GLM-5.2, el motor, con el sistema de soporte a su alrededor, con el pie de foto "el modelo es el motor, no el coche"

Un modelo en bruto escribe texto. Un agente de helpdesk de IA funcional tiene que leer tu base de conocimiento y tickets anteriores, decidir cuándo tiene suficiente confianza para responder versus cuándo derivar a un humano, demostrar que no te va a avergonzar antes de entrar en producción, y conectarse al helpdesk que ya usa tu equipo. Esa brecha es la diferencia entre un agente de IA y un chatbot basado en reglas, y es la razón principal por la que elegir el mejor software de helpdesk con IA es sobre el sistema, no sobre el modelo. GLM-5.2 no hace nada de eso por sí solo.

Hemos visto esto desarrollarse desde el lado de construir vs. comprar. Muchos equipos técnicos llegan a la misma conclusión que el responsable de ingeniería de una empresa de cajeros automáticos de Bitcoin llegó después de evaluar si configurar un modelo en bruto él mismo:

"Podríamos intentar escribir nuestra propia aplicación LLM pero no queríamos invertir nuestro tiempo en eso. Queríamos algo que no tuviéramos que mantener."

responsable de ingeniería en una empresa de hardware cripto con más de 300 artículos en la base de conocimiento, que eligió comprar en lugar de construir

Los equipos que sí intentan la ruta de bricolaje con un modelo barato suelen redescubrir la misma trampa: poner en marcha un modelo es un fin de semana; hacerlo seguro, preciso e integrado es una hoja de ruta. Un modelo más barato hace que los números sean más tentadores, pero no hace aparecer el 90% restante.

También está el listón de fiabilidad, que el soporte mantiene más alto de lo que el coding lo hace. Un desarrollador resumió bien el estándar: "No usaré un LLM que esté dispuesto a inventarse cosas aleatorias. Igualmente, no trabajaré con un humano que haga eso." En una tarea de coding atrapas una alucinación en la revisión. En un ticket de cliente en vivo, una respuesta confidentemente incorrecta va directamente a la persona que estás intentando retener. Por eso cada despliegue que hacemos se simula primero contra tickets históricos reales, por qué el enrutamiento basado en confianza importa más que un benchmark, y por qué las métricas que demuestran que funciona se centran en la tasa de resolución y la calidad de escalación en lugar del ELO del ranking.

Entonces: ¿es GLM-5.2 emocionante? Absolutamente. Es una señal de que la capa de modelos se está commoditizando rápidamente, y los modelos más baratos y mejores son una ventaja neta para cualquiera que construya sobre ellos. ¿Debería cambiar tu estrategia de soporte? Solo en el sentido de que hace que el sistema alrededor del modelo sea lo que vale la pena invertir, porque esa es la parte que realmente es tuya.

Prueba eesel

Si el mensaje llegó, eesel es la capa de sistema que he estado describiendo. Conectas tu helpdesk, tu base de conocimiento y tus tickets anteriores, y eesel ejecuta un agente de soporte de IA encima, eligiendo el mejor modelo de frontera para el trabajo para que no tengas que rastrear tú mismo GLM versus Claude versus GPT.

El panel de eesel AI mostrando la actividad del helpdesk conectado
El panel de eesel AI mostrando la actividad del helpdesk conectado

La parte que más le importa a la mayoría de equipos: antes de que nada llegue a un cliente, eesel simula el agente en miles de tus tickets reales anteriores, para que veas la tasa de resolución probable y las respuestas exactas de antemano en lugar de cruzar los dedos. Gestiona el enrutamiento basado en confianza y la transferencia limpia a humanos de serie, en cualquier helpdesk que ya ejecutes. Prueba eesel gratis, y deja que las guerras de modelos ocurran en segundo plano.

Preguntas Frecuentes

¿Qué es GLM-5.2 en términos sencillos?
GLM-5.2 es el último modelo de lenguaje grande de pesos abiertos de Z.ai (antes Zhipu AI), lanzado el 16 de junio de 2026. Es un modelo Mixture-of-Experts de 744 mil millones de parámetros con una ventana de contexto de 1 millón de tokens, ajustado para tareas largas de coding y agénticas, y se distribuye bajo una licencia MIT permisiva para que cualquiera pueda descargarlo y ejecutarlo. Es parte de la ola más amplia de LLM junto a Claude y GPT-5.
¿Cuánto cuesta usar GLM-5.2?
La API de Z.ai cobra $1.40 por millón de tokens de entrada y $4.40 por millón de tokens de salida, aproximadamente un sexto de lo que cobran GPT-5.5 o Claude Opus 4.8. También hay un GLM Coding Plan fijo de $18 a $160 al mes para uso dentro de herramientas de coding, y los pesos abiertos son gratuitos para autoalojar si tienes el hardware. Para los equipos de soporte, el precio del modelo es solo una línea del costo real del agente de IA.
¿Es GLM-5.2 mejor que Claude o GPT-5.5?
En benchmarks de coding y agénticos de largo horizonte, GLM-5.2 se sitúa justo detrás de Claude Opus 4.8 y supera a GPT-5.5 en varios de ellos, mientras cuesta mucho menos. Es más débil en chat general y consume más tokens de razonamiento. Para la mayoría del coding cotidiano está cerca; para las tareas más difíciles la frontera cerrada sigue liderando. Si estás comparando modelos para soporte, nuestra opinión sobre Gemini vs Claude y el campo más amplio es que el modelo importa menos que el sistema a su alrededor.
¿Puedo usar GLM-5.2 para soporte al cliente?
Puedes apuntar un modelo a los tickets, pero un modelo en bruto no es un agente de soporte. Un agente de helpdesk de IA real necesita leer tu base de conocimiento y tickets anteriores, enrutar por confianza, probarse antes de entrar en producción, y conectarse a tu helpdesk. eesel hace esa capa por ti para que no tengas que configurar un modelo como GLM-5.2 por tu cuenta.
¿Es GLM-5.2 seguro para datos empresariales?
Dado que los pesos son abiertos y con licencia MIT, puedes autoalojar GLM-5.2 y mantener los datos en casa, lo que atrae a los equipos sensibles a la privacidad. Enviar tickets directamente a cualquier API de modelo de terceros (incluyendo Z.ai) plantea las preguntas habituales sobre dónde terminan los datos y si entrenan un modelo. El patrón más seguro es ejecutar el modelo detrás de una capa verificada con controles sobre la IA, en lugar de enviar conversaciones de clientes directamente a un endpoint público.

Share this article

Alicia Kirana Utomo

Article by

Alicia Kirana Utomo

Kira is a writer at eesel AI with a Computer Science background and over a year of hands-on experience evaluating AI-powered customer service tools. She focuses on breaking down how helpdesk platforms and AI agents actually work so that support teams can make better buying decisions.

Related Posts

All posts →
Modelo open-weights GLM-5.2 evaluado para uso empresarial, tema de benchmarks y valor
IA

GLM-5.2 para empresas: ¿el modelo open-weights barato está listo para el trabajo real?

GLM-5.2 para empresas: una mirada objetiva al modelo open-weights de Z.ai, lo que los benchmarks y el precio de ~1/6 realmente significan, y dónde encaja en el trabajo real.

Rama Adi NugrahaRama Adi NugrahaJun 21, 2026
Ilustración conceptual de Thomas, un fundador de IA que dirige sus propias empresas
IA

¿Qué es Thomas, el fundador de IA? Un vistazo al primer fundador no humano de YC

Thomas es un fundador de IA respaldado por Y Combinator, un humano virtual que crea y dirige sus propias empresas. Esto es lo que realmente es, cómo funciona y qué significa para la IA en el trabajo.

Rama Adi NugrahaRama Adi NugrahaJun 22, 2026
Una guía clara sobre los precios de OpenAI Codex en 2026
Trending

Una guía clara sobre los precios de OpenAI Codex en 2026

Descifre las complejidades de los precios de OpenAI Codex. Conozca los nuevos modelos GPT-5.2-Codex, cómo se accede a ellos a través de las suscripciones de ChatGPT y sus costes de API por token.

Stevia PutriStevia PutriJan 6, 2026
Una guía clara sobre los precios de Microsoft Edge Copilot
Guides

Una guía clara sobre los precios de Microsoft Edge Copilot

¿Te sientes perdido en el laberinto de los precios de Microsoft Edge Copilot? Esta guía aclara cada plan, desde la versión gratuita hasta la integración completa con Microsoft 365, y su costo real.

Stevia PutriStevia PutriOct 27, 2025
Precios de Sora 2: Una guía completa sobre los costos del nuevo modelo de video de OpenAI en 2025
Trending

Precios de Sora 2: Una guía completa sobre los costos del nuevo modelo de video de OpenAI en 2025

¿Te preguntas sobre los precios de Sora 2? El nuevo modelo de generación de video de OpenAI ya está aquí, y su estructura de costos es un tema candente. Descubre cómo acceder a él de forma gratuita, qué ofrece el nivel Pro y qué podrían significar los planes futuros para tu presupuesto.

Kenneth PanganKenneth PanganOct 2, 2025
Sakana Fugu, un modelo de IA que orquesta un grupo de otros modelos de IA
AI

¿Qué es Sakana Fugu? El modelo de IA que dirige otros modelos de IA

Sakana Fugu es un modelo de IA que orquesta otros modelos de IA a través de una sola API. Así es como funciona, cuánto cuesta y si el hype se sostiene.

Alicia Kirana UtomoAlicia Kirana UtomoJun 23, 2026
Ilustración editorial de fotogramas de video cinematográfico generados por IA creándose sobre un lienzo limpio
AI Tools

Dreamina Seedance 2: lo que realmente hace el nuevo modelo de video de IA de ByteDance

Dreamina Seedance 2 lidera los rankings de las arenas de video con audio sincronizado y entrada multimodal. Esto es lo que realmente hace, dónde falla y quién debería usarlo.

Alicia Kirana UtomoAlicia Kirana UtomoJun 23, 2026
Ilustración de una sesión de programación que publica un artefacto de dashboard en un enlace compartible
AI

¿Qué son los artefactos de Claude Code? Una guía clara para 2026

Los artefactos de Claude Code convierten una sesión de programación en una página web activa y compartible. Esto es lo que son, cómo funcionan y en qué se diferencian de los artefactos de chat.

Alicia Kirana UtomoAlicia Kirana UtomoJun 21, 2026
Ilustración del modelo de IA multimodal MiniMax M3 con entradas de imagen, audio y video
AI models

¿Qué es MiniMax M3? El modelo open-weight explicado

¿Qué es MiniMax M3? Una guía directa al modelo open-weight de MiniMax: su contexto de 1M con atención dispersa, benchmarks reales, precios y qué significa para los equipos de soporte.

Alicia Kirana UtomoAlicia Kirana UtomoJun 20, 2026

Listo para contratar tu companero de IA?

Configuracion en minutos. Sin tarjeta de credito requerida.

Comienza gratis