Una descripción general del nuevo agente de programación de OpenAI: GPT 5.1 Codex Max

Escrito por

Kenneth Pangan

Revisado por

Katelin Teen

Última edición January 6, 2026

Verificado por expertos

Una descripción general del nuevo agente de programación de OpenAI: GPT 5.1 Codex Max

El 19 de noviembre de 2025, OpenAI presentó GPT-5.1-Codex-Max, su nuevo modelo de programación, lo que representa un avance significativo. Este modelo se posiciona como un progreso sustancial en la programación asistida por IA.

Ha sido desarrollado desde cero para trabajos de ingeniería de software largos y complicados. Una característica clave es la "compactación" (compaction), que ayuda a la IA a mantener el contexto a través de millones de tokens sin distraerse.

En esta publicación, analizaremos qué es GPT-5.1-Codex-Max, examinaremos sus nuevas funciones, veremos cómo se compara con competidores como Gemini 3 Pro de Google y Claude Opus 4.5 de Anthropic, y consideraremos qué significa este tipo de IA para las empresas más allá de la programación.

¿Qué es GPT 5.1 Codex Max?

GPT-5.1-Codex-Max se diferencia de los modelos de propósito general como ChatGPT. Se trata de un agente de IA altamente especializado, basado en un modelo de razonamiento fundamental actualizado. Ha sido entrenado específicamente para tareas agénticas en ingeniería de software, matemáticas e investigación. Piense en él menos como un chatbot y más como un desarrollador junior con el que usted puede realizar programación en pareja (pair programming).

Está diseñado para residir dentro de los entornos de desarrollo como el Codex CLI, extensiones de IDE, servicios en la nube y herramientas de revisión de código. Esto significa que trabaja donde los desarrolladores pasan su tiempo, ayudando con los aspectos detallados de la creación de software.

Está diseñado para manejar proyectos largos y detallados que pueden ser un desafío para otros modelos de IA. Estas tareas incluyen la refactorización de código en todo el proyecto, sesiones de depuración profunda y la creación de funcionalidades completas desde cero. Su objetivo es ser un socio autónomo, no solo una herramienta que autocompleta una línea de código. Como el nuevo modelo predeterminado en todas las superficies de Codex, ofrece una mayor velocidad y eficiencia de tokens en comparación con su predecesor, GPT-5.1-Codex.

Las funciones clave de GPT 5.1 Codex Max

El lanzamiento de GPT-5.1-Codex-Max introduce cambios fundamentales en la forma en que los agentes de IA abordan tareas complejas de varios pasos, mejorando el rendimiento y la eficiencia.

Capacidades de programación agéntica

¿Qué significa "programación agéntica"? Es la capacidad de la IA para planificar, escribir, probar y corregir código por sí misma, con una guía humana mínima. En lugar de solo responder a instrucciones específicas, puede tomar un objetivo amplio y determinar de forma independiente los pasos necesarios para lograrlo.

Las cifras de rendimiento ilustran esta capacidad. En las pruebas de referencia de la industria (benchmarks), alcanza puntuaciones altas, tal como se compartió en el anuncio oficial de OpenAI:

SWE-bench Verified: 77.9%
SWE-Lancer IC SWE: 79.9%
Terminal-Bench 2.0: 58.1%

Estas pruebas de referencia no son puramente teóricas. Benchmarks como SWE-bench verifican la habilidad del modelo para resolver problemas reales de ingeniería de software extraídos de incidencias reales de GitHub. Esto proporciona una simulación de tareas laborales del mundo real para una IA.

Otra actualización significativa es su entrenamiento para entornos Windows, lo que lo convierte en el primer modelo de OpenAI con esta capacidad. Esta es una mejora notable para la gran comunidad de desarrolladores que utilizan Windows.

Tareas de larga duración con compactación

Un desafío común con los modelos de lenguaje grandes es la limitación de la ventana de contexto. Es como una memoria a corto plazo; una vez que está llena, la IA comienza a olvidar lo que se discutió al principio. Esto puede ser una limitación significativa para las tareas de programación que duran varias horas.

GPT-5.1-Codex-Max aborda esto con una función llamada "compactación" (compaction). Es un proceso en el que el modelo refina continuamente su historial operativo, conservando el contexto más relevante mientras descarta la información superflua. Esto le permite trabajar de manera coherente a lo largo de millones de tokens durante mucho tiempo.

Una infografía que explica la función de compactación en GPT 5.1 Codex Max, mostrando cómo refina el contexto para manejar tareas de larga duración.

Usted puede imaginarlo como si la IA tomara sus propias notas mientras trabaja. Realiza un seguimiento del objetivo principal, las variables clave y las decisiones importantes, para no perder de vista el objetivo, incluso si una tarea es muy larga.

¿Cuánto tiempo puede ejecutarse? En sus propias pruebas, OpenAI observó al modelo trabajar en una sola tarea durante más de 24 horas, ajustando y mejorando constantemente su trabajo hasta terminarlo. Esto demuestra un nivel de resistencia que no se había visto anteriormente en modelos similares.

Velocidad y rentabilidad mejoradas

Además de las mejoras en el rendimiento, GPT-5.1-Codex-Max ofrece mejoras en la rentabilidad. En la prueba de referencia SWE-bench Verified, obtiene mejores resultados que la versión anterior en el nivel de esfuerzo de razonamiento 'medio', y utiliza un 30% menos de "tokens de pensamiento" para lograrlo.

Los usuarios también tienen más control sobre el esfuerzo de razonamiento. Usted puede mantenerse en 'medio' para las tareas cotidianas o cambiar a la nueva configuración 'xhigh' para problemas particularmente difíciles donde sea aceptable una espera más larga por una respuesta más exhaustiva.

Esta eficiencia conduce a costos más bajos. Por ejemplo, OpenAI mostró cómo puede crear diseños de frontend de alta calidad por mucho menos de lo que habría costado con el modelo anterior. Esto permite un mayor uso de la IA para diversas tareas mientras se gestionan los costos de la API.

Comparación con otros modelos

Comparar un modelo con sus contemporáneos proporciona contexto sobre sus capacidades. He aquí un vistazo a cómo se mide GPT-5.1-Codex-Max frente a otros modelos destacados, según las pruebas de referencia oficiales y los comentarios de los desarrolladores.

Avances respecto a GPT-5.1-Codex

Los comentarios de los desarrolladores sugieren que este es un avance significativo respecto a la versión anterior.

Un desarrollador en Reddit calificó al nuevo modelo de "épico" después de usarlo para escribir un sistema operativo SMP de 64 bits con más de 100,000 líneas de código. Esto demuestra que el modelo puede hacer más que simplemente repetir el código que ha visto antes. Puede comprender sistemas grandes y complejos e idear las técnicas de programación para construirlos.

Utilizo codex para auditar todo lo que produce CC... ha sido bastante efectivo
Reddit

El mismo desarrollador también compartió su flujo de trabajo, que implicaba alternar entre diferentes modelos (como GPT-5.1-Thinking y Codex) para obtener los mejores resultados. Esto sugiere una nueva forma de trabajar en la que los desarrolladores se asocian con un grupo de IAs especializadas para realizar las tareas.

Rendimiento junto a Claude Opus 4.5 y Gemini 3 Pro

El campo de la IA avanza rápido, con una competencia intensa. Basta con ver el cronograma de lanzamientos: Gemini 3 Pro de Google salió el 18 de noviembre de 2025, OpenAI anunció GPT-5.1-Codex-Max al día siguiente, el 19 de noviembre, y Anthropic le siguió con Claude Opus 4.5 el 24 de noviembre.

Una comparación directa de las métricas de rendimiento muestra que los modelos están muy igualados. La prueba de referencia SWE-Bench Verified es una buena forma de medirlos, ya que prueba qué tan bien resuelven los modelos problemas de software reales. Así es como se comparan:

Modelo	Puntuación SWE-Bench Verified	Anuncio de Lanzamiento
Claude Opus 4.5	80.9%	24 de noviembre de 2025
GPT-5.1-Codex-Max	77.9%	19 de noviembre de 2025
Gemini 3 Pro	76.2%	18 de noviembre de 2025

Fuente: Vellum.ai Flagship Model Report

Un gráfico de barras que compara las puntuaciones de SWE-Bench Verified de GPT 5.1 Codex Max, Claude Opus 4.5 y Gemini 3 Pro.

Basándose en esta prueba de referencia, Claude Opus 4.5 tiene una pequeña ventaja. Sin embargo, los tres modelos representan el estado del arte actual para la programación con IA. Cada uno tiene sus propias fortalezas y el mejor depende de la tarea. Esta competencia ofrece a los desarrolladores varias opciones de alta calidad.

Aplicación de la IA agéntica en un contexto empresarial

GPT-5.1-Codex-Max es una herramienta poderosa. Pero también es muy especializada. Es una IA agéntica hecha para desarrolladores, y su uso eficaz requiere habilidades técnicas y una comprensión sólida de la ingeniería de software.

Esto plantea la pregunta de cómo se puede aplicar una IA autónoma similar a otras funciones empresariales, como el servicio al cliente, de una manera más accesible.

Mientras los desarrolladores utilizan programadores agénticos, también se están desarrollando asistentes de IA para otros equipos empresariales. El enfoque cambia de configurar herramientas complejas a implementar una IA que aprende de los datos de una empresa, de forma similar a la incorporación de un nuevo empleado.

Por ejemplo, plataformas como eesel AI ofrecen un compañero de IA para el servicio al cliente que se puede implementar rápidamente.

Al conectarse a los centros de ayuda (help desks) y bases de conocimientos (knowledge bases), aprende de los tickets pasados, artículos de ayuda y documentos internos. Aprende el contexto del negocio, las reglas y el tono de voz específico del equipo de forma autónoma.

Al igual que Codex-Max puede pasar más de 24 horas refactorizando una gran base de código, un Agente de IA de eesel puede trabajar 24/7, gestionando tickets de soporte de primera línea. Una diferencia clave es el método de interacción. eesel AI se gestiona con instrucciones en lenguaje natural en lugar de código.

Elegir la IA adecuada para la tarea

GPT-5.1-Codex-Max es un paso adelante significativo para los agentes de programación autónomos. Con funciones como la compactación, un sólido rendimiento en las pruebas de referencia y notables resultados en el mundo real, es una herramienta valiosa para los desarrolladores.

Para ver el modelo en acción y tener una idea de su rendimiento en el mundo real, consulte esta reseña práctica que explora si las nuevas funciones cumplen su promesa.

Una reseña en video del nuevo modelo GPT-5.1-Codex-Max, que cubre su velocidad, inteligencia y rendimiento general en comparación con versiones anteriores.

También destaca una tendencia más amplia en la IA hacia modelos agénticos especializados, diseñados para trabajos específicos. El futuro puede implicar el uso de IA especializada para tareas concretas en lugar de una única IA que lo abarque todo.

Para los desarrolladores, eso podría ser un agente de programación como Codex-Max. Para los equipos de servicio al cliente, es un compañero de IA que comprende sus flujos de trabajo, adopta su estilo de comunicación y puede integrarse rápidamente.

Aquellos interesados en cómo se puede aplicar un compañero de IA a los procesos de soporte pueden explorar plataformas como eesel AI, que puede configurarse para gestionar problemas de soporte.

Contrata a tu companero de IA

Configuracion en minutos. Sin tarjeta de credito.

Prueba gratis Agendar demo

Preguntas frecuentes

GPT 5.1 Codex Max es un agente de IA especializado, diseñado para la ingeniería de software compleja, no es un chatbot de propósito general como ChatGPT. Piense en él como un desarrollador junior con el que usted puede realizar programación en pareja (pair programming), ya que está diseñado para trabajar directamente dentro de los entornos de desarrollo.

Las funciones principales incluyen capacidades avanzadas de "programación agéntica" para el trabajo autónomo, una función de "compactación" para manejar tareas que duran más de 24 horas sin perder el contexto, y mejoras generales en su velocidad y rentabilidad.

Utiliza una función llamada "compactación". Este proceso permite que el modelo resuma y depure su propio historial a medida que trabaja, conservando únicamente la información más crítica. Esto le permite trabajar en tareas durante períodos extremadamente largos, incluso más de 24 horas, sin olvidar el objetivo principal.

Los modelos están muy igualados. En la prueba de referencia SWE-Bench Verified, Claude Opus 4.5 tiene una ligera ventaja. Sin embargo, GPT 5.1 Codex Max tiene un buen desempeño, particularmente en tareas largas y complejas. El modelo más adecuado a menudo depende del trabajo específico para el que usted lo necesite.

¡Sí! Es el primer modelo de OpenAI que ha sido entrenado específicamente para operar en entornos Windows, lo cual es un beneficio significativo para la gran comunidad de desarrolladores que utilizan Windows como su sistema operativo principal.

Significa que la IA puede planificar, escribir, probar y depurar código de manera proactiva con una supervisión humana mínima. En lugar de limitarse a responder a un comando, GPT 5.1 Codex Max puede tomar un objetivo de alto nivel y determinar por sí mismo los pasos necesarios para alcanzarlo.

Share this article

Article by

Kenneth Pangan

Writer and marketer for over ten years, Kenneth Pangan splits his time between history, politics, and art with plenty of interruptions from his dogs demanding attention.