¿Qué es MiniMax M3? El modelo open-weight explicado

Alicia Kirana Utomo
Escrito por

Alicia Kirana Utomo

Katelin Teen
Revisado por

Katelin Teen

Última edición June 19, 2026

Verificado por expertos
Ilustración del modelo de IA multimodal MiniMax M3 con entradas de imagen, audio y video

¿Qué es MiniMax M3?

MiniMax M3 es un modelo de lenguaje grande de propósito general que MiniMax describe como „un modelo de programación y agéntico frontier construido sobre una arquitectura de atención novedosa (MSA) con 1M de contexto." Reemplaza a la línea M2 anterior (M2, M2.1, M2.5, M2.7), que permanecen disponibles, y es el primer modelo de MiniMax entrenado para ser multimodal desde el primer paso, por lo que acepta entradas de imagen y video e incluso puede operar un ordenador de escritorio.

MiniMax en sí es un laboratorio de IA chino cuyo lema es "Intelligence with everyone", con una línea de productos que va mucho más allá del texto, con video (Hailuo), voz y música. M3 es el buque insignia de texto y agentes de esa línea. Si has estado siguiendo la oleada de modelos sólidos provenientes de China, M3 se ubica en la misma conversación que Qwen y Kimi K2.5, y es uno de los lanzamientos open-weight más interesantes del año.

El lanzamiento oficial expuso la propuesta de valor claramente en la cuenta X de MiniMax:

"Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities... Coding & Agentic Frontier: 59.0% SWE-Bench Pro, 66.0% Terminal Bench 2.1... MiniMax Sparse Attention scales context to 1M... Natively Multimodal from Step Zero"

MiniMax (@MiniMax_AI), anuncio de lanzamiento

Una nota sobre el nombre antes de continuar: no hay ningún modelo llamado literalmente "MiniMax 3." El nombre oficial es MiniMax M3, y eso es lo que cubre esta guía.

Cómo funciona MiniMax M3: atención dispersa y una ventana de 1M de tokens

Lo más interesante de M3 no es un benchmark, sino la arquitectura que le permite leer un millón de tokens sin que el costo se dispare. Esta es la parte que encuentro genuinamente ingeniosa, así que déjame explicar cómo funciona.

Cómo MiniMax Sparse Attention reduce el costo de un contexto de 1M de tokens
Cómo MiniMax Sparse Attention reduce el costo de un contexto de 1M de tokens

Bajo el capó, M3 es un modelo Mixture-of-Experts con alrededor de 428B parámetros totales y aproximadamente 23B activados por token, por lo que solo ejecuta una fracción de sí mismo en cada solicitud. Sobre eso está el verdadero titular: MiniMax Sparse Attention (MSA), un nuevo diseño de atención que divide el contexto en bloques y solo atiende a los relevantes en lugar de comparar cada token con todos los demás.

Eso importa porque la atención normal se vuelve cuadráticamente más costosa a medida que crece el contexto, razón por la cual las ventanas de contexto largas suelen ser lentas y caras. MiniMax informa que MSA reduce el cómputo por token a aproximadamente 1/20, con más de 9 veces más velocidad de prefilling y 15 veces más de decoding con 1M de contexto en comparación con M2, mientras mantiene el rendimiento de atención completa en la mayoría de las capacidades en sus ablaciones. El resultado es una ventana de contexto de 1.000.000 de tokens (con un mínimo garantizado de 512K), frente a 204.800 en la línea M2.

Algunas otras cosas que vale la pena saber sobre cómo se comporta M3:

  • Modos de razonamiento. Un parámetro thinking te permite establecer el razonamiento en enabled, adaptive (el modelo decide) o disabled para baja latencia, y ambos modos comparten el mismo precio.
  • Multimodalidad nativa. Porque fue entrenado con texto, imagen y video entrelazados "desde el Paso 0," M3 fusiona las modalidades más profundamente que un modelo con visión añadida posteriormente.
  • Diseñado para trabajo de largo horizonte. En las demostraciones propias de MiniMax, M3 funcionó de forma autónoma durante casi 12 horas para reproducir un artículo de investigación, y pasó unas 24 horas optimizando un kernel CUDA a lo largo de 147 envíos de benchmark y 1.959 llamadas a herramientas.

El método completo está en el informe técnico de M3 si quieres la profundidad.

¿Qué tan bueno es MiniMax M3? Los benchmarks

MiniMax posiciona a M3 como alcanzando la frontera en ingeniería de software y ejecución de terminal, y lo compara con modelos cerrados como GPT-5.5, Gemini 3.1 Pro y Claude Opus. Aquí están las puntuaciones publicadas del anuncio:

BenchmarkQué mideMiniMax M3
SWE-Bench ProCorrecciones de software del mundo real59,0%
Terminal-Bench 2.1Tareas agénticas de línea de comandos66,0%
MCP AtlasUso de herramientas sobre el protocolo agente74,2%
SWE-fficiencyCambios de código eficientes34,8%
KernelBench HardOptimización de kernels GPU28,8%
PostTrainBenchEntrenamiento autónomo de modelos37,1 (#3)
Video-MME (512 frames)Comprensión de video84,6

Un poco de honestidad sobre lo que significan estos resultados. En el benchmark de entrenamiento autónomo de modelos PostTrainBench, M3 quedó en tercer lugar, ligeramente detrás de Claude Opus 4.7 (42,4) y GPT-5.5 (39,3), pero por delante de todo lo demás. Ese es el patrón general: M3 es excelente para un modelo open-weight y competitivo en programación, pero no lidera la frontera cerrada. La anterior familia M2 ya había empujado las puntuaciones open-weight más alto en índices independientes, y M3 es un claro paso adelante desde allí.

Si quieres el contexto más amplio de cómo se comparan estos modelos, nuestras guías sobre alternativas a Claude y alternativas a Gemini cubren el lado de los modelos cerrados de la comparación.

¿Cuánto cuesta MiniMax M3?

Aquí es donde M3 se gana su reputación. El precio es la razón por la que los desarrolladores siguen mencionándolo.

MiniMax vende M3 de dos maneras. La primera es un Token Plan de suscripción, actualizado en el lanzamiento en tres niveles, donde texto, imagen, voz y música todos toman de un único grupo de uso compartido:

Token PlanPrecio / mesAprox. tokens M3 / mes
Plus$20~1,7B tokens
Max$50~5,1B tokens
Ultra$120~9,8B tokens

MiniMax enmarca el nivel de entrada como "$20 = 10x Claude Pro" en rendimiento, lo que es marketing, pero dice mucho sobre el enfoque: máximos tokens por dólar. Es el mismo posicionamiento de bajo costo que ves en los precios de Qwen y el resto del grupo open-weight.

La segunda forma es la API de pago por uso, con precio por longitud de entrada. Las llamadas con menos de 512K tokens de entrada obtienen la tarifa estándar; cualquier cosa por encima se factura a una tarifa de contexto largo más alta para trabajo con repositorios completos y documentos ultra-largos. El pensamiento activado o desactivado cuesta lo mismo, y hay un nivel de servicio priority disponible para cargas de trabajo sensibles a la latencia. Los desarrolladores en r/LLMDevs informan que la tarifa por token en el lanzamiento era de $0,60/$2,40 por millón hasta 512K, lo que los coloca, en sus palabras, en "territorio DeepSeek."

La otra mitad de la historia de costos es la licencia. M3 es open-weight bajo la MiniMax Community License: gratis para uso no comercial, con el uso comercial requiriendo un crédito visible "Built with MiniMax M3" y, por encima de 20M$/año en ingresos, autorización previa por escrito. Así que es open-weight, no open source, una distinción que la comunidad se apresura a señalar. Para una comparación de costos pura contra otras opciones de pago, nuestra lista de herramientas de IA baratas y la guía de precios de Kimi K2.5 son puntos de referencia útiles.

Lo que los desarrolladores dicen realmente sobre MiniMax M3

Los benchmarks publicados solo dicen tanto. La señal más útil proviene de desarrolladores que ejecutan M3 en trabajo real, y el veredicto es consistente: una opción de fuerte relación calidad-precio, no un reemplazo de los modelos frontier.

La versión más clara del argumento de valor en realidad proviene de alguien que cambió al predecesor M2.7, en r/openclaw:

"claude is a slightly better model. better reasoning, better depth on hard problems. that's just how it is. but minimax m2.7 delivers exceptionally well for what i actually use it for, at a fraction of the cost... sometimes good enough is actually great when it's reliable and affordable."

u/[deleted], r/openclaw

Sobre M3 específicamente, un desarrollador en r/opencode lo expresó así después de probar otros modelos chinos primero:

"I started using Kimi 2.6, then GLM 51, then DeepSeek4. But now after trying minimax m3 I am really impressed. It seems to think very deeply and really do a good job following directions... It seems to have flown a lot under the radar."

u/gameguy56, r/opencode

Eso corresponde aproximadamente a donde M3 se ubica en el mercado: pesos abiertos, capacidad cercana al nivel Sonnet, a precios de nivel value.

Dónde se sitúa MiniMax M3: un modelo open-weight con capacidad cercana al nivel Sonnet a precios value
Dónde se sitúa MiniMax M3: un modelo open-weight con capacidad cercana al nivel Sonnet a precios value

No todo son elogios, sin embargo, y la crítica merece tomarse en serio si estás pensando en producción. La queja más común es la fiabilidad bajo presión. Un tester en r/hermesagent encontró M3 errático:

"I feel like it is much more chaotic and verbose, as well as hallucinations being more common. Now it just suddenly keeps stopping mid action... Right now I wouldn't use it in production."

u/FUTC-Photography, r/hermesagent

También hay una preocupación recurrente sobre retención de datos sobre la API alojada, con usuarios señalando que no pudieron encontrar una opción clara para que los datos del prompt no se usen en el entrenamiento. Ese es exactamente el tipo de cosa que importa más para datos de clientes que para un proyecto de hobby, y es una razón importante por la que a la comunidad de auto-alojamiento le agrada que los pesos estén en Hugging Face.

El truco: un gran modelo aún no es un agente de soporte

Aquí está el reencuadre con el que quiero que te vayas, porque es lo que la gente pasa por alto cuando se lanza un nuevo modelo brillante. Un modelo como M3 es un motor fantástico. Pero un motor no es un coche, y un modelo sin procesar no es un agente de soporte al cliente.

Por qué un modelo sin procesar necesita una capa de conocimiento, simulación y barreras antes de poder responder tickets reales
Por qué un modelo sin procesar necesita una capa de conocimiento, simulación y barreras antes de poder responder tickets reales

He pasado los últimos años en eesel observando lo que ocurre cuando apuntas un modelo de lenguaje a una cola de soporte en vivo, y el modo de fallo es siempre el mismo: el modelo suena seguro y se equivoca en los detalles, porque no conoce tu política de reembolsos, tus últimos 50.000 tickets resueltos ni qué respuesta es segura enviar sin que un humano la lea primero. El modelo más inteligente en el ranking aún alucina tu hora límite de envío si nadie le enseñó. Por eso cada implementación de eesel se ejecuta en simulación contra tickets históricos antes de responder a un solo cliente.

Así que las preguntas relevantes para el soporte no son "qué puntuó M3 en SWE-Bench." Son: ¿puede aprender de mis tickets y documentos reales, puedo probarlo de forma segura antes de que salga en vivo, y qué le impide enviar con confianza una respuesta incorrecta? Esas son preguntas de producto, no preguntas de modelo, y son en las que está construido nuestro resumen de la mejor IA para servicio al cliente.

El mismo punto aparece siempre que un chatbot responde incorrectamente, y es por qué el costo de un agente de IA frente a un humano depende mucho más de cuán fiablemente resuelve tickets que del precio por token del modelo.

eesel: la capa que convierte un modelo en un compañero de soporte

Exactamente esta brecha es la que eesel está diseñado para cerrar. En lugar de pedirte que elijas un modelo y confíes, eesel se sienta en la parte superior de tu helpdesk como un compañero de IA que aprende de tus tickets pasados, documentos de ayuda y herramientas desde el primer día, luego redacta, clasifica y resuelve el trabajo de nivel 1 con las barreras que hacen que sea seguro dejarlo funcionando.

El panel de helpdesk de IA de eesel, donde un compañero de IA gestiona tickets de nivel 1 en tus herramientas existentes
El panel de helpdesk de IA de eesel, donde un compañero de IA gestiona tickets de nivel 1 en tus herramientas existentes

El diferenciador concreto es el modo de simulación: ejecutas el agente contra miles de tus tickets reales pasados, ves exactamente qué habría respondido y dónde están los vacíos, los completas y solo entonces sales en vivo, con enrutamiento basado en confianza que mantiene las respuestas de baja confianza como borradores en lugar de envíos. Así es como equipos como Smava ejecutan un agente de Zendesk completamente automatizado con más de 100.000 tickets alemanes al mes, y cómo Gridwise alcanzó un 73% de resolución de nivel 1 en su primer mes. Se conecta a más de 100 integraciones, responde en más de 80 idiomas y funciona con precios basados en uso de $0,40 por ticket sin tarifas por asiento.

Si llegaste aquí eligiendo un modelo para soporte, el mejor punto de partida es la capa, no el ranking. Puedes probar eesel gratis, sin tarjeta de crédito, y ver cómo resuelve tus propios tickets en simulación antes de tocar a un solo cliente. Es la misma lección detrás de cada implementación de IA de servicio al cliente que he visto funcionar: el modelo es intercambiable, la fiabilidad no.

Preguntas frecuentes

¿Qué es MiniMax M3 en términos sencillos?
MiniMax M3 es un modelo de lenguaje grande open-weight del laboratorio de IA chino MiniMax, lanzado el 1 de junio de 2026. Está diseñado para programación y trabajo agéntico, maneja hasta 1 millón de tokens de contexto y es nativamente multimodal (texto, imagen y video). Puedes llamarlo a través de la API de MiniMax o descargar los pesos y ejecutarlo tú mismo. Para una visión más amplia del sector, consulta nuestro resumen de Qwen y la reseña de Kimi K2.5.
¿MiniMax M3 es realmente de código abierto?
No exactamente. MiniMax M3 es open-weight, no open source: los pesos se pueden descargar bajo la MiniMax Community License, gratis para uso no comercial, pero el uso comercial requiere un crédito "Built with MiniMax M3" y autorización previa para ingresos superiores a 20M$/año. Se parece más a la licencia de otros modelos open-weight que a una versión MIT real.
¿Cuánto cuesta MiniMax M3?
MiniMax vende M3 a través de un Token Plan desde 20$/mes (Plus), 50$/mes (Max) y 120$/mes (Ultra), donde los modelos de texto, imagen, voz y música comparten un único grupo de uso. La API tiene precio por longitud de entrada, con llamadas de más de 512K tokens facturadas a una tarifa de contexto largo más alta. Consulta el desglose completo en la sección de precios anterior, y compáralo con los precios de Claude Pro.
¿MiniMax M3 es bueno para programar?
Es una de las opciones open-weight más sólidas para programación y trabajo agéntico, con un 59,0% en SWE-Bench Pro y un 66,0% en Terminal-Bench 2.1, y se integra con herramientas como Claude Code, Cline y OpenCode. Los desarrolladores suelen valorarlo en torno al nivel Sonnet para el precio. Si estás eligiendo un asistente de programación, nuestro resumen de herramientas de asistencia de programación con IA es una buena siguiente lectura.
¿Puedo usar MiniMax M3 para soporte al cliente?
Puedes usarlo como modelo subyacente, pero un modelo sin procesar no es por sí solo un agente de soporte. Para responder tickets reales de forma segura necesitas una capa que añada tus tickets y documentos pasados, simulación contra el historial y barreras basadas en confianza. Eso es lo que ofrece el agente de helpdesk de eesel, independientemente del modelo que se ejecute por debajo. Consulta por qué los chatbots responden incorrectamente para entender los modos de fallo.
¿Cómo maneja MiniMax M3 un contexto de 1 millón de tokens?
M3 usa un nuevo diseño de atención llamado MiniMax Sparse Attention (MSA), que solo atiende a bloques relevantes del contexto en lugar de todo a la vez. MiniMax informa que esto reduce el cómputo por token a aproximadamente 1/20 y ofrece unas 9 veces más velocidad de prefilling y 15 veces más de decoding a 1M de tokens en comparación con su modelo anterior. El detalle técnico está en el informe técnico de M3.

Share this article

Alicia Kirana Utomo

Article by

Alicia Kirana Utomo

Kira is a writer at eesel AI with a Computer Science background and over a year of hands-on experience evaluating AI-powered customer service tools. She focuses on breaking down how helpdesk platforms and AI agents actually work so that support teams can make better buying decisions.

Related Posts

All posts →
Ilustración editorial para un artículo explicativo sobre Claude Fable 5, el modelo de IA más potente de Anthropic
AI models

¿Qué es Claude Fable 5? El modelo más potente de Anthropic, explicado

Claude Fable 5 es el buque insignia de clase Mythos de Anthropic, un nivel por encima de Opus 4.8, creado para trabajo autónomo de días enteros. Esto es lo que hace, lo que cuesta y dónde está el truco.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Ilustración editorial para una guía sobre lo que puede hacer Claude Fable 5, el modelo de IA más potente de Anthropic
AI models

¿Qué puede hacer Claude Fable 5? Una guía capacidad por capacidad

¿Qué puede hacer Claude Fable 5? Trabajar durante días sin supervisión, escribir y desplegar código, leer documentos de 1 millón de tokens y revisar su propio trabajo. Esto es lo que significa en la práctica.

Riellvriany IndriawanRiellvriany IndriawanJun 17, 2026
Sakana Fugu, un modelo de IA que orquesta un grupo de otros modelos de IA
AI

¿Qué es Sakana Fugu? El modelo de IA que dirige otros modelos de IA

Sakana Fugu es un modelo de IA que orquesta otros modelos de IA a través de una sola API. Así es como funciona, cuánto cuesta y si el hype se sostiene.

Alicia Kirana UtomoAlicia Kirana UtomoJun 23, 2026
Un maletín abierto del que se derraman documentos, hojas de cálculo, correos electrónicos y mensajes de chat mientras una figura de IA los califica en una tarjeta de puntuación
AI

¿Qué es AA-Briefcase? El benchmark de IA para el trabajo del conocimiento real, explicado

AA-Briefcase es el nuevo benchmark de Artificial Analysis que pone a prueba la IA en proyectos de oficina reales de varias semanas. Esto es lo que mide, quién lidera y qué significa para la IA en el trabajo.

Alicia Kirana UtomoAlicia Kirana UtomoJun 22, 2026
Una persona demostrando un flujo de trabajo en su Mac mientras Codex lo graba como una habilidad reutilizable y un agente de IA lo reproduce
AI news

Grabación y reproducción de OpenAI Codex, explicado

Qué hace realmente la grabación y reproducción de OpenAI Codex: demuestra un flujo de trabajo en tu Mac una vez, y Codex lo convierte en una habilidad reutilizable. Cómo funciona, sus límites y dónde encaja.

Alicia Kirana UtomoAlicia Kirana UtomoJun 22, 2026
Imagen de banner para ¿Qué es MaxClaw? Explicación del agente de IA en la nube de MiniMax
Blog Writer AI

¿Qué es MaxClaw? Explicación del agente de IA en la nube de MiniMax

Descubre MaxClaw, el agente de IA alojado en la nube de MiniMax que se implementa en 10 segundos sin necesidad de infraestructura. Aprende sobre sus características, el modelo M2.5 y cómo se compara con las alternativas autoalojadas.

Stevia PutriStevia PutriMar 6, 2026
Texto alternativo de la imagen
Trending

Claude Opus 4.6: Una visión completa del último modelo de IA de Anthropic

El 5 de febrero de 2026, Anthropic anunció Claude Opus 4.6, una actualización significativa en el campo de la IA. Este modelo representa un avance sustancial, particularmente para tareas como la codificación agéntica, el razonamiento profundo y la gestión de flujos de trabajo empresariales complejos.

Stevia PutriStevia PutriFeb 6, 2026
Ilustración de canales de redes sociales que se integran en una bandeja de entrada de soporte impulsada por IA
helpdesk

Las 8 mejores herramientas de IA para atención al cliente en redes sociales en 2026

Probé la mejor IA para soporte en redes sociales en Instagram, Facebook, X, WhatsApp y TikTok DMs. Esto es lo que realmente resuelve tickets frente a lo que solo sugiere respuestas.

Riellvriany IndriawanRiellvriany IndriawanJun 23, 2026
Banner ilustrado para el resumen 2026 de las mejores herramientas de IA para soporte IT
Customer Service

Las 7 mejores herramientas de IA para soporte IT en 2026

Analicé las 7 mejores herramientas de IA para soporte IT en 2026, desde ServiceNow Now Assist hasta eesel, y desglosé lo que cada una cuesta realmente y para quién es adecuada.

Riellvriany IndriawanRiellvriany IndriawanJun 20, 2026

Listo para contratar tu companero de IA?

Configuracion en minutos. Sin tarjeta de credito requerida.

Comienza gratis