O que é o MiniMax M3? O modelo open-weight explicado

Escrito por

Alicia Kirana Utomo

Revisado por

Katelin Teen

Última edição June 19, 2026

Verificado por especialista

Ilustracao do modelo de IA multimodal MiniMax M3 com entradas de imagem, audio e video

TL;DR

O MiniMax M3 (o que algumas pessoas buscam como "MiniMax 3") é o mais recente modelo open-weight do laboratório de IA chines MiniMax, lancado em 1 de junho de 2026. O destaque sao tres coisas em um unico modelo: programacao e trabalho agentico de nivel frontier, uma janela de contexto de 1 milhao de tokens e multimodalidade nativa, tudo funcionando em um novo design de atencao esparsa que mantém os custos baixos. É a opcao open-weight de valor que muitos desenvolvedores agora usam dentro de ferramentas como o Claude Code, e tem precos competitivos em relacao aos modelos frontier fechados.

Se voce esta avaliando o M3 especificamente para suporte ao cliente, aqui esta o que importa: o modelo e a parte facil. Eu construo agentes de IA para o helpdesk na eesel, e o que realmente decide se um bot pode ser confiado com um cliente real e a camada ao redor do modelo — o conhecimento, a simulacao e as barreiras —, nao a pontuacao bruta do benchmark. Mais sobre isso abaixo.

Demonstracao da pagina do modelo MiniMax M3, retirada da MiniMax

O que e o MiniMax M3?

O MiniMax M3 e um grande modelo de linguagem de proposito geral que a MiniMax descreve como „um modelo de programacao e agentico frontier construido sobre uma arquitetura de atencao nova (MSA) com 1M de contexto." Ele substitui a linha M2 anterior (M2, M2.1, M2.5, M2.7), que permanecem disponiveis, e e o primeiro modelo da MiniMax treinado para ser multimodal desde o primeiro passo, aceitando entradas de imagem e video e podendo ate operar um computador desktop.

A propria MiniMax e um laboratorio de IA chines cujo lema e "Intelligence with everyone", com uma linha de produtos que vai muito alem do texto, incluindo video (Hailuo), voz e musica. O M3 e o carro-chefe de texto e agentes dessa linha. Se voce tem acompanhado a onda de modelos fortes vinda da China, o M3 esta na mesma conversa que o Qwen e o Kimi K2.5, e e um dos lancamentos open-weight mais interessantes do ano.

O lancamento oficial apresentou a proposta claramente na conta X da MiniMax:

"Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities... Coding & Agentic Frontier: 59.0% SWE-Bench Pro, 66.0% Terminal Bench 2.1... MiniMax Sparse Attention scales context to 1M... Natively Multimodal from Step Zero"

MiniMax (@MiniMax_AI), anuncio de lancamento

Uma nota sobre o nome antes de prosseguirmos: nao ha nenhum modelo chamado literalmente "MiniMax 3." O nome oficial e MiniMax M3, e e isso que este guia cobre.

Como o MiniMax M3 funciona: atencao esparsa e uma janela de 1M de tokens

A coisa mais interessante sobre o M3 nao e um benchmark, e a arquitetura que permite que ele leia um milhao de tokens sem que o custo exploda. Esta e a parte que acho genuinamente engenhosa, entao vou explicar como funciona.

Como o MiniMax Sparse Attention reduz o custo de um contexto de 1M de tokens

Por baixo do capo, o M3 e um modelo Mixture-of-Experts com cerca de 428B parametros totais e aproximadamente 23B ativados por token, entao ele so executa uma fracao de si mesmo em qualquer solicitacao. Sobre isso esta o verdadeiro destaque: MiniMax Sparse Attention (MSA), um novo design de atencao que divide o contexto em blocos e atende apenas aos relevantes em vez de comparar cada token com todos os outros.

Isso importa porque a atencao normal fica quadraticamente mais cara conforme o contexto cresce, razao pela qual janelas de contexto longas geralmente sao lentas e caras. A MiniMax relata que o MSA reduz o computo por token para cerca de 1/20, com mais de 9 vezes mais velocidade de prefilling e 15 vezes mais de decoding com 1M de contexto em comparacao ao M2, mantendo o desempenho de atencao completa na maioria das capacidades em suas ablacoes. O resultado e uma janela de contexto de 1.000.000 tokens (com um minimo garantido de 512K), em comparacao aos 204.800 da linha M2.

Algumas outras coisas que vale a pena saber sobre como o M3 se comporta:

Modos de raciocinio. Um parametro thinking permite definir o raciocinio como enabled, adaptive (o modelo decide) ou disabled para baixa latencia, e ambos os modos compartilham o mesmo preco.
Multimodalidade nativa. Como foi treinado com texto, imagem e video entrelaçados "desde o Passo 0," o M3 fusiona as modalidades mais profundamente do que um modelo com visao adicionada posteriormente.
Construido para trabalho de longo horizonte. Nas proprias demos da MiniMax, o M3 funcionou autonomamente por quase 12 horas para reproduzir um artigo de pesquisa, e passou cerca de 24 horas otimizando um kernel CUDA ao longo de 147 submissoes de benchmark e 1.959 chamadas de ferramentas.

O metodo completo esta no relatorio tecnico do M3 se voce quiser a profundidade.

Quao bom e o MiniMax M3? Os benchmarks

A MiniMax posiciona o M3 como atingindo a fronteira em engenharia de software e execucao de terminal, e o compara a modelos fechados como GPT-5.5, Gemini 3.1 Pro e Claude Opus. Aqui estao as pontuacoes publicadas do anuncio:

Benchmark	O que mede	MiniMax M3
SWE-Bench Pro	Correcoes de software do mundo real	59,0%
Terminal-Bench 2.1	Tarefas agenticas de linha de comando	66,0%
MCP Atlas	Uso de ferramentas sobre o protocolo agente	74,2%
SWE-fficiency	Alteracoes de codigo eficientes	34,8%
KernelBench Hard	Otimizacao de kernels GPU	28,8%
PostTrainBench	Treinamento autonomo de modelos	37,1 (#3)
Video-MME (512 frames)	Compreensao de video	84,6

Um pouco de honestidade sobre o que isso significa. No benchmark de treinamento autonomo de modelos PostTrainBench, o M3 ficou em terceiro lugar, ligeiramente atras do Claude Opus 4.7 (42,4) e GPT-5.5 (39,3), mas a frente de todo o resto. Esse e o padrao geral: O M3 e excelente para um modelo open-weight e competitivo em programacao, mas nao lidera a fronteira fechada. A anterior familia M2 ja havia empurrado as pontuacoes open-weight mais alto em indices independentes, e o M3 e um claro passo a frente disso.

Se voce quiser o contexto mais amplo de como esses modelos se comparam, nossos guias sobre alternativas ao Claude e alternativas ao Gemini cobrem o lado dos modelos fechados da comparacao.

Quanto custa o MiniMax M3?

E aqui que o M3 ganha sua reputacao. O preco e a razao pela qual os desenvolvedores continuam mencionando-o.

A MiniMax vende o M3 de duas formas. A primeira e um Token Plan de assinatura, atualizado no lancamento em tres niveis, onde texto, imagem, voz e musica todos consomem de um unico pool de uso compartilhado:

Token Plan	Preco / mes	Aprox. tokens M3 / mes
Plus	$20	~1,7B tokens
Max	$50	~5,1B tokens
Ultra	$120	~9,8B tokens

A MiniMax enquadra o nivel de entrada como "$20 = 10x Claude Pro" em throughput, o que e marketing, mas diz muito sobre o angulo: maximos tokens por dolar. E o mesmo posicionamento de baixo custo que voce ve nos precos do Qwen e no resto do grupo open-weight.

A segunda forma e a API de pagamento por uso, com preco por comprimento de entrada. Chamadas com menos de 512K tokens de entrada recebem a tarifa padrao; qualquer coisa acima e faturada a uma tarifa de contexto longo mais alta para trabalho com repositorios completos e documentos ultra-longos. O raciocinio ativado ou desativado custa o mesmo, e um nivel de servico priority esta disponivel para cargas de trabalho sensiveis a latencia. Desenvolvedores em r/LLMDevs relatam a tarifa por token no lancamento de $0,60/$2,40 por milhao ate 512K, colocando-os, em suas palavras, em "territorio DeepSeek."

A outra metade da historia de custos e a licenca. O M3 e open-weight sob a MiniMax Community License: gratuito para uso nao comercial, com o uso comercial exigindo um credito visivel "Built with MiniMax M3" e, para receitas acima de $20M/ano, autorizacao previa por escrito. Entao e open-weight, nao open source — uma distincao que a comunidade rapidamente aponta. Para uma comparacao de custos pura com outras opcoes pagas, nossa lista de ferramentas de IA baratas e o guia de precos do Kimi K2.5 sao pontos de referencia uteis.

O que os desenvolvedores realmente dizem sobre o MiniMax M3

Os benchmarks publicados so dizem tanto. O sinal mais util vem de desenvolvedores executando o M3 em trabalho real, e o veredicto e consistente: uma opcao de otima relacao custo-beneficio, nao um substituto para os modelos frontier.

A versao mais clara do argumento de valor vem de alguem que mudou para o predecessor M2.7, em r/openclaw:

"claude is a slightly better model. better reasoning, better depth on hard problems. that's just how it is. but minimax m2.7 delivers exceptionally well for what i actually use it for, at a fraction of the cost... sometimes good enough is actually great when it's reliable and affordable."

u/[deleted], r/openclaw

Sobre o M3 especificamente, um desenvolvedor em r/opencode expressou assim apos testar outros modelos chines primeiro:

"I started using Kimi 2.6, then GLM 51, then DeepSeek4. But now after trying minimax m3 I am really impressed. It seems to think very deeply and really do a good job following directions... It seems to have flown a lot under the radar."

u/gameguy56, r/opencode

Isso corresponde aproximadamente a onde o M3 se situa no mercado: pesos abertos, capacidade proxima ao nivel Sonnet, a precos de nivel value.

Onde o MiniMax M3 se situa: um modelo open-weight com capacidade proxima ao nivel Sonnet a precos value

Nao sao so elogios, porem, e a critica merece ser levada a serio se voce esta pensando em producao. A reclamacao mais comum e a confiabilidade sob pressao. Um testador em r/hermesagent achou o M3 erratico:

"I feel like it is much more chaotic and verbose, as well as hallucinations being more common. Now it just suddenly keeps stopping mid action... Right now I wouldn't use it in production."

u/FUTC-Photography, r/hermesagent

Tambem ha uma preocupacao recorrente sobre retencao de dados sobre a API hospedada, com usuarios observando que nao conseguiram encontrar uma opcao clara para que os dados do prompt nao sejam usados no treinamento. Esse e exatamente o tipo de coisa que importa mais para dados de clientes do que para um projeto de hobby, e e uma razao importante pela qual a comunidade de auto-hospedagem aprecia que os pesos estejam no Hugging Face.

O porem: um otimo modelo ainda nao e um agente de suporte

Aqui esta o reenquadramento com o qual quero que voce saia, porque e o que as pessoas perdem quando um novo modelo brilhante e lancado. Um modelo como o M3 e um motor fantastico. Mas um motor nao e um carro, e um modelo bruto nao e um agente de suporte ao cliente.

Por que um modelo bruto precisa de uma camada de conhecimento, simulacao e barreiras antes de poder responder tickets reais

Passei os ultimos anos na eesel observando o que acontece quando voce aponta um modelo de linguagem para uma fila de suporte ao vivo, e o modo de falha e sempre o mesmo: o modelo soa confiante e erra nos detalhes, porque nao conhece sua politica de reembolso, seus ultimos 50.000 tickets resolvidos ou qual resposta e segura enviar sem que um humano a leia primeiro. O modelo mais inteligente no ranking ainda alucina seu prazo de envio se ninguem o ensinou. Por isso cada implantacao da eesel roda em simulacao contra tickets historicos antes de responder a qualquer cliente.

Entao as perguntas relevantes para o suporte nao sao "o que o M3 pontuou no SWE-Bench." Sao: ele pode aprender com meus tickets e documentos reais, posso testa-lo com seguranca antes de ir ao ar, e o que o impede de enviar com confianca uma resposta errada? Essas sao perguntas de produto, nao de modelo, e sao as que nosso resumo do melhor IA para servico ao cliente foi construido em torno.

O mesmo ponto surge sempre que um chatbot responde incorretamente, e e por isso que o custo de um agente de IA versus um humano depende muito mais de como ele resolve tickets de forma confiavel do que do preco por token do modelo.

eesel: a camada que transforma um modelo em um parceiro de suporte

E exatamente essa lacuna que a eesel foi construida para fechar. Em vez de pedir que voce escolha um modelo e torça, a eesel fica em cima do seu helpdesk como um parceiro de IA que aprende com seus tickets passados, documentos de ajuda e ferramentas desde o primeiro dia, depois rascunha, triaga e resolve o trabalho de nivel 1 com as barreiras que o tornam seguro para deixar funcionando.

O painel de helpdesk de IA da eesel, onde um parceiro de IA lida com tickets de nivel 1 em suas ferramentas existentes

O diferencial concreto e o modo de simulacao: voce executa o agente contra milhares de seus tickets reais passados, ve exatamente o que ele teria respondido e onde estao as lacunas, preenche-as e so entao vai ao ar, com roteamento baseado em confianca mantendo respostas de baixa confianca como rascunhos em vez de envios. E assim que equipes como a Smava executam um agente Zendesk totalmente automatizado com mais de 100.000 tickets alemaes por mes, e como o Gridwise atingiu 73% de resolucao de nivel 1 em seu primeiro mes. Ele se conecta a mais de 100 integracoes, responde em mais de 80 idiomas e funciona com precos baseados em uso de $0,40 por ticket sem taxas por assento.

Se voce veio aqui escolhendo um modelo para suporte, o melhor ponto de partida e a camada, nao o ranking. Voce pode experimentar a eesel gratuitamente, sem cartao de credito, e ver como ela resolve seus proprios tickets em simulacao antes de tocar em um unico cliente. E a mesma licao por tras de cada implantacao de IA de servico ao cliente que vi funcionar: o modelo e intercambivel, a confiabilidade nao.

Perguntas frequentes

O que é o MiniMax M3 em termos simples?

O MiniMax M3 é um grande modelo de linguagem open-weight do laboratório de IA chines MiniMax, lancado em 1 de junho de 2026. Foi desenvolvido para programacao e trabalho agentico, suporta ate 1 milhao de tokens de contexto e e nativamente multimodal (texto, imagem e video). Voce pode chama-lo pela API da MiniMax ou baixar os pesos e executa-lo por conta propria. Para uma visao mais ampla do setor, confira nossa visao geral do Qwen e a avaliacao do Kimi K2.5.

O MiniMax M3 e realmente open source?

Nao exatamente. O MiniMax M3 e open-weight, nao open source: os pesos podem ser baixados sob a MiniMax Community License, gratuitamente para uso nao comercial, mas o uso comercial requer um credito "Built with MiniMax M3" e autorizacao previa para receitas acima de $20M/ano. E mais parecido com o licenciamento de outros modelos open-weight do que com um lancamento MIT de verdade.

Quanto custa o MiniMax M3?

A MiniMax vende o M3 por meio de um Token Plan a partir de $20/mes (Plus), $50/mes (Max) e $120/mes (Ultra), com os modelos de texto, imagem, voz e musica compartilhando um unico pool de uso. A API e cobrada por comprimento de entrada, com chamadas acima de 512K tokens faturadas a uma tarifa de contexto longo mais alta. Confira o detalhamento completo na secao de precos acima, e compare com os precos do Claude Pro.

O MiniMax M3 e bom para programacao?

E uma das opcoes open-weight mais solidas para programacao e trabalho agentico, com 59,0% no SWE-Bench Pro e 66,0% no Terminal-Bench 2.1, e se integra a ferramentas como Claude Code, Cline e OpenCode. Os desenvolvedores geralmente o avaliam em torno do nivel Sonnet pelo preco. Se voce esta escolhendo um assistente de programacao, nosso resumo de ferramentas de assistencia de programacao com IA e uma boa proxima leitura.

Posso usar o MiniMax M3 para suporte ao cliente?

Voce pode usa-lo como modelo subjacente, mas um modelo bruto nao e por si so um agente de suporte. Para responder tickets reais com seguranca, voce precisa de uma camada que adicione seus tickets e documentos passados, simulacao com base no historico e barreiras baseadas em confianca. E isso que o agente de helpdesk da eesel oferece, independentemente do modelo que executa por baixo. Veja por que os chatbots respondem incorretamente para entender os modos de falha.

Como o MiniMax M3 lida com um contexto de 1 milhao de tokens?

O M3 usa um novo design de atencao chamado MiniMax Sparse Attention (MSA), que atende apenas a blocos relevantes do contexto em vez de tudo de uma vez. A MiniMax relata que isso reduz o computo por token para cerca de 1/20 e entrega aproximadamente 9 vezes mais velocidade de prefilling e 15 vezes mais de decoding com 1M de tokens em comparacao com o modelo anterior. O detalhe tecnico esta no relatorio tecnico do M3.

Contrate seu colega de IA

Configure em minutos. Sem cartão de crédito.

Teste grátis Agendar demo

Share this article

Article by

Alicia Kirana Utomo

Kira is a writer at eesel AI with a Computer Science background and over a year of hands-on experience evaluating AI-powered customer service tools. She focuses on breaking down how helpdesk platforms and AI agents actually work so that support teams can make better buying decisions.