O que é o MiniMax M3? O modelo open-weight explicado

Alicia Kirana Utomo
Escrito por

Alicia Kirana Utomo

Katelin Teen
Revisado por

Katelin Teen

Última edição June 19, 2026

Verificado por especialista
Ilustracao do modelo de IA multimodal MiniMax M3 com entradas de imagem, audio e video

O que e o MiniMax M3?

O MiniMax M3 e um grande modelo de linguagem de proposito geral que a MiniMax descreve como „um modelo de programacao e agentico frontier construido sobre uma arquitetura de atencao nova (MSA) com 1M de contexto." Ele substitui a linha M2 anterior (M2, M2.1, M2.5, M2.7), que permanecem disponiveis, e e o primeiro modelo da MiniMax treinado para ser multimodal desde o primeiro passo, aceitando entradas de imagem e video e podendo ate operar um computador desktop.

A propria MiniMax e um laboratorio de IA chines cujo lema e "Intelligence with everyone", com uma linha de produtos que vai muito alem do texto, incluindo video (Hailuo), voz e musica. O M3 e o carro-chefe de texto e agentes dessa linha. Se voce tem acompanhado a onda de modelos fortes vinda da China, o M3 esta na mesma conversa que o Qwen e o Kimi K2.5, e e um dos lancamentos open-weight mais interessantes do ano.

O lancamento oficial apresentou a proposta claramente na conta X da MiniMax:

"Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities... Coding & Agentic Frontier: 59.0% SWE-Bench Pro, 66.0% Terminal Bench 2.1... MiniMax Sparse Attention scales context to 1M... Natively Multimodal from Step Zero"

MiniMax (@MiniMax_AI), anuncio de lancamento

Uma nota sobre o nome antes de prosseguirmos: nao ha nenhum modelo chamado literalmente "MiniMax 3." O nome oficial e MiniMax M3, e e isso que este guia cobre.

Como o MiniMax M3 funciona: atencao esparsa e uma janela de 1M de tokens

A coisa mais interessante sobre o M3 nao e um benchmark, e a arquitetura que permite que ele leia um milhao de tokens sem que o custo exploda. Esta e a parte que acho genuinamente engenhosa, entao vou explicar como funciona.

Como o MiniMax Sparse Attention reduz o custo de um contexto de 1M de tokens
Como o MiniMax Sparse Attention reduz o custo de um contexto de 1M de tokens

Por baixo do capo, o M3 e um modelo Mixture-of-Experts com cerca de 428B parametros totais e aproximadamente 23B ativados por token, entao ele so executa uma fracao de si mesmo em qualquer solicitacao. Sobre isso esta o verdadeiro destaque: MiniMax Sparse Attention (MSA), um novo design de atencao que divide o contexto em blocos e atende apenas aos relevantes em vez de comparar cada token com todos os outros.

Isso importa porque a atencao normal fica quadraticamente mais cara conforme o contexto cresce, razao pela qual janelas de contexto longas geralmente sao lentas e caras. A MiniMax relata que o MSA reduz o computo por token para cerca de 1/20, com mais de 9 vezes mais velocidade de prefilling e 15 vezes mais de decoding com 1M de contexto em comparacao ao M2, mantendo o desempenho de atencao completa na maioria das capacidades em suas ablacoes. O resultado e uma janela de contexto de 1.000.000 tokens (com um minimo garantido de 512K), em comparacao aos 204.800 da linha M2.

Algumas outras coisas que vale a pena saber sobre como o M3 se comporta:

  • Modos de raciocinio. Um parametro thinking permite definir o raciocinio como enabled, adaptive (o modelo decide) ou disabled para baixa latencia, e ambos os modos compartilham o mesmo preco.
  • Multimodalidade nativa. Como foi treinado com texto, imagem e video entrelaçados "desde o Passo 0," o M3 fusiona as modalidades mais profundamente do que um modelo com visao adicionada posteriormente.
  • Construido para trabalho de longo horizonte. Nas proprias demos da MiniMax, o M3 funcionou autonomamente por quase 12 horas para reproduzir um artigo de pesquisa, e passou cerca de 24 horas otimizando um kernel CUDA ao longo de 147 submissoes de benchmark e 1.959 chamadas de ferramentas.

O metodo completo esta no relatorio tecnico do M3 se voce quiser a profundidade.

Quao bom e o MiniMax M3? Os benchmarks

A MiniMax posiciona o M3 como atingindo a fronteira em engenharia de software e execucao de terminal, e o compara a modelos fechados como GPT-5.5, Gemini 3.1 Pro e Claude Opus. Aqui estao as pontuacoes publicadas do anuncio:

BenchmarkO que medeMiniMax M3
SWE-Bench ProCorrecoes de software do mundo real59,0%
Terminal-Bench 2.1Tarefas agenticas de linha de comando66,0%
MCP AtlasUso de ferramentas sobre o protocolo agente74,2%
SWE-fficiencyAlteracoes de codigo eficientes34,8%
KernelBench HardOtimizacao de kernels GPU28,8%
PostTrainBenchTreinamento autonomo de modelos37,1 (#3)
Video-MME (512 frames)Compreensao de video84,6

Um pouco de honestidade sobre o que isso significa. No benchmark de treinamento autonomo de modelos PostTrainBench, o M3 ficou em terceiro lugar, ligeiramente atras do Claude Opus 4.7 (42,4) e GPT-5.5 (39,3), mas a frente de todo o resto. Esse e o padrao geral: O M3 e excelente para um modelo open-weight e competitivo em programacao, mas nao lidera a fronteira fechada. A anterior familia M2 ja havia empurrado as pontuacoes open-weight mais alto em indices independentes, e o M3 e um claro passo a frente disso.

Se voce quiser o contexto mais amplo de como esses modelos se comparam, nossos guias sobre alternativas ao Claude e alternativas ao Gemini cobrem o lado dos modelos fechados da comparacao.

Quanto custa o MiniMax M3?

E aqui que o M3 ganha sua reputacao. O preco e a razao pela qual os desenvolvedores continuam mencionando-o.

A MiniMax vende o M3 de duas formas. A primeira e um Token Plan de assinatura, atualizado no lancamento em tres niveis, onde texto, imagem, voz e musica todos consomem de um unico pool de uso compartilhado:

Token PlanPreco / mesAprox. tokens M3 / mes
Plus$20~1,7B tokens
Max$50~5,1B tokens
Ultra$120~9,8B tokens

A MiniMax enquadra o nivel de entrada como "$20 = 10x Claude Pro" em throughput, o que e marketing, mas diz muito sobre o angulo: maximos tokens por dolar. E o mesmo posicionamento de baixo custo que voce ve nos precos do Qwen e no resto do grupo open-weight.

A segunda forma e a API de pagamento por uso, com preco por comprimento de entrada. Chamadas com menos de 512K tokens de entrada recebem a tarifa padrao; qualquer coisa acima e faturada a uma tarifa de contexto longo mais alta para trabalho com repositorios completos e documentos ultra-longos. O raciocinio ativado ou desativado custa o mesmo, e um nivel de servico priority esta disponivel para cargas de trabalho sensiveis a latencia. Desenvolvedores em r/LLMDevs relatam a tarifa por token no lancamento de $0,60/$2,40 por milhao ate 512K, colocando-os, em suas palavras, em "territorio DeepSeek."

A outra metade da historia de custos e a licenca. O M3 e open-weight sob a MiniMax Community License: gratuito para uso nao comercial, com o uso comercial exigindo um credito visivel "Built with MiniMax M3" e, para receitas acima de $20M/ano, autorizacao previa por escrito. Entao e open-weight, nao open source — uma distincao que a comunidade rapidamente aponta. Para uma comparacao de custos pura com outras opcoes pagas, nossa lista de ferramentas de IA baratas e o guia de precos do Kimi K2.5 sao pontos de referencia uteis.

O que os desenvolvedores realmente dizem sobre o MiniMax M3

Os benchmarks publicados so dizem tanto. O sinal mais util vem de desenvolvedores executando o M3 em trabalho real, e o veredicto e consistente: uma opcao de otima relacao custo-beneficio, nao um substituto para os modelos frontier.

A versao mais clara do argumento de valor vem de alguem que mudou para o predecessor M2.7, em r/openclaw:

"claude is a slightly better model. better reasoning, better depth on hard problems. that's just how it is. but minimax m2.7 delivers exceptionally well for what i actually use it for, at a fraction of the cost... sometimes good enough is actually great when it's reliable and affordable."

u/[deleted], r/openclaw

Sobre o M3 especificamente, um desenvolvedor em r/opencode expressou assim apos testar outros modelos chines primeiro:

"I started using Kimi 2.6, then GLM 51, then DeepSeek4. But now after trying minimax m3 I am really impressed. It seems to think very deeply and really do a good job following directions... It seems to have flown a lot under the radar."

u/gameguy56, r/opencode

Isso corresponde aproximadamente a onde o M3 se situa no mercado: pesos abertos, capacidade proxima ao nivel Sonnet, a precos de nivel value.

Onde o MiniMax M3 se situa: um modelo open-weight com capacidade proxima ao nivel Sonnet a precos value
Onde o MiniMax M3 se situa: um modelo open-weight com capacidade proxima ao nivel Sonnet a precos value

Nao sao so elogios, porem, e a critica merece ser levada a serio se voce esta pensando em producao. A reclamacao mais comum e a confiabilidade sob pressao. Um testador em r/hermesagent achou o M3 erratico:

"I feel like it is much more chaotic and verbose, as well as hallucinations being more common. Now it just suddenly keeps stopping mid action... Right now I wouldn't use it in production."

u/FUTC-Photography, r/hermesagent

Tambem ha uma preocupacao recorrente sobre retencao de dados sobre a API hospedada, com usuarios observando que nao conseguiram encontrar uma opcao clara para que os dados do prompt nao sejam usados no treinamento. Esse e exatamente o tipo de coisa que importa mais para dados de clientes do que para um projeto de hobby, e e uma razao importante pela qual a comunidade de auto-hospedagem aprecia que os pesos estejam no Hugging Face.

O porem: um otimo modelo ainda nao e um agente de suporte

Aqui esta o reenquadramento com o qual quero que voce saia, porque e o que as pessoas perdem quando um novo modelo brilhante e lancado. Um modelo como o M3 e um motor fantastico. Mas um motor nao e um carro, e um modelo bruto nao e um agente de suporte ao cliente.

Por que um modelo bruto precisa de uma camada de conhecimento, simulacao e barreiras antes de poder responder tickets reais
Por que um modelo bruto precisa de uma camada de conhecimento, simulacao e barreiras antes de poder responder tickets reais

Passei os ultimos anos na eesel observando o que acontece quando voce aponta um modelo de linguagem para uma fila de suporte ao vivo, e o modo de falha e sempre o mesmo: o modelo soa confiante e erra nos detalhes, porque nao conhece sua politica de reembolso, seus ultimos 50.000 tickets resolvidos ou qual resposta e segura enviar sem que um humano a leia primeiro. O modelo mais inteligente no ranking ainda alucina seu prazo de envio se ninguem o ensinou. Por isso cada implantacao da eesel roda em simulacao contra tickets historicos antes de responder a qualquer cliente.

Entao as perguntas relevantes para o suporte nao sao "o que o M3 pontuou no SWE-Bench." Sao: ele pode aprender com meus tickets e documentos reais, posso testa-lo com seguranca antes de ir ao ar, e o que o impede de enviar com confianca uma resposta errada? Essas sao perguntas de produto, nao de modelo, e sao as que nosso resumo do melhor IA para servico ao cliente foi construido em torno.

O mesmo ponto surge sempre que um chatbot responde incorretamente, e e por isso que o custo de um agente de IA versus um humano depende muito mais de como ele resolve tickets de forma confiavel do que do preco por token do modelo.

eesel: a camada que transforma um modelo em um parceiro de suporte

E exatamente essa lacuna que a eesel foi construida para fechar. Em vez de pedir que voce escolha um modelo e torça, a eesel fica em cima do seu helpdesk como um parceiro de IA que aprende com seus tickets passados, documentos de ajuda e ferramentas desde o primeiro dia, depois rascunha, triaga e resolve o trabalho de nivel 1 com as barreiras que o tornam seguro para deixar funcionando.

O painel de helpdesk de IA da eesel, onde um parceiro de IA lida com tickets de nivel 1 em suas ferramentas existentes
O painel de helpdesk de IA da eesel, onde um parceiro de IA lida com tickets de nivel 1 em suas ferramentas existentes

O diferencial concreto e o modo de simulacao: voce executa o agente contra milhares de seus tickets reais passados, ve exatamente o que ele teria respondido e onde estao as lacunas, preenche-as e so entao vai ao ar, com roteamento baseado em confianca mantendo respostas de baixa confianca como rascunhos em vez de envios. E assim que equipes como a Smava executam um agente Zendesk totalmente automatizado com mais de 100.000 tickets alemaes por mes, e como o Gridwise atingiu 73% de resolucao de nivel 1 em seu primeiro mes. Ele se conecta a mais de 100 integracoes, responde em mais de 80 idiomas e funciona com precos baseados em uso de $0,40 por ticket sem taxas por assento.

Se voce veio aqui escolhendo um modelo para suporte, o melhor ponto de partida e a camada, nao o ranking. Voce pode experimentar a eesel gratuitamente, sem cartao de credito, e ver como ela resolve seus proprios tickets em simulacao antes de tocar em um unico cliente. E a mesma licao por tras de cada implantacao de IA de servico ao cliente que vi funcionar: o modelo e intercambivel, a confiabilidade nao.

Perguntas frequentes

O que é o MiniMax M3 em termos simples?
O MiniMax M3 é um grande modelo de linguagem open-weight do laboratório de IA chines MiniMax, lancado em 1 de junho de 2026. Foi desenvolvido para programacao e trabalho agentico, suporta ate 1 milhao de tokens de contexto e e nativamente multimodal (texto, imagem e video). Voce pode chama-lo pela API da MiniMax ou baixar os pesos e executa-lo por conta propria. Para uma visao mais ampla do setor, confira nossa visao geral do Qwen e a avaliacao do Kimi K2.5.
O MiniMax M3 e realmente open source?
Nao exatamente. O MiniMax M3 e open-weight, nao open source: os pesos podem ser baixados sob a MiniMax Community License, gratuitamente para uso nao comercial, mas o uso comercial requer um credito "Built with MiniMax M3" e autorizacao previa para receitas acima de $20M/ano. E mais parecido com o licenciamento de outros modelos open-weight do que com um lancamento MIT de verdade.
Quanto custa o MiniMax M3?
A MiniMax vende o M3 por meio de um Token Plan a partir de $20/mes (Plus), $50/mes (Max) e $120/mes (Ultra), com os modelos de texto, imagem, voz e musica compartilhando um unico pool de uso. A API e cobrada por comprimento de entrada, com chamadas acima de 512K tokens faturadas a uma tarifa de contexto longo mais alta. Confira o detalhamento completo na secao de precos acima, e compare com os precos do Claude Pro.
O MiniMax M3 e bom para programacao?
E uma das opcoes open-weight mais solidas para programacao e trabalho agentico, com 59,0% no SWE-Bench Pro e 66,0% no Terminal-Bench 2.1, e se integra a ferramentas como Claude Code, Cline e OpenCode. Os desenvolvedores geralmente o avaliam em torno do nivel Sonnet pelo preco. Se voce esta escolhendo um assistente de programacao, nosso resumo de ferramentas de assistencia de programacao com IA e uma boa proxima leitura.
Posso usar o MiniMax M3 para suporte ao cliente?
Voce pode usa-lo como modelo subjacente, mas um modelo bruto nao e por si so um agente de suporte. Para responder tickets reais com seguranca, voce precisa de uma camada que adicione seus tickets e documentos passados, simulacao com base no historico e barreiras baseadas em confianca. E isso que o agente de helpdesk da eesel oferece, independentemente do modelo que executa por baixo. Veja por que os chatbots respondem incorretamente para entender os modos de falha.
Como o MiniMax M3 lida com um contexto de 1 milhao de tokens?
O M3 usa um novo design de atencao chamado MiniMax Sparse Attention (MSA), que atende apenas a blocos relevantes do contexto em vez de tudo de uma vez. A MiniMax relata que isso reduz o computo por token para cerca de 1/20 e entrega aproximadamente 9 vezes mais velocidade de prefilling e 15 vezes mais de decoding com 1M de tokens em comparacao com o modelo anterior. O detalhe tecnico esta no relatorio tecnico do M3.

Share this article

Alicia Kirana Utomo

Article by

Alicia Kirana Utomo

Kira is a writer at eesel AI with a Computer Science background and over a year of hands-on experience evaluating AI-powered customer service tools. She focuses on breaking down how helpdesk platforms and AI agents actually work so that support teams can make better buying decisions.

Related Posts

All posts →
Ilustração editorial para um artigo explicativo sobre o Claude Fable 5, o modelo de IA mais poderoso da Anthropic
AI models

O que é o Claude Fable 5? O modelo mais poderoso da Anthropic, explicado

O Claude Fable 5 é o carro-chefe de classe Mythos da Anthropic, um nível acima do Opus 4.8, criado para trabalho autônomo que dura dias. Veja o que ele faz, quanto custa e onde está a pegadinha.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Ilustração editorial para um guia sobre o que o Claude Fable 5, o modelo de IA mais poderoso da Anthropic, consegue fazer
AI models

O que o Claude Fable 5 consegue fazer? Um guia recurso por recurso

O que o Claude Fable 5 consegue fazer? Trabalhar por dias sem supervisão, escrever e publicar código, ler documentos de 1 milhão de tokens e revisar o próprio trabalho. Veja o que isso significa na prática.

Riellvriany IndriawanRiellvriany IndriawanJun 17, 2026
Sakana Fugu, um modelo de IA que orquestra um conjunto de outros modelos de IA
AI

O que é o Sakana Fugu? O modelo de IA que comanda outros modelos de IA

O Sakana Fugu é um modelo de IA que orquestra outros modelos de IA através de uma única API. Veja como funciona, quanto custa e se o hype se sustenta.

Alicia Kirana UtomoAlicia Kirana UtomoJun 23, 2026
Uma maleta aberta derramando documentos, planilhas, e-mails e mensagens de chat enquanto uma figura de IA os avalia em um cartão de pontuação
AI

O que é AA-Briefcase? O benchmark de IA para trabalho do conhecimento real, explicado

AA-Briefcase é o novo benchmark da Artificial Analysis que testa IA em projetos de escritório reais de várias semanas. O que ele mede, quem lidera e o que significa para a IA no trabalho.

Alicia Kirana UtomoAlicia Kirana UtomoJun 22, 2026
Uma pessoa demonstrando um fluxo de trabalho no seu Mac enquanto o Codex o grava como uma skill reutilizável e um agente de IA o reproduz
AI news

Gravação e reprodução do OpenAI Codex, explicado

O que o recurso de gravação e reprodução do OpenAI Codex realmente faz: demonstre um fluxo de trabalho no seu Mac uma vez, e o Codex transforma isso em uma skill reutilizável. Como funciona, seus limites e onde se encaixa.

Alicia Kirana UtomoAlicia Kirana UtomoJun 22, 2026
Ilustracao de uma pessoa iniciando um agente de codificacao do Cursor pelo iPhone enquanto um colega revisa o trabalho no laptop
AI tools

O app do Cursor para iOS, explicado: o que realmente é em 2026

Não existe um app nativo do Cursor na App Store. Aqui está o que é a verdadeira experiência móvel do Cursor, como instalá-la e o que você pode fazer pelo seu celular.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Infográfico sobre o Claude Opus 4.6
Trending

Claude Opus 4.6: Uma visão geral completa do modelo de IA mais recente da Anthropic

Em 5 de fevereiro de 2026, a Anthropic anunciou o Claude Opus 4.6, uma atualização significativa no campo da IA. Este modelo representa um avanço substancial, particularmente para tarefas como codificação agente, raciocínio profundo e gerenciamento de fluxos de trabalho empresariais complexos.

Stevia PutriStevia PutriFeb 6, 2026
Ilustração de canais de redes sociais alimentando uma caixa de entrada de suporte movida por IA
helpdesk

As 8 melhores ferramentas de IA para suporte ao cliente em redes sociais em 2026

Testei a melhor IA para suporte em redes sociais no Instagram, Facebook, X, WhatsApp e DMs do TikTok. Aqui está o que realmente resolve tickets versus o que apenas sugere respostas.

Riellvriany IndriawanRiellvriany IndriawanJun 23, 2026
Banner ilustrado para o resumo de 2026 das melhores ferramentas de IA para suporte de TI
Customer Service

As 7 melhores ferramentas de IA para suporte de TI em 2026

Analisei as 7 melhores ferramentas de IA para suporte de TI em 2026, do ServiceNow Now Assist ao eesel, e detalhei o que cada uma custa de verdade e para quem é indicada.

Riellvriany IndriawanRiellvriany IndriawanJun 20, 2026

Pronto para contratar seu colega de IA?

Configure em minutos. Sem cartão de crédito necessário.

Comece grátis