Qu'est-ce que MiniMax M3 ? Le modèle open-weight expliqué

Alicia Kirana Utomo
Écrit par

Alicia Kirana Utomo

Katelin Teen
Relu par

Katelin Teen

Dernière modification June 19, 2026

Vérifié par un expert
Illustration du modèle d'IA multimodal MiniMax M3 avec entrées image, audio et vidéo

Qu'est-ce que MiniMax M3 ?

MiniMax M3 est un grand modèle de langage à usage général que MiniMax décrit comme « un modèle de codage et agentique frontier construit sur une architecture d'attention nouvelle (MSA) avec 1M de contexte. » Il remplace la ligne M2 précédente (M2, M2.1, M2.5, M2.7), qui restent toutes disponibles, et c'est le premier modèle MiniMax entraîné pour être multimodal dès la première étape, il prend donc des entrées d'image et de vidéo et peut même piloter un ordinateur de bureau.

MiniMax elle-même est un laboratoire d'IA chinois dont le slogan est « Intelligence with everyone », avec une gamme qui va bien au-delà du texte : vidéo (Hailuo), parole et musique. M3 est le fer de lance texte et agents de cette gamme. Si vous avez suivi la vague de modèles puissants sortis de Chine, M3 s'inscrit dans la même conversation que Qwen et Kimi K2.5, et c'est l'un des lancements open-weight les plus intéressants de l'année.

Le lancement officiel a exposé clairement la proposition sur le compte X de MiniMax :

« Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities... Coding & Agentic Frontier: 59.0% SWE-Bench Pro, 66.0% Terminal Bench 2.1... MiniMax Sparse Attention scales context to 1M... Natively Multimodal from Step Zero »

MiniMax (@MiniMax_AI), annonce de lancement

Une note sur le nom avant d'aller plus loin : il n'existe pas de modèle littéralement appelé « MiniMax 3 ». Le nom officiel est MiniMax M3, et c'est ce que ce guide couvre.

Comment fonctionne MiniMax M3 : attention creuse et fenêtre de 1M de tokens

Ce qui est le plus intéressant dans M3 n'est pas un benchmark, c'est l'architecture qui lui permet de lire un million de tokens sans que le coût explose. C'est la partie que je trouve vraiment astucieuse, alors laissez-moi expliquer comment cela fonctionne.

Comment MiniMax Sparse Attention réduit le coût d'un contexte de 1M de tokens
Comment MiniMax Sparse Attention réduit le coût d'un contexte de 1M de tokens

Sous le capot, M3 est un modèle Mixture-of-Experts avec environ 428 milliards de paramètres totaux et environ 23 milliards activés par token, donc il n'exécute qu'une fraction de lui-même pour n'importe quelle requête. Au-dessus se trouve le vrai titre : MiniMax Sparse Attention (MSA), une nouvelle conception d'attention qui partitionne le contexte en blocs et n'assiste qu'aux blocs pertinents au lieu de comparer chaque token à chaque autre token.

Cela est important car l'attention normale devient quadratiquement plus coûteuse à mesure que le contexte augmente, c'est pourquoi les longues fenêtres de contexte sont généralement lentes et chères. MiniMax rapporte que MSA réduit le calcul par token à environ 1/20, avec plus de 9 fois plus de vitesse de prefilling et 15 fois plus de vitesse de décodage à 1M de contexte par rapport à M2, tout en maintenant une attention complète sur la plupart des capacités dans leurs ablations. Le résultat est une fenêtre de contexte de 1 000 000 de tokens (avec un minimum garanti de 512K), contre 204 800 sur la ligne M2.

Quelques autres choses à savoir sur le comportement de M3 :

  • Modes de réflexion. Un paramètre thinking permet de régler le raisonnement sur enabled, adaptive (le modèle décide) ou disabled pour une faible latence, et les deux modes partagent la même tarification.
  • Multimodalité native. Parce qu'il a été entraîné sur du texte, des images et de la vidéo entrelacés « dès l'Étape 0 », M3 fusionne les modalités plus profondément qu'un modèle avec la vision ajoutée après coup.
  • Conçu pour le travail sur le long terme. Dans les propres démonstrations de MiniMax, M3 a fonctionné de manière autonome pendant près de 12 heures pour reproduire un article de recherche, et a passé environ 24 heures à optimiser un noyau CUDA sur 147 soumissions de benchmark et 1 959 appels d'outils.

La méthode complète se trouve dans le rapport technique M3 si vous voulez la profondeur.

À quel point MiniMax M3 est-il bon ? Les benchmarks

MiniMax positionne M3 comme atteignant la frontière en ingénierie logicielle et en exécution de terminal, et le compare à des modèles fermés comme GPT-5.5, Gemini 3.1 Pro et Claude Opus. Voici les scores publiés de l'annonce :

BenchmarkCe qu'il mesureMiniMax M3
SWE-Bench ProCorrections logicielles du monde réel59,0 %
Terminal-Bench 2.1Tâches agentiques en ligne de commande66,0 %
MCP AtlasUtilisation des outils via le protocole agent74,2 %
SWE-fficiencyModifications de code efficaces34,8 %
KernelBench HardOptimisation de noyaux GPU28,8 %
PostTrainBenchEntraînement autonome de modèles37,1 (#3)
Video-MME (512 images)Compréhension vidéo84,6

Un peu d'honnêteté sur ce que cela signifie. Sur le benchmark d'entraînement autonome de modèles PostTrainBench, M3 est arrivé troisième au classement général, légèrement derrière Claude Opus 4.7 (42,4) et GPT-5.5 (39,3) mais devant tout le reste. C'est le schéma général : M3 est excellent pour un modèle open-weight et compétitif en codage, mais il ne mène pas la frontière fermée. La précédente famille M2 avait déjà poussé les scores open-weight plus haut sur des indices indépendants, et M3 est un clair pas en avant depuis.

Si vous souhaitez le contexte plus large de la façon dont ces modèles se comparent, nos guides sur les alternatives à Claude et les alternatives à Gemini couvrent le côté modèles fermés de la comparaison.

Combien coûte MiniMax M3 ?

C'est là que M3 forge sa réputation. La tarification est la raison pour laquelle les développeurs continuent de le mentionner.

MiniMax vend M3 de deux façons. La première est un Token Plan d'abonnement, mis à jour au lancement sur trois niveaux, où texte, image, parole et musique tirent tous d'un seul pool d'utilisation partagé :

Token PlanPrix / moisTokens M3 approx. / mois
Plus20 $~1,7 milliard de tokens
Max50 $~5,1 milliards de tokens
Ultra120 $~9,8 milliards de tokens

MiniMax présente le niveau d'entrée comme « 20 $ = 10x Claude Pro » en débit, ce qui est du marketing, mais cela dit l'angle : le maximum de tokens par dollar. C'est le même positionnement bas coût que vous voyez dans la tarification de Qwen et le reste du groupe open-weight.

La deuxième façon est l'API à l'utilisation, facturée à la longueur d'entrée. Les appels de moins de 512K tokens d'entrée bénéficient du tarif standard ; tout ce qui est au-delà est facturé à un tarif de contexte long plus élevé pour le travail sur des dépôts complets et des documents ultra-longs. La réflexion activée ou désactivée coûte la même chose, et un niveau de service priority est disponible pour les charges de travail sensibles à la latence. Les développeurs sur r/LLMDevs rapportent le tarif par token au lancement à 0,60 $/2,40 $ par million jusqu'à 512K, ce qui les place, selon leurs propres termes, dans le « territoire DeepSeek ».

L'autre moitié de l'histoire des coûts est la licence. M3 est open-weight sous la MiniMax Community License : gratuit pour une utilisation non commerciale, avec l'utilisation commerciale nécessitant un crédit visible « Built with MiniMax M3 » et, au-delà de 20 M$/an de revenus, une autorisation préalable écrite. Donc c'est open-weight, pas open source, une distinction que la communauté s'empresse de souligner. Pour une comparaison de coûts pure avec d'autres options payantes, notre liste des outils IA bon marché et le guide de tarification Kimi K2.5 sont des références utiles.

Ce que les développeurs disent vraiment de MiniMax M3

Les benchmarks publiés ne disent pas tout. Le signal le plus utile vient des développeurs qui exécutent M3 sur des travaux réels, et le verdict est cohérent : un choix à fort rapport qualité-prix, pas un remplacement de la frontière.

La version la plus claire de l'argument de valeur vient en fait de quelqu'un qui est passé au prédécesseur M2.7, sur r/openclaw :

« claude is a slightly better model. better reasoning, better depth on hard problems. that's just how it is. but minimax m2.7 delivers exceptionally well for what i actually use it for, at a fraction of the cost... sometimes good enough is actually great when it's reliable and affordable. »

u/[deleted], r/openclaw

Sur M3 spécifiquement, un développeur sur r/opencode l'a formulé ainsi après avoir d'abord essayé les autres modèles chinois :

« I started using Kimi 2.6, then GLM 51, then DeepSeek4. But now after trying minimax m3 I am really impressed. It seems to think very deeply and really do a good job following directions... It seems to have flown a lot under the radar. »

u/gameguy56, r/opencode

Cela correspond à peu près à l'endroit où M3 se situe sur le marché : poids ouverts, capacité proche du niveau Sonnet, à des prix de niveau value.

Où se situe MiniMax M3 : un modèle open-weight avec une capacité proche du niveau Sonnet à des prix value
Où se situe MiniMax M3 : un modèle open-weight avec une capacité proche du niveau Sonnet à des prix value

Ce ne sont pas que des éloges, cependant, et la critique mérite d'être prise au sérieux si vous pensez à la production. La plainte la plus courante est la fiabilité sous pression. Un testeur sur r/hermesagent a trouvé M3 erratique :

« I feel like it is much more chaotic and verbose, as well as hallucinations being more common. Now it just suddenly keeps stopping mid action... Right now I wouldn't use it in production. »

u/FUTC-Photography, r/hermesagent

Il y a aussi une préoccupation récurrente concernant la rétention des données à propos de l'API hébergée, les utilisateurs notant qu'ils ne pouvaient pas trouver d'option claire pour s'opposer à l'utilisation des données de prompt pour l'entraînement. C'est exactement le genre de chose qui compte davantage pour les données clients que pour un projet de loisir, et c'est une grande raison pour laquelle la communauté d'auto-hébergement apprécie que les poids soient sur Hugging Face.

Le problème : un excellent modèle n'est pas encore un agent de support

Voici le recadrage avec lequel je veux que vous repartiez, car c'est ce que les gens manquent lorsqu'un nouveau modèle brillant est lancé. Un modèle comme M3 est un moteur fantastique. Mais un moteur n'est pas une voiture, et un modèle brut n'est pas un agent de support client.

Pourquoi un modèle brut a besoin d'une couche de connaissance, de simulation et de garde-fous avant de pouvoir répondre à de vrais tickets
Pourquoi un modèle brut a besoin d'une couche de connaissance, de simulation et de garde-fous avant de pouvoir répondre à de vrais tickets

J'ai passé les dernières années chez eesel à observer ce qui se passe lorsqu'on pointe un modèle de langage sur une file d'attente de support en direct, et le mode d'échec est toujours le même : le modèle sonne confiant et se trompe sur les détails, parce qu'il ne connaît pas votre politique de remboursement, vos 50 000 derniers tickets résolus, ni quelle réponse est sûre à envoyer sans qu'un humain la lise d'abord. Le modèle le plus intelligent du classement hallucine quand même votre délai d'expédition si personne ne le lui a appris. C'est pourquoi chaque déploiement eesel tourne en simulation sur des tickets historiques avant de répondre à un seul client.

Donc les questions pertinentes pour le support ne sont pas « quelle note a obtenu M3 sur SWE-Bench ». Ce sont : peut-il apprendre de mes vrais tickets et documents, puis-je le tester en sécurité avant la mise en production, et qu'est-ce qui l'empêche d'envoyer en confiance une mauvaise réponse ? Ce sont des questions de produit, pas des questions de modèle, et ce sont celles autour desquelles notre récapitulatif du meilleur IA pour le service client est construit.

Le même point surgit chaque fois qu'un chatbot répond incorrectement, et c'est pourquoi le coût d'un agent IA par rapport à un humain dépend beaucoup plus de la façon dont il résout les tickets de manière fiable que du prix par token du modèle.

eesel : la couche qui transforme un modèle en coéquipier de support

C'est exactement cet écart qu'eesel est conçu pour combler. Au lieu de vous demander de choisir un modèle et de prier, eesel s'installe au-dessus de votre helpdesk comme un coéquipier IA qui apprend de vos tickets passés, docs d'aide et outils dès le premier jour, puis rédige, triage et résout le travail de niveau 1 avec les garde-fous qui le rendent sûr à laisser tourner.

Le tableau de bord helpdesk IA d'eesel, où un coéquipier IA gère les tickets de niveau 1 dans vos outils existants
Le tableau de bord helpdesk IA d'eesel, où un coéquipier IA gère les tickets de niveau 1 dans vos outils existants

Le différenciateur concret est le mode simulation : vous faites tourner l'agent sur des milliers de vos vrais tickets passés, vous voyez exactement ce qu'il aurait répondu et où sont les lacunes, vous les comblez, et seulement alors vous passez en production, avec un routage basé sur la confiance qui maintient les réponses à faible confiance comme des brouillons plutôt que des envois. C'est ainsi que des équipes comme Smava font tourner un agent Zendesk entièrement automatisé sur plus de 100 000 tickets allemands par mois, et comment Gridwise a atteint 73 % de résolution de niveau 1 dès son premier mois. Il se connecte à plus de 100 intégrations, répond dans plus de 80 langues et fonctionne avec une tarification à l'utilisation à 0,40 $ par ticket sans frais par siège.

Si vous êtes venu ici pour choisir un modèle pour le support, le meilleur point de départ est la couche, pas le classement. Vous pouvez essayer eesel gratuitement, sans carte de crédit, et regarder l'agent résoudre vos propres tickets en simulation avant de toucher un seul client. C'est la même leçon derrière chaque déploiement de IA de service client que j'ai vu fonctionner : le modèle est interchangeable, la fiabilité ne l'est pas.

Questions fréquentes

Qu'est-ce que MiniMax M3 en termes simples ?
MiniMax M3 est un grand modèle de langage open-weight du laboratoire d'IA chinois MiniMax, lancé le 1er juin 2026. Il est conçu pour le codage et le travail agentique, gère jusqu'à 1 million de tokens de contexte et est nativement multimodal (texte, image et vidéo). Vous pouvez l'appeler via l'API de MiniMax ou télécharger les poids et l'exécuter vous-même. Pour une vue d'ensemble du secteur, consultez notre présentation de Qwen et la revue de Kimi K2.5.
MiniMax M3 est-il vraiment open source ?
Pas tout à fait. MiniMax M3 est open-weight, pas open source : les poids sont téléchargeables sous la MiniMax Community License, gratuits pour un usage non commercial, mais l'usage commercial nécessite un crédit « Built with MiniMax M3 » et une autorisation préalable au-delà de 20 M$/an de revenus. C'est plus proche de la licence d'autres modèles open-weight qu'une vraie version MIT.
Combien coûte MiniMax M3 ?
MiniMax vend M3 via un Token Plan à partir de 20 $/mois (Plus), 50 $/mois (Max) et 120 $/mois (Ultra), avec les modèles de texte, image, parole et musique partageant un seul pool d'utilisation. L'API est facturée à la longueur d'entrée, avec les appels dépassant 512K tokens facturés à un tarif de contexte long plus élevé. Consultez la ventilation complète dans la section tarifs ci-dessus, et comparez-la avec les tarifs Claude Pro.
MiniMax M3 est-il bon pour le codage ?
C'est l'une des options open-weight les plus solides pour le codage et le travail agentique, avec 59,0 % sur SWE-Bench Pro et 66,0 % sur Terminal-Bench 2.1, et il s'intègre à des outils comme Claude Code, Cline et OpenCode. Les développeurs l'évaluent généralement autour du niveau Sonnet pour le prix. Si vous choisissez un assistant de codage, notre récapitulatif des outils d'assistance au codage IA est une bonne prochaine lecture.
Puis-je utiliser MiniMax M3 pour le support client ?
Vous pouvez l'utiliser comme modèle sous-jacent, mais un modèle brut n'est pas un agent de support à lui seul. Pour répondre en toute sécurité à de vrais tickets, vous avez besoin d'une couche qui ajoute vos tickets et documents passés, une simulation sur l'historique et des garde-fous basés sur la confiance. C'est ce que l'agent helpdesk IA d'eesel fournit, quel que soit le modèle qui tourne en dessous. Voyez pourquoi les chatbots répondent incorrectement pour les modes d'échec.
Comment MiniMax M3 gère-t-il un contexte de 1 million de tokens ?
M3 utilise une nouvelle conception d'attention appelée MiniMax Sparse Attention (MSA), qui n'assiste qu'aux blocs pertinents du contexte plutôt que tout à la fois. MiniMax rapporte que cela réduit le calcul par token à environ 1/20 et offre environ 9 fois plus de vitesse de prefilling et 15 fois plus de vitesse de décodage à 1M de tokens par rapport à son modèle précédent. Le détail technique se trouve dans le rapport technique M3.

Share this article

Alicia Kirana Utomo

Article by

Alicia Kirana Utomo

Kira is a writer at eesel AI with a Computer Science background and over a year of hands-on experience evaluating AI-powered customer service tools. She focuses on breaking down how helpdesk platforms and AI agents actually work so that support teams can make better buying decisions.

Related Posts

All posts →
Illustration éditoriale pour un article explicatif sur Claude Fable 5, le modèle d'IA le plus puissant d'Anthropic
AI models

Qu'est-ce que Claude Fable 5 ? Le modèle le plus puissant d'Anthropic, expliqué

Claude Fable 5 est le fleuron de classe Mythos d'Anthropic, un cran au-dessus d'Opus 4.8, conçu pour du travail autonome qui dure des jours. Voici ce qu'il fait, ce qu'il coûte et le hic.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Illustration éditoriale pour un guide sur ce que Claude Fable 5, le modèle d'IA le plus puissant d'Anthropic, peut faire
AI models

Que peut faire Claude Fable 5 ? Un guide capacité par capacité

Que peut faire Claude Fable 5 ? Travailler des jours sans surveillance, écrire et livrer du code, lire des documents d'un million de tokens et vérifier son propre travail. Voici ce que cela signifie en pratique.

Riellvriany IndriawanRiellvriany IndriawanJun 17, 2026
Illustration de Google Gemma 4, la famille de modèles d'IA à poids ouverts, fonctionnant sur un ordinateur portable et un serveur local
AI

Qu'est-ce que Gemma 4 ? La famille de modèles d'IA ouverts de Google, expliquée

Qu'est-ce que Gemma 4 ? Un guide pratique sur la famille de modèles d'IA à poids ouverts de Google : les cinq tailles, la licence Apache 2.0, les benchmarks et ce que cela signifie pour les équipes support.

Alicia Kirana UtomoAlicia Kirana UtomoJun 20, 2026
Modèle open-weights GLM-5.2 évalué pour une utilisation professionnelle, thème benchmarks et valeur
IA

GLM-5.2 pour les entreprises : le modèle open-weights bon marché est-il prêt pour le travail réel ?

GLM-5.2 pour les entreprises : un regard lucide sur le modèle open-weights de Z.ai, ce que les benchmarks et le prix ~1/6 signifient vraiment, et où il s'intègre dans le travail réel.

Rama Adi NugrahaRama Adi NugrahaJun 21, 2026
Une mallette ouverte déversant des documents, des feuilles de calcul, des e-mails et des messages de chat pendant qu'une figure IA les note sur une fiche d'évaluation
AI

Qu'est-ce qu'AA-Briefcase ? Le benchmark IA pour le travail de connaissance réel, expliqué

AA-Briefcase est le nouveau benchmark d'Artificial Analysis qui teste l'IA sur de vrais projets de bureau s'étalant sur plusieurs semaines. Voici ce qu'il mesure, qui est en tête, et ce que cela signifie pour l'IA au travail.

Alicia Kirana UtomoAlicia Kirana UtomoJun 22, 2026
Une personne démontrant un flux de travail sur son Mac pendant que Codex l'enregistre comme une compétence réutilisable qu'un agent IA peut rejouer
AI news

OpenAI Codex : enregistrement et replay, expliqués

Ce que fait réellement la fonctionnalité enregistrement et replay d'OpenAI Codex : démontrez un flux de travail sur votre Mac une seule fois, et Codex en fait une compétence réutilisable. Comment ça marche, ses limites et à quoi ça sert.

Alicia Kirana UtomoAlicia Kirana UtomoJun 22, 2026
Illustration d'une personne qui lance un agent de codage Cursor depuis son iPhone pendant qu'un collègue examine le travail sur un ordinateur portable
AI tools

L'application Cursor iOS expliquée : ce qu'elle est vraiment en 2026

Il n'existe pas d'application Cursor native dans l'App Store. Voici ce qu'est la vraie expérience mobile de Cursor, comment l'installer et ce que vous pouvez faire depuis votre téléphone.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Illustration de Cursor Origin, une forge Git pour l'ère agentique, avec un graphe git et le logo Cursor
AI news

Qu'est-ce que Cursor Origin ? La forge Git de Cursor pour l'ère agentique, expliquée

Cursor Origin est une nouvelle forge Git conçue pour les agents IA, pas pour les humains. Voici ce que c'est vraiment, ce qui est réel, ce qui est du hype et pourquoi ça compte.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Image de bannière pour les variables de modèle de messagerie Zendesk : Un guide complet pour 2026
Blog Writer AI

Variables de modèle de messagerie Zendesk : Un guide complet pour 2026

Maîtrisez les variables de modèle de messagerie Zendesk grâce à ce guide complet couvrant la syntaxe abrégée, les champs personnalisés et des exemples d'implémentation pratiques.

Stevia PutriStevia PutriFeb 20, 2026

Prêt à recruter votre collègue IA ?

Configuration en quelques minutes. Pas de carte bancaire requise.

Commencer gratuitement