Was ist MiniMax M3? Das Open-Weight-Modell erklärt

Geschrieben von

Alicia Kirana Utomo

Geprüft von

Katelin Teen

Zuletzt bearbeitet June 19, 2026

Expertengeprüft

Illustration des multimodalen KI-Modells MiniMax M3 mit Bild-, Audio- und Video-Eingaben

TL;DR

MiniMax M3 (wonach manche als „MiniMax 3“ suchen) ist das neueste Open-Weight-Modell des chinesischen KI-Labors MiniMax, veröffentlicht am 1. Juni 2026. Das Wesentliche ist drei Dinge in einem Modell: Frontier-Level-Coding und agentische Arbeit, ein 1-Millionen-Token-Kontextfenster und native Multimodalität, alles auf einem neuen Sparse-Attention-Design, das die Kosten niedrig hält. Es ist die Open-Weight-Wahl, die viele Entwickler inzwischen in Tools wie Claude Code einsetzen, und es ist preislich so gestaltet, um die geschlossenen Frontier-Modelle zu unterbieten.

Wenn Sie M3 speziell für den Kundensupport evaluieren, ist hier das Wesentliche: Das Modell ist der einfache Teil. Ich baue KI-Agenten für den Helpdesk bei eesel, und was wirklich entscheidet, ob einem Bot bei echten Kunden vertraut werden kann, ist die Schicht rund um das Modell – das Wissen, die Simulation und die Leitplanken –, nicht der rohe Benchmark-Wert. Mehr dazu weiter unten.

Walkthrough der MiniMax M3 Modellseite, entnommen von MiniMax

Was ist MiniMax M3?

MiniMax M3 ist ein allgemeines Large Language Model, das MiniMax als „ein Frontier-Coding- und agentisches Modell beschreibt, das auf einer neuen Attention-Architektur (MSA) mit 1M-Kontext aufgebaut ist.“ Es löst die frühere M2-Reihe (M2, M2.1, M2.5, M2.7) ab, die alle weiterhin verfügbar bleiben, und es ist das erste MiniMax-Modell, das von Anfang an multimodal trainiert wurde – es verarbeitet also Bild- und Videoeingaben und kann sogar einen Desktop-Computer bedienen.

MiniMax selbst ist ein chinesisches KI-Labor mit dem Motto „Intelligence with everyone“, dessen Angebot weit über Text hinausgeht – mit Video (Hailuo), Sprache und Musik. M3 ist das Text- und Agent-Flaggschiff dieser Produktlinie. Wer die Welle starker Modelle aus China verfolgt, findet M3 im selben Gespräch wie Qwen und Kimi K2.5, und es ist eines der interessanteren Open-Weight-Launches des Jahres.

Der offizielle Launch legte das Versprechen klar auf dem X-Account von MiniMax dar:

„Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities... Coding & Agentic Frontier: 59.0% SWE-Bench Pro, 66.0% Terminal Bench 2.1... MiniMax Sparse Attention scales context to 1M... Natively Multimodal from Step Zero“

MiniMax (@MiniMax_AI), Launch-Ankündigung

Ein Namenshinweis vorab: Es gibt kein Modell, das buchstäblich „MiniMax 3“ heißt. Der offizielle Name ist MiniMax M3, und das ist es, was dieser Leitfaden behandelt.

Wie MiniMax M3 funktioniert: Sparse Attention und ein 1M-Token-Fenster

Das Interessanteste an M3 ist nicht ein Benchmark, sondern die Architektur, die es ermöglicht, eine Million Token zu lesen, ohne dass die Kosten explodieren. Das ist der Teil, den ich wirklich clever finde, also lassen Sie mich erklären, wie es funktioniert.

Wie MiniMax Sparse Attention die Kosten eines 1M-Token-Kontexts reduziert

Unter der Haube ist M3 ein Mixture-of-Experts-Modell mit rund 428B Gesamtparametern und etwa 23B aktivierten Parametern pro Token, das bei jeder Anfrage nur einen Bruchteil von sich selbst ausführt. Darüber sitzt das eigentliche Highlight: MiniMax Sparse Attention (MSA), ein neues Attention-Design, das den Kontext in Blöcke aufteilt und nur auf die relevanten achtet, anstatt jedes Token mit jedem anderen zu vergleichen.

Das ist wichtig, weil normale Attention quadratisch teurer wird, wenn der Kontext wächst, weshalb lange Kontextfenster normalerweise langsam und kostspielig sind. MiniMax berichtet, dass MSA den Rechenaufwand pro Token auf etwa 1/20 reduziert, mit mehr als 9-fach schnellerem Prefilling und 15-fach schnellerem Decoding bei einem 1M-Kontext im Vergleich zu M2, während in ihren Ablationen die volle Attention-Leistung bei den meisten Fähigkeiten erhalten bleibt. Das Ergebnis ist ein 1.000.000-Token-Kontextfenster (mit einem garantierten Minimum von 512K), gegenüber 204.800 bei der M2-Reihe.

Ein paar weitere wissenswerte Details zum Verhalten von M3:

Denkmodi. Ein thinking-Parameter ermöglicht es, Reasoning auf enabled, adaptive (das Modell entscheidet) oder disabled für niedrige Latenz zu setzen, und beide Modi teilen dieselbe Preisstruktur.
Native Multimodalität. Da es von Anfang an auf verschränktem Text, Bild und Video trainiert wurde, fusioniert M3 die Modalitäten tiefer als ein Modell, bei dem Vision nachträglich hinzugefügt wurde.
Gebaut für langfristige Arbeit. In MiniMaxs eigenen Demos lief M3 fast 12 Stunden autonom, um ein Forschungspapier zu reproduzieren, und verbrachte etwa 24 Stunden damit, einen CUDA-Kernel über 147 Benchmark-Einreichungen und 1.959 Tool-Aufrufe hinweg zu optimieren.

Die vollständige Methode finden Sie im M3 Technical Report, wenn Sie die Tiefe wollen.

Wie gut ist MiniMax M3? Die Benchmarks

MiniMax positioniert M3 als Frontier-Modell für Software-Engineering und Terminal-Ausführung und vergleicht es mit geschlossenen Modellen wie GPT-5.5, Gemini 3.1 Pro und Claude Opus. Hier sind die veröffentlichten Werte aus der Ankündigung:

Benchmark	Was gemessen wird	MiniMax M3
SWE-Bench Pro	Software-Fixes in der realen Welt	59,0 %
Terminal-Bench 2.1	Agentische Kommandozeilen-Aufgaben	66,0 %
MCP Atlas	Tool-Nutzung über das Agent-Protokoll	74,2 %
SWE-fficiency	Effiziente Code-Änderungen	34,8 %
KernelBench Hard	GPU-Kernel-Optimierung	28,8 %
PostTrainBench	Autonomes Modell-Training	37,1 (#3)
Video-MME (512 Frames)	Video-Verständnis	84,6

Ein bisschen Ehrlichkeit darüber, was das bedeutet. Beim autonomen Modelltraining-Benchmark PostTrainBench landete M3 auf dem dritten Platz, knapp hinter Claude Opus 4.7 (42,4) und GPT-5.5 (39,3), aber vor allem anderen. Das ist das Muster insgesamt: M3 ist ausgezeichnet für ein Open-Weight-Modell und konkurrenzfähig beim Coding, aber es führt nicht die geschlossene Frontier an. Die frühere M2-Familie hatte die Open-Weight-Werte auf unabhängigen Indizes bereits erhöht, und M3 ist ein klarer Schritt darüber hinaus.

Wenn Sie den weiteren Kontext zum Vergleich dieser Modelle möchten, decken unsere Leitfäden zu Claude-Alternativen und Gemini-Alternativen die Seite der geschlossenen Modelle des Vergleichs ab.

Was kostet MiniMax M3?

Hier liegt M3s Ruf begründet. Die Preisgestaltung ist der Grund, warum Entwickler es immer wieder erwähnen.

MiniMax verkauft M3 auf zwei Wegen. Der erste ist ein Abonnement-Token-Plan, der beim Launch auf drei Stufen aktualisiert wurde, wobei Text, Bild, Sprache und Musik alle aus einem gemeinsamen Nutzungspool schöpfen:

Token-Plan	Preis / Monat	Ungefähre M3-Token / Monat
Plus	20 $	~1,7B Token
Max	50 $	~5,1B Token
Ultra	120 $	~9,8B Token

MiniMax bezeichnet die Einstiegsstufe als „$20 = 10x Claude Pro“ beim Durchsatz, was Marketing ist, aber die Ausrichtung zeigt: maximale Token pro Dollar. Es ist dieselbe Niedrigpreis-Positionierung, die Sie bei Qwen-Preisen und dem Rest der Open-Weight-Gruppe sehen.

Der zweite Weg ist die Pay-as-you-go-API, abgerechnet nach Eingabelänge. Anfragen unter 512K Eingabe-Token erhalten den Standardtarif; alles darüber wird zu einem höheren Long-Context-Tarif für vollständige Repositories und ultra-lange Dokumente abgerechnet. Thinking an oder aus kostet dasselbe, und ein priority-Service-Tier ist für latenzempfindliche Workloads verfügbar. Entwickler auf r/LLMDevs berichten vom Launch-Preis pro Token von 0,60 $/2,40 $ pro Million bis 512K, was sie in „DeepSeek-Territory“ einordnet.

Die andere Hälfte der Kostengeschichte ist die Lizenz. M3 ist Open-Weight unter der MiniMax Community License: kostenlos für nicht-kommerzielle Nutzung, wobei kommerzielle Nutzung einen sichtbaren „Built with MiniMax M3“-Hinweis erfordert und bei Umsätzen über 20 Mio. USD/Jahr eine vorherige schriftliche Genehmigung. Also Open-Weight, nicht Open Source – ein Unterschied, den die Community schnell hervorhebt. Für einen reinen Kostenvergleich mit anderen kostenpflichtigen Optionen sind unsere Liste der günstigen KI-Tools und der Kimi K2.5 Preisleitfaden nützliche Referenzpunkte.

Was Entwickler wirklich über MiniMax M3 sagen

Die veröffentlichten Benchmarks sagen nur so viel. Das nützlichere Signal kommt von Entwicklern, die M3 bei echter Arbeit einsetzen, und das Urteil ist einheitlich: eine starke Wahl beim Preis-Leistungs-Verhältnis, kein Frontier-Ersatz.

Die klarste Version des Wertarguments kommt eigentlich von jemandem, der zum M2.7-Vorgänger gewechselt ist, auf r/openclaw:

„claude is a slightly better model. better reasoning, better depth on hard problems. that's just how it is. but minimax m2.7 delivers exceptionally well for what i actually use it for, at a fraction of the cost... sometimes good enough is actually great when it's reliable and affordable.“

u/[deleted], r/openclaw

Zu M3 speziell äußerte sich ein Entwickler auf r/opencode nach dem Ausprobieren anderer chinesischer Modelle so:

„I started using Kimi 2.6, then GLM 51, then DeepSeek4. But now after trying minimax m3 I am really impressed. It seems to think very deeply and really do a good job following directions... It seems to have flown a lot under the radar.“

u/gameguy56, r/opencode

Das deckt sich in etwa damit, wo M3 im Markt steht: Open-Weight, in etwa Sonnet-Klasse-Fähigkeit, zu Value-Tier-Preisen.

Wo MiniMax M3 steht: ein Open-Weight-Modell in etwa Sonnet-Klasse-Fähigkeit zu Value-Preisen

Es ist aber nicht nur Lob, und die Kritik sollte ernst genommen werden, wenn man an Produktion denkt. Die häufigste Beschwerde ist die Zuverlässigkeit unter Druck. Ein Tester auf r/hermesagent fand M3 unberechenbar:

„I feel like it is much more chaotic and verbose, as well as hallucinations being more common. Now it just suddenly keeps stopping mid action... Right now I wouldn't use it in production.“

u/FUTC-Photography, r/hermesagent

Es gibt auch eine wiederkehrende Datenschutzsorge rund um die gehostete API, wobei Nutzer darauf hinweisen, dass sie kein klares Opt-out dafür finden konnten, dass Prompt-Daten für das Training verwendet werden. Genau das ist der Typ von Thema, der bei Kundendaten mehr zählt als bei einem Hobbyprojekt, und das ist ein wesentlicher Grund, warum die Self-Hosting-Community schätzt, dass die Gewichte auf Hugging Face verfügbar sind.

Der Haken: Ein tolles Modell ist noch kein Support-Agent

Hier ist die Neubewertung, mit der ich Sie entlassen möchte, denn das ist das, was Menschen übersehen, wenn ein glänzendes neues Modell erscheint. Ein Modell wie M3 ist ein fantastischer Motor. Aber ein Motor ist kein Auto, und ein rohes Modell ist kein Kundensupport-Agent.

Warum ein rohes Modell eine Schicht aus Wissen, Simulation und Leitplanken benötigt, bevor es echte Tickets beantworten kann

Ich habe die letzten Jahre bei eesel damit verbracht, zu beobachten, was passiert, wenn man ein Sprachmodell auf eine Live-Support-Warteschlange zeigt, und das Fehlermuster ist immer dasselbe: Das Modell klingt zuversichtlich und liegt bei den Besonderheiten falsch, weil es Ihre Rückerstattungsrichtlinien nicht kennt, Ihre letzten 50.000 gelösten Tickets, oder welche Antwort sicher zu senden ist, ohne dass ein Mensch sie zuerst liest. Das klügste Modell der Bestenliste halluziniert Ihren Versand-Cutoff, wenn niemand es das gelehrt hat. Deshalb läuft jede eesel-Implementierung in der Simulation gegen historische Tickets, bevor sie jemals einem Kunden antwortet.

Die relevanten Fragen für den Support sind also nicht „Was hat M3 auf SWE-Bench erzielt“. Sie lauten: Kann es aus meinen tatsächlichen Tickets und Dokumenten lernen, kann ich es sicher testen, bevor es live geht, und was hält es davon ab, eine falsche Antwort selbstsicher zu senden? Das sind Produktfragen, keine Modellfragen, und sie sind es, um die unsere Übersicht über die besten KI für den Kundendienst aufgebaut ist.

Derselbe Punkt taucht immer auf, wenn ein Chatbot falsch antwortet, und er ist der Grund, warum die Kosten eines KI-Agenten gegenüber einem Menschen viel mehr davon abhängen, wie zuverlässig er Tickets löst, als vom Preis pro Token des Modells.

eesel: Die Schicht, die ein Modell in einen Support-Teammitarbeiter verwandelt

Genau diese Lücke ist es, die eesel schließen soll. Anstatt Sie ein Modell auswählen und beten zu lassen, sitzt eesel als KI-Teammitglied auf Ihrem Helpdesk, lernt von Tag eins an aus Ihren vergangenen Tickets, Hilfe-Dokumenten und Tools und entwirft, triage und löst Tier-1-Arbeit mit den Leitplanken, die es sicher machen, es laufen zu lassen.

Das eesel KI-Helpdesk-Dashboard, wo ein KI-Teammitglied Tier-1-Tickets in Ihren bestehenden Tools bearbeitet

Das konkrete Unterscheidungsmerkmal ist der Simulationsmodus: Sie führen den Agenten gegen Tausende Ihrer echten vergangenen Tickets aus, sehen genau, was er beantwortet hätte und wo die Lücken sind, füllen sie und gehen erst dann live, wobei konfidenzbasiertes Routing Antworten mit geringer Konfidenz als Entwürfe statt als Sendungen behandelt. So führen Teams wie Smava einen vollständig automatisierten Zendesk-Agenten mit über 100.000 deutschen Tickets pro Monat durch, und so hat Gridwise in seinem ersten Monat 73 % Tier-1-Auflösung erreicht. Es verbindet sich mit 100+ Integrationen, antwortet in 80+ Sprachen und läuft auf nutzungsbasierter Preisgestaltung zu 0,40 $ pro Ticket ohne Sitzplatzgebühren.

Wenn Sie hierherkamen, um ein Modell für den Support auszuwählen, ist der bessere Ausgangspunkt die Schicht, nicht die Bestenliste. Sie können eesel ausprobieren – kostenlos, keine Kreditkarte –, und zusehen, wie es Ihre eigenen Tickets in der Simulation löst, bevor es einen einzigen Kunden berührt. Das ist die Lehre aus jedem Kundendienst-KI-Rollout, den ich erfolgreich gesehen habe: Das Modell ist austauschbar, die Zuverlässigkeit nicht.

Häufig gestellte Fragen

Was ist MiniMax M3 in einfachen Worten?

MiniMax M3 ist ein Open-Weight-Large-Language-Modell des chinesischen KI-Labors MiniMax, das am 1. Juni 2026 veröffentlicht wurde. Es ist für Coding und agentische Arbeit ausgelegt, verarbeitet bis zu 1 Million Token Kontext und ist nativ multimodal (Text, Bild und Video). Sie können es über die MiniMax-API aufrufen oder die Gewichte herunterladen und selbst betreiben. Einen Überblick über das weitere Feld finden Sie in unserem Qwen-Überblick und unserem Kimi K2.5 Test.

Ist MiniMax M3 wirklich Open Source?

Nicht ganz. MiniMax M3 ist Open-Weight, nicht Open Source: Die Gewichte sind herunterladbar unter der MiniMax Community License, kostenlos für nicht-kommerzielle Nutzung, aber kommerzielle Nutzung erfordert eine „Built with MiniMax M3“-Nennung und bei Umsätzen über 20 Mio. USD/Jahr eine vorherige Genehmigung. Das ähnelt eher der Lizenzierung anderer Open-Weight-Modelle als einem echten MIT-Release.

Was kostet MiniMax M3?

MiniMax verkauft M3 über einen Token-Plan ab 20 $/Monat (Plus), 50 $/Monat (Max) und 120 $/Monat (Ultra), wobei Text-, Bild-, Sprach- und Musikmodelle einen gemeinsamen Nutzungspool teilen. Die API wird nach Eingabelänge abgerechnet, wobei Anfragen über 512K Token zu einem höheren Long-Context-Tarif berechnet werden. Eine vollständige Aufschlüsselung finden Sie im Preisabschnitt oben, und vergleichen Sie ihn mit dem Claude Pro Preis.

Ist MiniMax M3 gut für Coding?

Es ist eine der stärkeren Open-Weight-Optionen für Coding und agentische Arbeit, mit 59,0 % auf SWE-Bench Pro und 66,0 % auf Terminal-Bench 2.1, und es lässt sich in Umgebungen wie Claude Code, Cline und OpenCode integrieren. Entwickler bewerten es in etwa auf Sonnet-Niveau für den Preis. Wenn Sie einen Coding-Assistenten auswählen, ist unser Überblick über KI-Coding-Assistenten eine gute nächste Lektüre.

Kann ich MiniMax M3 für den Kundensupport verwenden?

Sie können es als zugrunde liegendes Modell verwenden, aber ein rohes Modell ist noch kein eigenständiger Support-Agent. Um reale Tickets sicher zu beantworten, brauchen Sie eine Schicht, die Ihre bisherigen Tickets und Dokumente einbindet, Simulationen anhand des Verlaufs durchführt und konfidenzbasierte Leitplanken setzt. Das ist das, was eesels KI-Helpdesk-Agent bietet, unabhängig davon, welches Modell darunter läuft. Sehen Sie, warum Chatbots falsch antworten, um die typischen Fehlermodi zu verstehen.

Wie bewältigt MiniMax M3 einen 1-Millionen-Token-Kontext?

M3 verwendet ein neues Attention-Design namens MiniMax Sparse Attention (MSA), das nur auf relevante Blöcke des Kontexts achtet statt auf alles auf einmal. MiniMax berichtet, dass dies den Rechenaufwand pro Token auf etwa 1/20 reduziert und bei 1M Token gegenüber dem Vorgängermodell etwa 9-fach schnelleres Prefilling und 15-fach schnelleres Decoding liefert. Das technische Detail ist im M3 Technical Report enthalten.

Stellen Sie Ihren KI-Teamkollegen ein

In Minuten eingerichtet. Keine Kreditkarte erforderlich.

Kostenlos testen Demo buchen

Share this article

Article by

Alicia Kirana Utomo

Kira is a writer at eesel AI with a Computer Science background and over a year of hands-on experience evaluating AI-powered customer service tools. She focuses on breaking down how helpdesk platforms and AI agents actually work so that support teams can make better buying decisions.