Was ist MiniMax M3? Das Open-Weight-Modell erklärt

Alicia Kirana Utomo
Geschrieben von

Alicia Kirana Utomo

Katelin Teen
Geprüft von

Katelin Teen

Zuletzt bearbeitet June 19, 2026

Expertengeprüft
Illustration des multimodalen KI-Modells MiniMax M3 mit Bild-, Audio- und Video-Eingaben

Was ist MiniMax M3?

MiniMax M3 ist ein allgemeines Large Language Model, das MiniMax als „ein Frontier-Coding- und agentisches Modell beschreibt, das auf einer neuen Attention-Architektur (MSA) mit 1M-Kontext aufgebaut ist.“ Es löst die frühere M2-Reihe (M2, M2.1, M2.5, M2.7) ab, die alle weiterhin verfügbar bleiben, und es ist das erste MiniMax-Modell, das von Anfang an multimodal trainiert wurde – es verarbeitet also Bild- und Videoeingaben und kann sogar einen Desktop-Computer bedienen.

MiniMax selbst ist ein chinesisches KI-Labor mit dem Motto „Intelligence with everyone“, dessen Angebot weit über Text hinausgeht – mit Video (Hailuo), Sprache und Musik. M3 ist das Text- und Agent-Flaggschiff dieser Produktlinie. Wer die Welle starker Modelle aus China verfolgt, findet M3 im selben Gespräch wie Qwen und Kimi K2.5, und es ist eines der interessanteren Open-Weight-Launches des Jahres.

Der offizielle Launch legte das Versprechen klar auf dem X-Account von MiniMax dar:

„Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities... Coding & Agentic Frontier: 59.0% SWE-Bench Pro, 66.0% Terminal Bench 2.1... MiniMax Sparse Attention scales context to 1M... Natively Multimodal from Step Zero“

MiniMax (@MiniMax_AI), Launch-Ankündigung

Ein Namenshinweis vorab: Es gibt kein Modell, das buchstäblich „MiniMax 3“ heißt. Der offizielle Name ist MiniMax M3, und das ist es, was dieser Leitfaden behandelt.

Wie MiniMax M3 funktioniert: Sparse Attention und ein 1M-Token-Fenster

Das Interessanteste an M3 ist nicht ein Benchmark, sondern die Architektur, die es ermöglicht, eine Million Token zu lesen, ohne dass die Kosten explodieren. Das ist der Teil, den ich wirklich clever finde, also lassen Sie mich erklären, wie es funktioniert.

Wie MiniMax Sparse Attention die Kosten eines 1M-Token-Kontexts reduziert
Wie MiniMax Sparse Attention die Kosten eines 1M-Token-Kontexts reduziert

Unter der Haube ist M3 ein Mixture-of-Experts-Modell mit rund 428B Gesamtparametern und etwa 23B aktivierten Parametern pro Token, das bei jeder Anfrage nur einen Bruchteil von sich selbst ausführt. Darüber sitzt das eigentliche Highlight: MiniMax Sparse Attention (MSA), ein neues Attention-Design, das den Kontext in Blöcke aufteilt und nur auf die relevanten achtet, anstatt jedes Token mit jedem anderen zu vergleichen.

Das ist wichtig, weil normale Attention quadratisch teurer wird, wenn der Kontext wächst, weshalb lange Kontextfenster normalerweise langsam und kostspielig sind. MiniMax berichtet, dass MSA den Rechenaufwand pro Token auf etwa 1/20 reduziert, mit mehr als 9-fach schnellerem Prefilling und 15-fach schnellerem Decoding bei einem 1M-Kontext im Vergleich zu M2, während in ihren Ablationen die volle Attention-Leistung bei den meisten Fähigkeiten erhalten bleibt. Das Ergebnis ist ein 1.000.000-Token-Kontextfenster (mit einem garantierten Minimum von 512K), gegenüber 204.800 bei der M2-Reihe.

Ein paar weitere wissenswerte Details zum Verhalten von M3:

  • Denkmodi. Ein thinking-Parameter ermöglicht es, Reasoning auf enabled, adaptive (das Modell entscheidet) oder disabled für niedrige Latenz zu setzen, und beide Modi teilen dieselbe Preisstruktur.
  • Native Multimodalität. Da es von Anfang an auf verschränktem Text, Bild und Video trainiert wurde, fusioniert M3 die Modalitäten tiefer als ein Modell, bei dem Vision nachträglich hinzugefügt wurde.
  • Gebaut für langfristige Arbeit. In MiniMaxs eigenen Demos lief M3 fast 12 Stunden autonom, um ein Forschungspapier zu reproduzieren, und verbrachte etwa 24 Stunden damit, einen CUDA-Kernel über 147 Benchmark-Einreichungen und 1.959 Tool-Aufrufe hinweg zu optimieren.

Die vollständige Methode finden Sie im M3 Technical Report, wenn Sie die Tiefe wollen.

Wie gut ist MiniMax M3? Die Benchmarks

MiniMax positioniert M3 als Frontier-Modell für Software-Engineering und Terminal-Ausführung und vergleicht es mit geschlossenen Modellen wie GPT-5.5, Gemini 3.1 Pro und Claude Opus. Hier sind die veröffentlichten Werte aus der Ankündigung:

BenchmarkWas gemessen wirdMiniMax M3
SWE-Bench ProSoftware-Fixes in der realen Welt59,0 %
Terminal-Bench 2.1Agentische Kommandozeilen-Aufgaben66,0 %
MCP AtlasTool-Nutzung über das Agent-Protokoll74,2 %
SWE-fficiencyEffiziente Code-Änderungen34,8 %
KernelBench HardGPU-Kernel-Optimierung28,8 %
PostTrainBenchAutonomes Modell-Training37,1 (#3)
Video-MME (512 Frames)Video-Verständnis84,6

Ein bisschen Ehrlichkeit darüber, was das bedeutet. Beim autonomen Modelltraining-Benchmark PostTrainBench landete M3 auf dem dritten Platz, knapp hinter Claude Opus 4.7 (42,4) und GPT-5.5 (39,3), aber vor allem anderen. Das ist das Muster insgesamt: M3 ist ausgezeichnet für ein Open-Weight-Modell und konkurrenzfähig beim Coding, aber es führt nicht die geschlossene Frontier an. Die frühere M2-Familie hatte die Open-Weight-Werte auf unabhängigen Indizes bereits erhöht, und M3 ist ein klarer Schritt darüber hinaus.

Wenn Sie den weiteren Kontext zum Vergleich dieser Modelle möchten, decken unsere Leitfäden zu Claude-Alternativen und Gemini-Alternativen die Seite der geschlossenen Modelle des Vergleichs ab.

Was kostet MiniMax M3?

Hier liegt M3s Ruf begründet. Die Preisgestaltung ist der Grund, warum Entwickler es immer wieder erwähnen.

MiniMax verkauft M3 auf zwei Wegen. Der erste ist ein Abonnement-Token-Plan, der beim Launch auf drei Stufen aktualisiert wurde, wobei Text, Bild, Sprache und Musik alle aus einem gemeinsamen Nutzungspool schöpfen:

Token-PlanPreis / MonatUngefähre M3-Token / Monat
Plus20 $~1,7B Token
Max50 $~5,1B Token
Ultra120 $~9,8B Token

MiniMax bezeichnet die Einstiegsstufe als „$20 = 10x Claude Pro“ beim Durchsatz, was Marketing ist, aber die Ausrichtung zeigt: maximale Token pro Dollar. Es ist dieselbe Niedrigpreis-Positionierung, die Sie bei Qwen-Preisen und dem Rest der Open-Weight-Gruppe sehen.

Der zweite Weg ist die Pay-as-you-go-API, abgerechnet nach Eingabelänge. Anfragen unter 512K Eingabe-Token erhalten den Standardtarif; alles darüber wird zu einem höheren Long-Context-Tarif für vollständige Repositories und ultra-lange Dokumente abgerechnet. Thinking an oder aus kostet dasselbe, und ein priority-Service-Tier ist für latenzempfindliche Workloads verfügbar. Entwickler auf r/LLMDevs berichten vom Launch-Preis pro Token von 0,60 $/2,40 $ pro Million bis 512K, was sie in „DeepSeek-Territory“ einordnet.

Die andere Hälfte der Kostengeschichte ist die Lizenz. M3 ist Open-Weight unter der MiniMax Community License: kostenlos für nicht-kommerzielle Nutzung, wobei kommerzielle Nutzung einen sichtbaren „Built with MiniMax M3“-Hinweis erfordert und bei Umsätzen über 20 Mio. USD/Jahr eine vorherige schriftliche Genehmigung. Also Open-Weight, nicht Open Source – ein Unterschied, den die Community schnell hervorhebt. Für einen reinen Kostenvergleich mit anderen kostenpflichtigen Optionen sind unsere Liste der günstigen KI-Tools und der Kimi K2.5 Preisleitfaden nützliche Referenzpunkte.

Was Entwickler wirklich über MiniMax M3 sagen

Die veröffentlichten Benchmarks sagen nur so viel. Das nützlichere Signal kommt von Entwicklern, die M3 bei echter Arbeit einsetzen, und das Urteil ist einheitlich: eine starke Wahl beim Preis-Leistungs-Verhältnis, kein Frontier-Ersatz.

Die klarste Version des Wertarguments kommt eigentlich von jemandem, der zum M2.7-Vorgänger gewechselt ist, auf r/openclaw:

„claude is a slightly better model. better reasoning, better depth on hard problems. that's just how it is. but minimax m2.7 delivers exceptionally well for what i actually use it for, at a fraction of the cost... sometimes good enough is actually great when it's reliable and affordable.“

u/[deleted], r/openclaw

Zu M3 speziell äußerte sich ein Entwickler auf r/opencode nach dem Ausprobieren anderer chinesischer Modelle so:

„I started using Kimi 2.6, then GLM 51, then DeepSeek4. But now after trying minimax m3 I am really impressed. It seems to think very deeply and really do a good job following directions... It seems to have flown a lot under the radar.“

u/gameguy56, r/opencode

Das deckt sich in etwa damit, wo M3 im Markt steht: Open-Weight, in etwa Sonnet-Klasse-Fähigkeit, zu Value-Tier-Preisen.

Wo MiniMax M3 steht: ein Open-Weight-Modell in etwa Sonnet-Klasse-Fähigkeit zu Value-Preisen
Wo MiniMax M3 steht: ein Open-Weight-Modell in etwa Sonnet-Klasse-Fähigkeit zu Value-Preisen

Es ist aber nicht nur Lob, und die Kritik sollte ernst genommen werden, wenn man an Produktion denkt. Die häufigste Beschwerde ist die Zuverlässigkeit unter Druck. Ein Tester auf r/hermesagent fand M3 unberechenbar:

„I feel like it is much more chaotic and verbose, as well as hallucinations being more common. Now it just suddenly keeps stopping mid action... Right now I wouldn't use it in production.“

u/FUTC-Photography, r/hermesagent

Es gibt auch eine wiederkehrende Datenschutzsorge rund um die gehostete API, wobei Nutzer darauf hinweisen, dass sie kein klares Opt-out dafür finden konnten, dass Prompt-Daten für das Training verwendet werden. Genau das ist der Typ von Thema, der bei Kundendaten mehr zählt als bei einem Hobbyprojekt, und das ist ein wesentlicher Grund, warum die Self-Hosting-Community schätzt, dass die Gewichte auf Hugging Face verfügbar sind.

Der Haken: Ein tolles Modell ist noch kein Support-Agent

Hier ist die Neubewertung, mit der ich Sie entlassen möchte, denn das ist das, was Menschen übersehen, wenn ein glänzendes neues Modell erscheint. Ein Modell wie M3 ist ein fantastischer Motor. Aber ein Motor ist kein Auto, und ein rohes Modell ist kein Kundensupport-Agent.

Warum ein rohes Modell eine Schicht aus Wissen, Simulation und Leitplanken benötigt, bevor es echte Tickets beantworten kann
Warum ein rohes Modell eine Schicht aus Wissen, Simulation und Leitplanken benötigt, bevor es echte Tickets beantworten kann

Ich habe die letzten Jahre bei eesel damit verbracht, zu beobachten, was passiert, wenn man ein Sprachmodell auf eine Live-Support-Warteschlange zeigt, und das Fehlermuster ist immer dasselbe: Das Modell klingt zuversichtlich und liegt bei den Besonderheiten falsch, weil es Ihre Rückerstattungsrichtlinien nicht kennt, Ihre letzten 50.000 gelösten Tickets, oder welche Antwort sicher zu senden ist, ohne dass ein Mensch sie zuerst liest. Das klügste Modell der Bestenliste halluziniert Ihren Versand-Cutoff, wenn niemand es das gelehrt hat. Deshalb läuft jede eesel-Implementierung in der Simulation gegen historische Tickets, bevor sie jemals einem Kunden antwortet.

Die relevanten Fragen für den Support sind also nicht „Was hat M3 auf SWE-Bench erzielt“. Sie lauten: Kann es aus meinen tatsächlichen Tickets und Dokumenten lernen, kann ich es sicher testen, bevor es live geht, und was hält es davon ab, eine falsche Antwort selbstsicher zu senden? Das sind Produktfragen, keine Modellfragen, und sie sind es, um die unsere Übersicht über die besten KI für den Kundendienst aufgebaut ist.

Derselbe Punkt taucht immer auf, wenn ein Chatbot falsch antwortet, und er ist der Grund, warum die Kosten eines KI-Agenten gegenüber einem Menschen viel mehr davon abhängen, wie zuverlässig er Tickets löst, als vom Preis pro Token des Modells.

eesel: Die Schicht, die ein Modell in einen Support-Teammitarbeiter verwandelt

Genau diese Lücke ist es, die eesel schließen soll. Anstatt Sie ein Modell auswählen und beten zu lassen, sitzt eesel als KI-Teammitglied auf Ihrem Helpdesk, lernt von Tag eins an aus Ihren vergangenen Tickets, Hilfe-Dokumenten und Tools und entwirft, triage und löst Tier-1-Arbeit mit den Leitplanken, die es sicher machen, es laufen zu lassen.

Das eesel KI-Helpdesk-Dashboard, wo ein KI-Teammitglied Tier-1-Tickets in Ihren bestehenden Tools bearbeitet
Das eesel KI-Helpdesk-Dashboard, wo ein KI-Teammitglied Tier-1-Tickets in Ihren bestehenden Tools bearbeitet

Das konkrete Unterscheidungsmerkmal ist der Simulationsmodus: Sie führen den Agenten gegen Tausende Ihrer echten vergangenen Tickets aus, sehen genau, was er beantwortet hätte und wo die Lücken sind, füllen sie und gehen erst dann live, wobei konfidenzbasiertes Routing Antworten mit geringer Konfidenz als Entwürfe statt als Sendungen behandelt. So führen Teams wie Smava einen vollständig automatisierten Zendesk-Agenten mit über 100.000 deutschen Tickets pro Monat durch, und so hat Gridwise in seinem ersten Monat 73 % Tier-1-Auflösung erreicht. Es verbindet sich mit 100+ Integrationen, antwortet in 80+ Sprachen und läuft auf nutzungsbasierter Preisgestaltung zu 0,40 $ pro Ticket ohne Sitzplatzgebühren.

Wenn Sie hierherkamen, um ein Modell für den Support auszuwählen, ist der bessere Ausgangspunkt die Schicht, nicht die Bestenliste. Sie können eesel ausprobieren – kostenlos, keine Kreditkarte –, und zusehen, wie es Ihre eigenen Tickets in der Simulation löst, bevor es einen einzigen Kunden berührt. Das ist die Lehre aus jedem Kundendienst-KI-Rollout, den ich erfolgreich gesehen habe: Das Modell ist austauschbar, die Zuverlässigkeit nicht.

Häufig gestellte Fragen

Was ist MiniMax M3 in einfachen Worten?
MiniMax M3 ist ein Open-Weight-Large-Language-Modell des chinesischen KI-Labors MiniMax, das am 1. Juni 2026 veröffentlicht wurde. Es ist für Coding und agentische Arbeit ausgelegt, verarbeitet bis zu 1 Million Token Kontext und ist nativ multimodal (Text, Bild und Video). Sie können es über die MiniMax-API aufrufen oder die Gewichte herunterladen und selbst betreiben. Einen Überblick über das weitere Feld finden Sie in unserem Qwen-Überblick und unserem Kimi K2.5 Test.
Ist MiniMax M3 wirklich Open Source?
Nicht ganz. MiniMax M3 ist Open-Weight, nicht Open Source: Die Gewichte sind herunterladbar unter der MiniMax Community License, kostenlos für nicht-kommerzielle Nutzung, aber kommerzielle Nutzung erfordert eine „Built with MiniMax M3“-Nennung und bei Umsätzen über 20 Mio. USD/Jahr eine vorherige Genehmigung. Das ähnelt eher der Lizenzierung anderer Open-Weight-Modelle als einem echten MIT-Release.
Was kostet MiniMax M3?
MiniMax verkauft M3 über einen Token-Plan ab 20 $/Monat (Plus), 50 $/Monat (Max) und 120 $/Monat (Ultra), wobei Text-, Bild-, Sprach- und Musikmodelle einen gemeinsamen Nutzungspool teilen. Die API wird nach Eingabelänge abgerechnet, wobei Anfragen über 512K Token zu einem höheren Long-Context-Tarif berechnet werden. Eine vollständige Aufschlüsselung finden Sie im Preisabschnitt oben, und vergleichen Sie ihn mit dem Claude Pro Preis.
Ist MiniMax M3 gut für Coding?
Es ist eine der stärkeren Open-Weight-Optionen für Coding und agentische Arbeit, mit 59,0 % auf SWE-Bench Pro und 66,0 % auf Terminal-Bench 2.1, und es lässt sich in Umgebungen wie Claude Code, Cline und OpenCode integrieren. Entwickler bewerten es in etwa auf Sonnet-Niveau für den Preis. Wenn Sie einen Coding-Assistenten auswählen, ist unser Überblick über KI-Coding-Assistenten eine gute nächste Lektüre.
Kann ich MiniMax M3 für den Kundensupport verwenden?
Sie können es als zugrunde liegendes Modell verwenden, aber ein rohes Modell ist noch kein eigenständiger Support-Agent. Um reale Tickets sicher zu beantworten, brauchen Sie eine Schicht, die Ihre bisherigen Tickets und Dokumente einbindet, Simulationen anhand des Verlaufs durchführt und konfidenzbasierte Leitplanken setzt. Das ist das, was eesels KI-Helpdesk-Agent bietet, unabhängig davon, welches Modell darunter läuft. Sehen Sie, warum Chatbots falsch antworten, um die typischen Fehlermodi zu verstehen.
Wie bewältigt MiniMax M3 einen 1-Millionen-Token-Kontext?
M3 verwendet ein neues Attention-Design namens MiniMax Sparse Attention (MSA), das nur auf relevante Blöcke des Kontexts achtet statt auf alles auf einmal. MiniMax berichtet, dass dies den Rechenaufwand pro Token auf etwa 1/20 reduziert und bei 1M Token gegenüber dem Vorgängermodell etwa 9-fach schnelleres Prefilling und 15-fach schnelleres Decoding liefert. Das technische Detail ist im M3 Technical Report enthalten.

Share this article

Alicia Kirana Utomo

Article by

Alicia Kirana Utomo

Kira is a writer at eesel AI with a Computer Science background and over a year of hands-on experience evaluating AI-powered customer service tools. She focuses on breaking down how helpdesk platforms and AI agents actually work so that support teams can make better buying decisions.

Related Posts

All posts →
Redaktionelle Illustration für einen Erklärartikel über Claude Fable 5, Anthropics leistungsstärkstes KI-Modell
AI models

Was ist Claude Fable 5? Anthropics leistungsstärkstes Modell, erklärt

Claude Fable 5 ist Anthropics Flaggschiff der Mythos-Klasse, eine Stufe über Opus 4.8, gebaut für tagelange autonome Arbeit. Hier erfahren Sie, was es kann, was es kostet und wo der Haken liegt.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Redaktionelle Illustration für einen Leitfaden dazu, was Claude Fable 5, Anthropics leistungsstärkstes KI-Modell, kann
AI models

Was kann Claude Fable 5? Ein Leitfaden Funktion für Funktion

Was kann Claude Fable 5? Tagelang unbeaufsichtigt arbeiten, Code schreiben und ausliefern, Dokumente mit 1 Mio. Tokens lesen und die eigene Arbeit prüfen. Hier erfahren Sie, was das in der Praxis bedeutet.

Riellvriany IndriawanRiellvriany IndriawanJun 17, 2026
Sakana Fugu, ein KI-Modell, das einen Pool anderer KI-Modelle orchestriert
AI

Was ist Sakana Fugu? Das KI-Modell, das andere KI-Modelle steuert

Sakana Fugu ist ein KI-Modell, das andere KI-Modelle über eine einzige API orchestriert. Hier erfahren Sie, wie es funktioniert, was es kostet und ob der Hype berechtigt ist.

Alicia Kirana UtomoAlicia Kirana UtomoJun 23, 2026
Ein offener Aktenkoffer, aus dem Dokumente, Tabellen, E-Mails und Chat-Nachrichten quellen, während eine KI-Figur sie auf einer Scorecard bewertet
AI

Was ist AA-Briefcase? Der KI-Benchmark für echte Wissensarbeit, erklärt

AA-Briefcase ist der neue Benchmark von Artificial Analysis, der KI an realen, mehrwöchigen Büroprojekten testet. Was er misst, wer vorne liegt und was das für den KI-Einsatz im Beruf bedeutet.

Alicia Kirana UtomoAlicia Kirana UtomoJun 22, 2026
Eine Person führt auf ihrem Mac einen Workflow vor, während Codex ihn als wiederverwendbare Fähigkeit aufzeichnet und ein KI-Agent ihn abspielt
AI news

OpenAI Codex Aufzeichnung und Wiedergabe, erklärt

Was OpenAI Codex Aufzeichnung und Wiedergabe tatsächlich leistet: Führen Sie einen Workflow auf Ihrem Mac einmal vor, und Codex wandelt ihn in eine wiederverwendbare Fähigkeit um. Wie es funktioniert, seine Grenzen und wo es passt.

Alicia Kirana UtomoAlicia Kirana UtomoJun 22, 2026
Illustration von Google Gemma 4, der Open-Weight-KI-Modellfamilie, die auf einem Laptop und einem lokalen Server läuft
AI

Was ist Gemma 4? Googles offene KI-Modellfamilie, erklärt

Was ist Gemma 4? Ein verständlicher Leitfaden zu Googles Open-Weight-Modellfamilie: die fünf Größen, die Apache-2.0-Lizenz, die Benchmarks und was das für Support-Teams bedeutet.

Alicia Kirana UtomoAlicia Kirana UtomoJun 20, 2026
Illustration einer Person, die einen Cursor-Coding-Agenten von ihrem iPhone aus startet, während ein Kollege die Arbeit am Laptop überprüft
AI tools

Die Cursor iOS App erklärt: Was sie 2026 wirklich ist

Es gibt keine native Cursor iOS App im App Store. Hier erfährst du, was die echte mobile Cursor-Erfahrung ist, wie du sie installierst und was du von deinem Handy aus tun kannst.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Illustration von Cursor Origin, einer Git-Forge für die agentische Ära, mit einem Git-Graphen und dem Cursor-Logo
AI news

Was ist Cursor Origin? Cursors Git-Forge für die agentische Ära, erklärt

Cursor Origin ist eine neue Git-Forge, die für KI-Agenten, nicht für Menschen gebaut wurde. Hier ist, was es wirklich ist, was real ist, was Hype ist und warum es wichtig ist.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Redaktionelle Illustration eines Support-Teams in einem ruhigen Arbeitsbereich, umgeben von Chat-Blasen, Tickets und den Logos führender KI-Kundenservice-Tools
AI tools

Ich habe 10 KI-Tools für den Kundenservice in 2026 getestet – das funktioniert wirklich

Ein ehrlicher Überblick über die 10 KI-Tools für den Kundenservice, die 2026 eine engere Auswahl verdienen – für wen jedes davon wirklich geeignet ist und was es tatsächlich kostet.

Alicia Kirana UtomoAlicia Kirana UtomoJun 10, 2026

Bereit, Ihren KI-Teamkollegen einzustellen?

In Minuten eingerichtet. Keine Kreditkarte erforderlich.

Kostenlos starten