
Am 19. November 2025 stellte OpenAI mit GPT-5.1-Codex-Max sein neues Coding-Modell vor, das eine bedeutende Entwicklung darstellt. Dieses Modell wird als substanzieller Fortschritt in der KI-gestützten Programmierung positioniert.
Es wurde von Grund auf für langwierige, komplizierte Software-Engineering-Aufgaben entwickelt. Ein Schlüsselmerkmal ist die „Compaction“ (Kompaktierung), die der KI hilft, den Kontext über Millionen von Tokens (Token) hinweg aufrechtzuerhalten, ohne den Faden zu verlieren.
In diesem Beitrag werden wir untersuchen, was GPT-5.1-Codex-Max genau ist, uns seine neuen Funktionen ansehen, vergleichen, wie es im Wettbewerb mit Modellen wie Googles Gemini 3 Pro und Anthropics Claude Opus 4.5 abschneidet, und überlegen, was diese Art von KI für Unternehmen außerhalb der Softwareentwicklung bedeutet.
Was ist GPT 5.1 Codex Max?
GPT-5.1-Codex-Max unterscheidet sich von Allzweckmodellen wie ChatGPT. Es ist ein hochspezialisierter KI-Agent (AI agent), der auf einem aktualisierten grundlegenden logischen Modell (foundational reasoning model) basiert. Er wurde gezielt für agentische Aufgaben in den Bereichen Softwareentwicklung, Mathematik und Forschung trainiert. Betrachten Sie ihn weniger als einen Chatbot, sondern eher als einen Junior-Entwickler, mit dem Sie Pair-Programming betreiben können.
Es ist so konzipiert, dass es direkt in Entwicklungsumgebungen wie dem Codex CLI, IDE-Erweiterungen, Cloud-Diensten und Code-Review-Tools integriert ist. Das bedeutet, es arbeitet dort, wo Entwickler ihre Zeit verbringen, und unterstützt bei den detaillierten Aspekten der Softwareerstellung.
Das Modell ist darauf ausgelegt, lange, detaillierte Projekte zu bewältigen, die für andere KI-Modelle eine Herausforderung darstellen können. Zu diesen Aufgaben gehören projektübergreifendes Code-Refactoring (Code-Überarbeitung), tiefgehende Debugging-Sitzungen und das Erstellen ganzer Funktionen von Grund auf. Es soll ein autonomer Partner sein und nicht nur ein Werkzeug, das eine Codezeile automatisch vervollständigt. Als neues Standardmodell in allen Codex-Oberflächen bietet es im Vergleich zu seinem Vorgänger GPT-5.1-Codex eine höhere Geschwindigkeit und Token-Effizienz.
Die Hauptfunktionen von GPT 5.1 Codex Max
Die Veröffentlichung von GPT-5.1-Codex-Max führt grundlegende Änderungen in der Art und Weise ein, wie KI-Agenten komplexe, mehrstufige Aufgaben angehen, was sowohl die Leistung als auch die Effizienz steigert.
Agentische Coding-Fähigkeiten (Agentic coding)
Was bedeutet „agentisches Coding“? Es ist die Fähigkeit der KI, Code eigenständig zu planen, zu schreiben, zu testen und zu korrigieren, wobei nur minimale menschliche Anleitung erforderlich ist. Anstatt nur auf spezifische Prompts zu reagieren, kann sie ein grobes Ziel übernehmen und unabhängig die notwendigen Schritte festlegen, um dieses zu erreichen.
Die Leistungszahlen verdeutlichen diese Fähigkeit. In Branchen-Benchmarks erzielt das Modell hohe Punktzahlen, wie in der offiziellen Ankündigung von OpenAI geteilt wurde:
-
SWE-bench Verified: 77,9 %
-
SWE-Lancer IC SWE: 79,9 %
-
Terminal-Bench 2.0: 58,1 %
Diese Benchmarks sind nicht rein theoretisch. Benchmarks wie SWE-bench prüfen das Geschick des Modells beim Lösen echter Software-Engineering-Probleme, die aus tatsächlichen GitHub-Issues stammen. Dies bietet eine Simulation realer Arbeitsaufgaben für eine KI.
Ein weiteres wichtiges Update ist das Training für Windows-Umgebungen, womit es das erste OpenAI-Modell mit dieser Fähigkeit ist. Dies ist eine bemerkenswerte Verbesserung für die große Gemeinschaft von Entwicklern, die Windows nutzen.
Langfristige Aufgaben mit Compaction (Kompaktierung)
Eine häufige Herausforderung bei großen Sprachmodellen ist die Begrenzung des Kontextfensters (context window). Es ist wie ein Kurzzeitgedächtnis; sobald es voll ist, beginnt die KI zu vergessen, worüber Sie zu Beginn gesprochen haben. Dies kann eine erhebliche Einschränkung für Coding-Aufgaben sein, die sich über mehrere Stunden erstrecken.
GPT-5.1-Codex-Max begegnet diesem Problem mit einer Funktion namens „Compaction“. Dies ist ein Prozess, bei dem das Modell seine eigene Arbeitshistorie kontinuierlich verfeinert, den relevantesten Kontext beibehält und nebensächliche Informationen verwirft. Dadurch kann es über einen langen Zeitraum hinweg kohärent mit Millionen von Tokens arbeiten.
Man kann es sich so vorstellen, dass die KI während der Arbeit ihre eigenen Notizen macht. Sie behält das Hauptziel, wichtige Variablen und entscheidende Beschlüsse im Blick, damit sie das Ziel nicht aus den Augen verliert, selbst wenn eine Aufgabe sehr zeitintensiv ist.
Wie lange kann sie laufen? In eigenen Tests beobachtete OpenAI, wie das Modell über 24 Stunden lang an einer einzigen Aufgabe arbeitete und seine Arbeit ständig anpasste und verbesserte, bis sie abgeschlossen war. Dies demonstriert ein Maß an Ausdauer, das bisher bei ähnlichen Modellen nicht zu sehen war.
Verbesserte Geschwindigkeit und Kosteneffizienz
Zusätzlich zu den Leistungssteigerungen bietet GPT-5.1-Codex-Max Verbesserungen bei der Kosteneffizienz. Im SWE-bench Verified Benchmark erzielt es bessere Ergebnisse als die Vorgängerversion auf der „mittleren“ Stufe des logischen Aufwands (reasoning effort) und verbraucht dabei 30 % weniger „Thinking Tokens“.
Benutzer haben zudem mehr Kontrolle über den logischen Aufwand. Sie können bei alltäglichen Aufgaben bei „medium“ bleiben oder für besonders knifflige Probleme auf die neue Einstellung „xhigh“ wechseln, bei der eine längere Wartezeit für eine umfassendere Antwort akzeptabel ist.
Diese Effizienz führt zu niedrigeren Kosten. OpenAI zeigte beispielsweise, wie das Modell hochwertige Frontend-Designs erstellen kann, und zwar für viel weniger Geld, als es mit dem alten Modell gekostet hätte. Dies ermöglicht einen umfassenderen Einsatz der KI für verschiedene Aufgaben bei gleichzeitigem Management der API-Kosten.
Vergleich mit anderen Modellen
Der Vergleich eines Modells mit seinen Zeitgenossen liefert den nötigen Kontext für seine Fähigkeiten. Hier ist ein Blick darauf, wie GPT-5.1-Codex-Max im Vergleich zu anderen Top-Modellen abschneidet, basierend auf offiziellen Benchmarks und Entwickler-Feedback.
Fortschritte gegenüber GPT-5.1-Codex
Das Feedback von Entwicklern deutet darauf hin, dass dies ein bedeutender Fortschritt gegenüber der vorherigen Version ist.
Ein Entwickler auf Reddit bezeichnete das neue Modell als „episch“, nachdem er es verwendet hatte, um ein 64-Bit-SMP-Betriebssystem mit über 100.000 Codezeilen zu schreiben. Dies zeigt, dass das Modell mehr kann, als nur bereits gesehenen Code zu wiederholen. Es kann große, komplexe Systeme verstehen und die Programmiertechniken entwickeln, um sie aufzubauen.
Derselbe Entwickler teilte auch seinen Workflow, bei dem er zwischen verschiedenen Modellen (wie GPT-5.1-Thinking und Codex) wechselte, um die besten Ergebnisse zu erzielen. Dies deutet auf eine neue Arbeitsweise hin, bei der Entwickler mit einer Gruppe spezialisierter KIs zusammenarbeiten, um Aufgaben zu erledigen.
Leistung im Vergleich zu Claude Opus 4.5 und Gemini 3 Pro
Der KI-Sektor ist schnelllebig und von intensivem Wettbewerb geprägt. Man muss sich nur den Veröffentlichungszeitplan ansehen: Googles Gemini 3 Pro erschien am 18. November 2025, OpenAI kündigte GPT-5.1-Codex-Max am nächsten Tag, dem 19. November, an, und Anthropic folgte am 24. November mit Claude Opus 4.5.
Ein direkter Vergleich der Leistungskennzahlen zeigt, dass die Modelle eng beieinander liegen. Der SWE-Bench Verified Benchmark ist eine gute Methode, um sie zu messen, da er testet, wie gut die Modelle reale Softwareprobleme lösen. Hier ist der Vergleich:
| Modell | SWE-Bench Verified Score | Veröffentlichungsankündigung |
|---|---|---|
| Claude Opus 4.5 | 80,9 % | 24. November 2025 |
| GPT-5.1-Codex-Max | 77,9 % | 19. November 2025 |
| Gemini 3 Pro | 76,2 % | 18. November 2025 |
Quelle: Vellum.ai Flagship Model Report
Basierend auf diesem Benchmark hat Claude Opus 4.5 einen kleinen Vorsprung. Dennoch repräsentieren alle drei Modelle den aktuellen Stand der Technik für KI-gestütztes Coding. Jedes hat seine eigenen Stärken, und welches das beste ist, hängt von der jeweiligen Aufgabe ab. Dieser Wettbewerb bietet Entwicklern mehrere hochwertige Optionen.
Anwendung von agentischer KI im geschäftlichen Kontext
GPT-5.1-Codex-Max ist ein mächtiges Werkzeug, aber auch sehr spezialisiert. Es ist eine agentische KI für Entwickler, und ihre effektive Nutzung erfordert technisches Geschick und ein solides Verständnis der Softwareentwicklung.
Dies wirft die Frage auf, wie ähnliche autonome KIs auf andere Geschäftsfunktionen, wie etwa den Kundenservice, auf zugänglichere Weise angewendet werden können.
Während Entwickler agentische Coder einsetzen, werden KI-Assistenten auch für andere Unternehmensteams entwickelt. Der Ansatz verlagert sich von der Konfiguration komplexer Tools hin zum Einsatz von KI, die aus den Daten eines Unternehmens lernt – ähnlich wie bei der Einarbeitung eines neuen Mitarbeiters.
Beispielsweise bieten Plattformen wie eesel AI einen KI-Teamkollegen für den Kundenservice an, der schnell implementiert werden kann.
Durch die Anbindung an Helpdesks und Wissensdatenbanken lernt das System aus vergangenen Tickets, Hilfeartikeln und internen Dokumenten. Es erlernt autonom den Geschäftskontext, die Regeln und den spezifischen Tonfall (Tone of voice) des Teams.
Genauso wie Codex-Max über 24 Stunden damit verbringen kann, eine große Codebasis zu überarbeiten, kann ein AI Agent von eesel rund um die Uhr arbeiten und Support-Tickets an vorderster Front bearbeiten. Ein wesentlicher Unterschied liegt in der Art der Interaktion: eesel AI wird mit einfachen Anweisungen auf Deutsch oder Englisch gesteuert, anstatt mit Code.

Die richtige KI für die Aufgabe wählen
GPT-5.1-Codex-Max ist ein bedeutender Schritt nach vorn für autonome Coding-Agenten. Mit Funktionen wie Compaction, einer starken Leistung in Benchmarks und bemerkenswerten Ergebnissen in der Praxis ist es ein wertvolles Werkzeug für Entwickler.
Um das Modell in Aktion zu sehen und ein Gefühl für seine reale Leistung zu bekommen, schauen Sie sich diesen praxisnahen Testbericht an, der untersucht, ob die neuen Funktionen halten, was sie versprechen.
Ein Video-Review des neuen GPT-5.1-Codex-Max-Modells, das Geschwindigkeit, Intelligenz und die Gesamtleistung im Vergleich zu früheren Versionen behandelt.
Dies unterstreicht auch einen breiteren Trend in der KI hin zu spezialisierten, agentischen Modellen, die für bestimmte Aufgaben entwickelt wurden. Die Zukunft könnte darin liegen, spezialisierte KI für spezifische Aufgaben zu nutzen, anstatt eine einzige, allumfassende KI.
Für Entwickler könnte das ein Coding-Agent wie Codex-Max sein. Für Kundenserviceteams ist es ein KI-Teamkollege, der ihre Arbeitsabläufe versteht, ihren Kommunikationsstil übernimmt und sich schnell integrieren lässt.
Wer daran interessiert ist, wie ein KI-Teamkollege auf Supportprozesse angewendet werden kann, kann Plattformen wie eesel AI erkunden, die so konfiguriert werden können, dass sie Supportanfragen eigenständig verwalten.
Häufig gestellte Fragen
GPT 5.1 Codex Max ist ein spezialisierter KI-Agent, der für komplexe Softwareentwicklung entwickelt wurde, und kein Allzweck-Chatbot wie ChatGPT. Betrachten Sie ihn als einen Junior-Entwickler, mit dem Sie Pair-Programming betreiben können, da er so konzipiert ist, dass er direkt in Entwicklungsumgebungen arbeitet.
Zu den Hauptfunktionen gehören fortschrittliche „agentische Coding-Fähigkeiten“ für autonomes Arbeiten, eine „Compaction“-Funktion (Kompaktierung), um Aufgaben zu bewältigen, die länger als 24 Stunden dauern, ohne den Kontext zu verlieren, sowie allgemeine Verbesserungen bei Geschwindigkeit und Kosteneffizienz.
Es nutzt eine Funktion namens „Compaction“. Dieser Prozess ermöglicht es dem Modell, seine eigene Historie während der Arbeit zusammenzufassen und zu kürzen, wobei nur die kritischsten Informationen beibehalten werden. Dadurch kann es über extrem lange Zeiträume, sogar über 24 Stunden hinweg, an Aufgaben arbeiten, ohne das Hauptziel zu vergessen.
Die Modelle liegen sehr nah beieinander. Beim SWE-Bench Verified Benchmark hat Claude Opus 4.5 einen leichten Vorsprung. GPT 5.1 Codex Max schneidet jedoch besonders bei langen, komplexen Aufgaben gut ab. Welches Modell am besten geeignet ist, hängt oft von der spezifischen Aufgabe ab, für die Sie es benötigen.
Ja! Es ist das erste Modell von OpenAI, das speziell darauf trainiert wurde, in Windows-Umgebungen zu operieren, was ein erheblicher Vorteil für die große Gemeinschaft von Entwicklern ist, die Windows als primäres Betriebssystem nutzen.
Es bedeutet, dass die KI Code proaktiv planen, schreiben, testen und debuggen kann, mit minimaler menschlicher Aufsicht. Anstatt nur auf einen Befehl zu reagieren, kann GPT 5.1 Codex Max ein übergeordnetes Ziel erfassen und eigenständig die notwendigen Schritte bestimmen, um dieses zu erreichen.
Diesen Beitrag teilen

Article by
Kenneth Pangan
Kenneth Pangan ist seit über zehn Jahren als Autor und Marketer tätig. Er teilt seine Zeit zwischen Geschichte, Politik und Kunst auf, wobei er häufig von seinen Hunden unterbrochen wird, die Aufmerksamkeit fordern.







