Unser vollständiger GPT 5.3 Codex Testbericht: Eine neue Ära für agentenbasierte KI

Kenneth Pangan
Written by

Kenneth Pangan

Reviewed by

Katelin Teen

Last edited February 6, 2026

Expert Verified

Image alt text

Am 5. Februar 2026 veröffentlichte OpenAI GPT-5.3-Codex, sein neuestes Programmiermodell. Die Veröffentlichung fiel mit der von Anthropics Opus 4.6 zusammen, was das wettbewerbsintensive Tempo der KI-Entwicklung unterstreicht.

OpenAI positioniert dies als mehr als nur ein kleines Update. Sie wandeln Codex von einem leistungsstarken Codegenerator in einen Allzweck-Agenten um, der einen Computer bedienen und professionelle Arbeitsabläufe von Anfang bis Ende abwickeln kann. Das Konzept entwickelt sich von einem Werkzeug hin zu einem KI-Teamkollegen.

Dieser Artikel wird aufschlüsseln, was neu ist, die Leistung bewerten und analysieren, was dies für Entwickler und Unternehmen bedeutet.

Was ist GPT 5.3 Codex?

Im Kern ist GPT-5.3-Codex das, was OpenAI als sein "bisher fähigstes agentenbasiertes Programmiermodell" bezeichnet. Es folgt auf GPT-5.2-Codex, jedoch mit einem deutlich erweiterten Funktionsumfang.

Laut der offiziellen Ankündigung von OpenAI basiert das neue Modell auf drei Hauptprinzipien:

  1. Erstklassige agentenbasierte Fähigkeiten: Das Modell ist darauf ausgelegt, lange, komplexe Aufgaben über den gesamten Softwareentwicklungs-Lebenszyklus und andere professionelle Bereiche hinweg zu bewältigen.
  2. Verbesserte Effizienz: Es ist Berichten zufolge 25 % schneller und verbraucht weniger Token als die Vorgängerversion, was die Benutzererfahrung verbessert und die Betriebskosten senkt.
  3. Selbstverbesserung: Bemerkenswerterweise gibt OpenAI an, dass das Modell geholfen hat, „sich selbst zu erschaffen“. Es unterstützte Ingenieure bei Aufgaben wie dem Debugging des eigenen Trainings und der Verwaltung von Deployments.

Das Konzept besteht darin, einen interaktiven Partner bereitzustellen und nicht nur ein Werkzeug, das lediglich Befehle ausführt. Dies positioniert es als Teamkollegen, der in Echtzeit gesteuert werden kann, und nicht nur als Assistenten für die Aufgabendelegation.

Eine Infografik, die die Kernprinzipien des GPT 5.3 Codex Testberichts detailliert beschreibt: erstklassige agentenbasierte Fähigkeiten, verbesserte Effizienz und Selbstverbesserung.
Eine Infografik, die die Kernprinzipien des GPT 5.3 Codex Testberichts detailliert beschreibt: erstklassige agentenbasierte Fähigkeiten, verbesserte Effizienz und Selbstverbesserung.

Neue Funktionen von GPT 5.3 Codex

Lassen Sie uns in die Details der Leistung dieses neuen Modells eintauchen. Wir haben die Behauptungen von OpenAI und die ersten Analysen untersucht, um zu sehen, was wirklich dahintersteckt.

Benchmark-Leistung: Ein Sprung bei den agentenbasierten Fähigkeiten

OpenAI untermauerte die Veröffentlichung mit neuen Ergebnissen bei wichtigen Branchen-Benchmarks. Diese Zahlen zeigen einen deutlichen Sprung in dem, was die KI eigenständig leisten kann.

Hier ist ein Blick auf die Daten aus ihrem Blog-Post, zur besseren Übersicht visualisiert:

Ein Balkendiagramm für unseren GPT 5.3 Codex Testbericht, das seine Benchmark-Ergebnisse mit GPT-5.2-Codex auf SWE-Bench Pro, Terminal-Bench 2.0 und OSWorld-Verified vergleicht.
Ein Balkendiagramm für unseren GPT 5.3 Codex Testbericht, das seine Benchmark-Ergebnisse mit GPT-5.2-Codex auf SWE-Bench Pro, Terminal-Bench 2.0 und OSWorld-Verified vergleicht.

BenchmarkGPT-5.3-CodexGPT-5.2-CodexVerbesserung
SWE-Bench Pro56,8 %56,4 %Ein kleiner Vorsprung im mehrsprachigen Software-Engineering.
Terminal-Bench 2.077,3 %64,0 %Ein massiver Sprung in der Kommandozeilen-Kompetenz.
OSWorld-Verified64,7 %38,2 %Ein riesiger Sprung bei allgemeinen Computer-Produktivitätsaufgaben.

Die Verbesserungen bei Terminal-Bench und OSWorld sind signifikant. Dies deutet darauf hin, dass das Modell über verbesserte Fähigkeiten verfügt, um innerhalb einer digitalen Umgebung zu agieren und Werkzeuge so zu nutzen, wie es ein Mensch tun würde.

Die Wettbewerbslandschaft ist jedoch stark. Community-Analysen zeigen, dass Codex mit 77,3 % bei Terminal-Bench 2.0 zwar Anthropics Opus 4.6 (65,4 %) schlägt, sich das Blatt bei OSWorld jedoch wendet. Dort erreicht Opus 4.6 72,7 % gegenüber 64,7 % von Codex. Dies deutet darauf hin, dass derzeit keines der Modelle über alle agentenbasierten Fähigkeiten hinweg führt.

Reddit
Ja. Und das kommt von jemandem, der Codex immer gehasst hat und nur 5.2 high und xhigh benutzt hat. Aber 5.3-codex-xhigh ist erstaunlich, ich habe in 4 Stunden mehr gebaut als in der letzten Woche.

Vom Programmierassistenten zum professionellen Mitarbeiter

OpenAI positioniert Codex eindeutig als mehr als nur ein Werkzeug für Entwickler. Sie demonstrieren die Fähigkeit des Modells, gesamte professionelle Arbeitsabläufe zu verwalten.

Zum Beispiel wurden Demos geteilt, in denen Codex eine PowerPoint-Präsentation mit 10 Folien für einen Finanzberater erstellte und voll funktionsfähige Renn- und Tauchspiele von Grund auf baute. Diese Fähigkeit geht weit über das Vorschlagen der nächsten Codezeile hinaus.

Was die Behauptung „hat sich selbst gebaut“ betrifft, so bedeutet dies, dass das Modell leistungsstark genug war, um seine eigene Entwicklung zu beschleunigen. Die Ingenieure von OpenAI nutzten es, um Datenwissenschaftlern beim Aufbau neuer Datenpipelines zu helfen, und ließen es beim Start sogar GPU-Cluster dynamisch skalieren. Es ist ein Machbarkeitsnachweis dafür, wie agentenbasierte KI komplexe technische Arbeit beschleunigen kann.

Die praktische Lücke für Unternehmen

Diese Leistungsfähigkeit ist beeindruckend. Für viele Unternehmen dient dies jedoch als Basistechnologie, die für spezifische Anwendungen weiterentwickelt werden muss.

Es erfordert immer noch viel technisches Know-how und Entwicklungszeit, um daraus ein zuverlässiges Werkzeug für eine bestimmte Aufgabe zu machen, wie zum Beispiel für den Kundensupport oder den Vertrieb.

Viele Unternehmen benötigen KI-Lösungen, die auf spezifische Geschäftsfunktionen zugeschnitten sind, wie etwa einen KI-Teamkollegen, der ihre Produkte erlernen, Rückerstattungsrichtlinien verstehen und mit der Bearbeitung von Support-Tickets beginnen kann. Dies verdeutlicht die Lücke zwischen einem Allzweckmodell und einer geschäftsfertigen Lösung.

Benutzererfahrung und Zugänglichkeit

Wie fühlt es sich an, GPT-5.3-Codex über seine reine Leistung hinaus zu nutzen? Und noch wichtiger: Wer hat Zugriff darauf?

Eine interaktivere und steuerbare KI

Eine der bemerkenswerten neuen Funktionen heißt „Steering“ (Steuerung). Sie ermöglicht es Ihnen, mit dem Modell zu interagieren, während es an einer Aufgabe arbeitet. Sie können eingreifen, um Fragen zu stellen, Feedback zu geben und es in Echtzeit in die richtige Richtung zu lenken.

Dies ist eine bedeutende Abkehr vom typischen „Blackbox“-Ansatz, bei dem ein Benutzer einen Prompt eingibt und auf das Endergebnis wartet. Es fügt eine Ebene der Transparenz und Kontrolle hinzu, die es Ihnen ermöglicht, den „Denkprozess“ des Agenten zu sehen und seinen Kurs zu korrigieren, bevor er sich zu weit in die falsche Richtung bewegt. Es fühlt sich weniger nach Anweisungen geben an, sondern mehr nach tatsächlicher Zusammenarbeit.

Reddit
Genau, es würde mir nichts ausmachen, wenn es 20 Stunden statt 1 Stunde arbeiten müsste, wenn es die gleiche Codequalität liefern könnte, die ich selbst schreiben kann.

Die größte Einschränkung: Kein API-Zugriff

Wie können Sie es also ausprobieren? GPT-5.3-Codex ist über die Codex-App, ein CLI, IDE-Erweiterungen und das Web-Interface für zahlende ChatGPT-Nutzer verfügbar.

Eine erhebliche Einschränkung für Unternehmen besteht jedoch darin, dass der API-Zugriff noch nicht verfügbar ist. OpenAI sagt, dass dieser „bald eingeführt“ wird, aber vorerst ist dies das Haupthindernis, das Unternehmen daran hindert, diese Leistung in ihre eigenen Produkte oder internen Arbeitsabläufe zu integrieren. Ohne API bleibt es ein leistungsstarkes, aber eigenständiges Werkzeug und kein skalierbarer Teil Ihres Tech-Stacks.

Diese Verzögerung stellt eine Herausforderung für Unternehmen dar. Während Unternehmen auf den API-Zugriff warten, um maßgeschneiderte Lösungen zu entwickeln, bieten andere Plattformen bereits einsatzbereite Anwendungen an. Zum Beispiel bietet eesel AI einen KI-Teamkollegen an, der für die Integration in Helpdesks wie Zendesk, Gorgias und Intercom konzipiert ist. Der eesel AI Agent lernt aus den Daten eines Unternehmens und kann mit der Bearbeitung von Kundensupport-Anfragen beginnen, ohne dass eine kundenspezifische Entwicklung erforderlich ist.

Eine Ansicht des eesel AI Agenten, einer in diesem GPT 5.3 Codex Testbericht erwähnten Alternativlösung, der Kundensupport-Tickets autonom bearbeitet.
Eine Ansicht des eesel AI Agenten, einer in diesem GPT 5.3 Codex Testbericht erwähnten Alternativlösung, der Kundensupport-Tickets autonom bearbeitet.

Preisgestaltung und das neue Cybersicherheitsmodell

Die letzten Puzzleteile sind Kosten und Sicherheit.

Wie viel kostet es?

Derzeit hat OpenAI noch keine spezifischen Preise für GPT-5.3-Codex bekannt gegeben. Der Zugriff ist in den kostenpflichtigen ChatGPT-Abonnements enthalten.

Da es noch keinen API-Zugriff gibt, sind auch keine API-Preise verfügbar. Dies schafft Unsicherheit für Unternehmen, die ihre KI-Initiativen planen, da die Kosten bei einer Skalierung unbekannt sind, was die Budgetierung erschwert.

Einige Plattformen bieten vorhersehbarere Preisstrukturen. Beispielsweise basiert die Preisgestaltung von eesel AI auf einem Modell pro Interaktion. Dieses Modell ist nicht an die Anzahl der Benutzerlizenzen gebunden, was Unternehmen helfen kann, Kosten zu prognostizieren und den ROI zu berechnen, wenn sie den Einsatz von KI für den Kundensupport ausweiten.

Ein „High Capability“-Modell für Cybersicherheit

OpenAI hat GPT-5.3-Codex im Rahmen seines Preparedness Frameworks als „High Capability“-Modell für Cybersicherheit eingestuft. Dies liegt daran, dass es darauf trainiert wurde, Software-Schwachstellen zu finden, was es zu einem starken Werkzeug für Sicherheitsexperten macht.

Um die Risiken zu managen, hat OpenAI Sicherheitsmaßnahmen wie das Programm "Trusted Access for Cyber" eingeführt, das geprüften Cybersicherheitsexperten Zugriff gewährt, sowie einen 10-Millionen-Dollar-Zuschuss zur Beschleunigung der Forschung zur Cyberabwehr.

Dieses Leistungsniveau hat erhebliche Auswirkungen auf die Sicherheit. Während es ein mächtiges Werkzeug für die Verteidigung ist, birgt es auch Risiken, die Unternehmen managen müssen. Eine verwaltete Plattform kann helfen, diese Bedenken auszuräumen, indem sie integrierte Sicherheits- und Compliance-Funktionen bietet. eesel AI gibt beispielsweise an, dass Kundendaten isoliert sind und niemals für das Training verwendet werden, wodurch KI-Funktionen mit etablierten Sicherheitsprotokollen bereitgestellt werden.

Ein Blick in die Zukunft

GPT-5.3-Codex ist ein bedeutender Schritt nach vorn für agentenbasierte KI. Seine Leistung, Geschwindigkeit und sein breiteres Spektrum an Fähigkeiten machen es zu einem leistungsstarken Werkzeug für Entwickler und andere Technikexperten. Es bietet einen Ausblick auf eine Zukunft, in der KI-Agenten unsere täglichen Mitarbeiter sind.

Für viele Unternehmen sind die derzeitigen Einschränkungen jedoch erheblich. Der fehlende API-Zugriff, die unbekannten Kosten und der Aufwand, der erforderlich ist, um ein allgemeines Modell in ein spezifisches Geschäftswerkzeug zu verwandeln, bedeuten, dass es eher eine Vorschau auf zukünftige Möglichkeiten als eine Lösung für die sofortige Implementierung ist.

Um GPT-5.3-Codex in Aktion zu sehen und detailliertere Erfahrungsberichte aus erster Hand zu hören, bietet der folgende Testbericht einen umfassenden Blick auf seine neuen Funktionen und deren Bedeutung für die Zukunft der KI-gestützten Entwicklung.

Ein detaillierter Testbericht zu OpenAIs GPT-5.3-Codex, der die neuen Funktionen, Performance-Benchmarks und die Auswirkungen auf die Softwarewelt abdeckt.

Wie man heute einen KI-Agenten einsetzt

Eine zentrale Herausforderung besteht darin, dass ein leistungsstarkes Basismodell wie Codex zwar der Motor ist, Unternehmen aber dennoch die Anwendung drumherum bauen müssen. Diese Modelle sind nicht für den direkten, sofortigen Einsatz im Unternehmen konzipiert.

Hier kann eine Plattform wie eesel AI eine Komplettlösung bieten. Anstatt ein Werkzeug einzurichten, „stellen Sie einen KI-Teamkollegen ein“. Der eesel AI Agent verbindet sich mit den Werkzeugen, die Sie bereits verwenden, lernt Ihr Unternehmen in wenigen Minuten kennen und beginnt eigenständig mit Ihrem Team an der Bearbeitung von Kundensupport-Tickets zu arbeiten.

Dies ermöglicht es Unternehmen, KI-Agenten einzusetzen, ohne darauf warten zu müssen, dass Basismodelle vollständig zu Produkten weiterentwickelt werden. Erfahren Sie, wie der eesel AI Agent für den Kundenservice eingesetzt werden kann.

Häufig gestellte Fragen (FAQs)

Das wichtigste Fazit ist, dass GPT-5.3-Codex ein bedeutender Fortschritt für agentenbasierte KI (agentic AI) ist, insbesondere für Entwickler. Der fehlende API-Zugriff und die noch nicht definierte Preisgestaltung machen es jedoch eher zu einem zukunftsorientierten Werkzeug als zu einer praktischen Geschäftslösung, die Sie heute implementieren können.
Der Vergleich ist gemischt. Codex schlägt Opus 4.6 im Terminal-Bench 2.0 Benchmark, was bessere Fähigkeiten in der Kommandozeile zeigt. Opus 4.6 schneidet jedoch bei OSWorld besser ab, was auf eine höhere Leistung bei allgemeinen Computeraufgaben hindeutet. Keines der Modelle ist der klare Gesamtsieger.
Nicht direkt. Obwohl GPT-5.3-Codex leistungsstark ist, handelt es sich um ein Allzweckmodell, das erheblichen technischen Aufwand erfordert, um in ein spezialisiertes Werkzeug für den Kundensupport umgewandelt zu werden. Dafür ist eine einsatzbereite Plattform wie eesel AI, die speziell für diesen Zweck entwickelt wurde, möglicherweise eine direktere Lösung.
Die größte Einschränkung für Unternehmen ist der fehlende API-Zugriff. Ohne API können Unternehmen die Funktionen von Codex nicht in ihre eigenen Produkte oder internen Systeme integrieren, was es vorerst zu einem eigenständigen Werkzeug macht.
Entwickler und technische Fachkräfte sind die primäre Zielgruppe für diese Veröffentlichung, angesichts der Fähigkeiten des Modells in den Bereichen Coding, Debugging und Infrastrukturmanagement.
„Steering“ (Steuerung) ist eine interaktive Funktion, mit der Sie das Modell während der Arbeit anleiten können. Sie können Fragen stellen, Feedback geben und den Kurs in Echtzeit korrigieren, wodurch es sich eher wie ein kollaborativer Partner als wie ein Blackbox-Werkzeug anfühlt.

Diesen Beitrag teilen

Kenneth undefined

Article by

Kenneth Pangan

Writer and marketer for over ten years, Kenneth Pangan splits his time between history, politics, and art with plenty of interruptions from his dogs demanding attention.