Claude Mythos: Die „zu mächtige“ KI, die 2026 den Status Quo verändert

Stevia Putri
Geschrieben von

Stevia Putri

Zuletzt bearbeitet April 20, 2026

Expertengeprüft
Bannerbild für Claude Mythos: Die „zu mächtige“ KI, die 2026 den Status Quo verändert

In der schnelllebigen Welt der künstlichen Intelligenz kommt es selten vor, dass ein Modell so leistungsfähig ist, dass seine eigenen Schöpfer Angst haben, es zu veröffentlichen. Doch genau an diesem Punkt befinden wir uns Anfang 2026 mit Claude Mythos.

Die Geschichte von Claude Mythos begann nicht mit einer spektakulären Keynote, sondern mit einem versehentlichen Datenleck im März 2026. Ein menschlicher Fehler im Content-Management-System von Anthropic legte kurzzeitig Entwürfe von Blog-Beiträgen und Systemkarten für eine noch nicht veröffentlichte Modellfamilie offen. Das Leck enthüllte zwei Namen: „Mythos“ und „Capybara“. Innerhalb weniger Stunden stand die KI-Community Kopf, und als Anthropic die Existenz des Modells bestätigte, waren die Aktienkurse von Cybersicherheitsunternehmen bereits eingebrochen.

Das eesel AI Blog-Writer-Dashboard, ein KI-gestütztes Tool zur Inhaltserstellung für Social-Media-Marketing.
Das eesel AI Blog-Writer-Dashboard, ein KI-gestütztes Tool zur Inhaltserstellung für Social-Media-Marketing.

Anthropic scheute den Hype nicht. Sie beschrieben Mythos als einen „Quantensprung“ in der KI-Leistung – ein Modell, das so mächtig darin ist, Software-Schwachstellen zu identifizieren und auszunutzen, dass eine allgemeine Veröffentlichung ein „beispielloses Risiko“ für die globale digitale Infrastruktur darstellen würde.

In diesem ausführlichen Bericht untersuchen wir, was Claude Mythos so besonders macht, wie es im Vergleich zum bereits beeindruckenden Claude Opus 4.6 abschneidet und warum Project Glasswing das wichtigste geschlossene Experiment in der Geschichte der KI ist.

Die Benchmarks: Claude Mythos vs. Opus 4.6

Um den „Quantensprung“ zu verstehen, von dem Anthropic spricht, muss man sich die Zahlen ansehen. Claude Opus 4.6 war bereits der Goldstandard für viele Entwickler, aber Mythos hat die Messlatte höher gelegt, als irgendjemand erwartet hatte.

Programmierung: Eine neue Ära für autonomes Engineering

Der auffälligste Sprung liegt im Bereich der Programmierung. Auf dem SWE-bench Verified, das die Fähigkeit eines Modells testet, echte GitHub-Probleme in Produktions-Codebasen zu lösen, erreichte Mythos einen Wert von etwa 87 %. Zum Vergleich: Opus 4.6 liegt im niedrigen bis mittleren 70er-Bereich.

Ein Sprung von 15 Prozentpunkten bei SWE-bench ist nicht nur eine bessere Punktzahl; es ist eine qualitative Veränderung. Es bedeutet den Unterschied zwischen einer KI, die Code-Schnipsel vorschlägt, und einer KI, die eine komplexe, unübersichtliche Codebasis mit minimalem menschlichem Eingreifen autonom verwalten kann.

Schlussfolgerung und Logik

Die Logik-Benchmarks sind ebenso beeindruckend. Beim USAMO 2026 (American Invitational Mathematics Examination) erzielte Mythos atemberaubende 97,6 %, verglichen mit 66,2 % bei Opus 4.6. Dies deutet darauf hin, dass das Modell mathematisches Denken auf Wettbewerbsniveau effektiv „gelöst“ hat – eine Leistung, die deduktive Logik über lange Ketten erfordert, ohne die kumulativen Fehler, die kleinere Modelle plagen.

BenchmarkClaude MythosClaude Opus 4.6
USAMO 202697,6 %66,2 %
SWE-bench Verified~87 %72-73 %
CharXiv (mit Tools)93,2 %84,7 %
OSWorld79,6 %72,7 %
MMMLU92,7 %91,1 %

Quelle: Anthropic Claude Mythos Preview System Card

Claude Mythos stellt einen signifikanten Leistungssprung gegenüber der Opus-Familie sowohl bei der Programmierung als auch bei komplexem logischen Denken dar.
Claude Mythos stellt einen signifikanten Leistungssprung gegenüber der Opus-Familie sowohl bei der Programmierung als auch bei komplexem logischen Denken dar.

Wie ein Nutzer auf Reddit in /r/singularity es ausdrückte: „Der Sprung von Opus 4.6 zu Mythos fühlt sich an wie der Sprung von GPT-3 zu GPT-4. Es ist das erste Mal, dass ich eine KI gesehen habe, die sich eine 20 Jahre alte Legacy-Codebasis ansieht und eine Schwachstelle findet, die menschliche Prüfer zwei Jahrzehnte lang übersehen haben.“


Project Glasswing: Die geschlossene Wächterin

Bei derart hohen Fähigkeiten wird das Risiko der „Dual-Use“-Nutzung zu einem Hauptanliegen. Ein Modell, das „bemerkenswert fähig bei Computersicherheitsaufgaben“ ist, ist ein Traum für Verteidiger und ein Albtraum für alle anderen, wenn es in die falschen Hände gerät.

Ein Screenshot der Landingpage von Anthropic.
Ein Screenshot der Landingpage von Anthropic.

Deshalb hat Anthropic Project Glasswing gestartet. Anstatt einer öffentlichen API oder einer Schnittstelle im ChatGPT-Stil ist Mythos derzeit nur über eine geschlossene Forschungsvorschau verfügbar. Der Zugriff ist auf etwa 40 „kritische Industriepartner“ und Organisationen beschränkt, die für die essenziellste Software-Infrastruktur der Welt verantwortlich sind.

Die Glasswing-Partner

Die Liste der Partner umfasst die Schwergewichte der Tech-Welt:

  • Cloud-Giganten: Amazon Web Services (AWS), Google Cloud und Microsoft.
  • Hardware & Chips: Nvidia und Broadcom.
  • Gerätehersteller: Apple.
  • Cybersicherheitsfirmen: Crowdstrike.
  • Regierung & Forschung: Das UK AI Safety Institute (AISI) und Gray Swan.
Ein Screenshot der Landingpage von Crowdstrike.
Ein Screenshot der Landingpage von Crowdstrike.

Das Ziel ist einfach: den Verteidigern einen Vorsprung verschaffen. Indem diese Organisationen Mythos gegen ihre eigenen Systeme laufen lassen können, können sie Tausende von Schwachstellen mit hohem Schweregrad finden und beheben, bevor ein zukünftiges, weniger gut abgestimmtes Modell diese Fähigkeiten böswilligen Akteuren allgemein zugänglich macht.

Hype vs. Realität

Nicht jeder ist von der Erzählung „zu mächtig für eine Veröffentlichung“ überzeugt. Der renommierte Sicherheitsforscher Bruce Schneier hat in Frage gestellt, ob dies „hauptsächlich Marketing-Hype“ sei, ein ausgeklügeltes Verkaufsargument, das Mythos revolutionärer erscheinen lassen soll, als es ist.

Ciaran Martin, ehemaliger Leiter des britischen National Cyber Security Centre, merkt jedoch an, dass es die schiere Geschwindigkeit des Modells ist, die die Menschen erschüttert hat. „Die meisten Hacker brauchen keine Super-KI-Tools, um Systeme zu knacken“, sagte er, „aber Mythos kann dies in einem Ausmaß und einer Geschwindigkeit tun, die wir noch nie zuvor gesehen haben.“


Die Zukunft der KI-Teamkollegen: Jenseits des Hypes

Bei eesel AI waren wir schon immer der Meinung, dass die wahre Kraft der KI nicht in einem Chat-Fenster liegt, sondern in autonomen KI-Teamkollegen, die dort leben, wo Sie arbeiten. Claude Mythos stellt die nächste Evolution dieser Vision dar.

Wenn ein Modell so gut in der hochriskanten, mehrstufigen Schlussfolgerung ist, die für Cybersicherheit erforderlich ist, stellen Sie sich vor, was es für Ihre Geschäftsprozesse tun kann. Wir sehen bereits, wie diese „Quantensprung“-Modelle Arbeitsabläufe verändern:

  1. Komplexe agentische Aufgaben: Mythos kann Anweisungen über Tausende von Dateien hinweg befolgen, ohne den Faden zu verlieren. Das macht es zur perfekten Engine für Claude Code Workflow-Automatisierung, bei der die KI das „Warum“ hinter einer Änderung verstehen muss, nicht nur das „Was“.
  2. Vereinheitlichtes Wissen: Mit einem Kontextfenster von 1 Million Token kann ein KI-Teamkollege, der von einem Modell auf Mythos-Niveau angetrieben wird, die gesamte Geschichte Ihres Unternehmens in seinem aktiven Gedächtnis behalten. Kein „Ich habe diese Information nicht“ mehr – die KI kennt Ihre Dokumente, Ihren Slack-Verlauf und Ihre Jira-Tickets, als wäre sie ein 10-jähriger Veteran des Teams.
  3. Support mit Fokus auf Schlussfolgerungen: Für den Kundensupport bedeutet dies einen KI-Agenten, der technische Eskalationen bewältigen kann, für die früher ein leitender Ingenieur erforderlich war.

Während wir tiefer in das Jahr 2026 vordringen, lautet die Frage für Unternehmen nicht mehr „Sollten wir KI einsetzen?“, sondern „Ist unsere KI leistungsfähig genug, um ein echter Teamkollege zu sein?“. Modelle wie Mythos beweisen, dass die Antwort zunehmend „Ja“ lautet.

Für diejenigen, die an der Front bleiben wollen, ohne sich mit Infrastrukturproblemen herumzuschlagen, ist es unerlässlich, Alternativen zu Claude Opus 4.6 zu erkunden und sich auf die Einführung der nächsten Modellgeneration vorzubereiten. Sie können sogar sehen, wie wir Claude KI-Zusammenarbeitstools nutzen, um die Lücke zwischen diesen leistungsstarken Modellen und Ihren täglichen Apps zu schließen.


Häufig gestellte Fragen

Seine extreme Kompetenz im Bereich Cybersicherheit bedeutet, dass es Fehler schneller finden kann als Menschen, was ein großes Risiko darstellt, falls es von böswilligen Akteuren ausgenutzt wird.
Der Zugriff ist derzeit über Project Glasswing auf Amazon Bedrock für Organisationen mit kritischer Infrastruktur beschränkt.
Mythos ist bei spezifischen Cybersicherheits- und Wettbewerbs-Mathematik-Benchmarks führend, während GPT-5.4 Codex ein starker Konkurrent bei der allgemeinen Programmierung bleibt.

Share this article

Stevia Putri

Article by

Stevia Putri

Stevia Putri is a marketing generalist at eesel AI, where she helps turn powerful AI tools into stories that resonate. She’s driven by curiosity, clarity, and the human side of technology.

Bereit, Ihren KI-Teamkollegen einzustellen?

In Minuten eingerichtet. Keine Kreditkarte erforderlich.

Kostenlos starten