Was ist AA-Briefcase? Der KI-Benchmark für echte Wissensarbeit, erklärt

Alicia Kirana Utomo
Geschrieben von

Alicia Kirana Utomo

Katelin Teen
Geprüft von

Katelin Teen

Zuletzt bearbeitet June 23, 2026

Expertengeprüft
Ein offener Aktenkoffer, aus dem Dokumente, Tabellen, E-Mails und Chat-Nachrichten quellen, während eine KI-Figur sie auf einer Scorecard bewertet

Kurzfassung

AA-Briefcase ist ein neuer Benchmark von Artificial Analysis, der KI-Modelle an echter, mehrwöchiger Wissensarbeit bewertet (Finanzmodelle, Vorstandspräsentationen, Produktspezifikationen) – nicht an sauberen Einzelfragen. Jedes Modell erhält Tausende ungeordneter Dateien (E-Mails, Slack-Threads, Tabellen) und muss echte Ergebnisse liefern, die auf Korrektheit, analytische Qualität und Präsentation bewertet werden.

Der Hauptbefund ist ernüchternd: Selbst das beste Modell besteht alle Rubrikprüfungen nur bei 3 % der Aufgaben, und bei 31 von 91 Aufgaben schafft kein Modell 50 %. Claude Fable 5 führt das Leaderboard an, wobei das Open-Weight-Modell GLM-5.2 weit über seinem Preis abschneidet.

Hier ist der Teil, den die meisten Berichte übergehen: Ein hoher Benchmark-Score sagt aus, dass ein Modell generell leistungsfähig ist, nicht dass es auf Ihren Daten sicher ist. Diese Lücke ist der genaue Grund, warum ich jeden, der nach KI-Kundenservice sucht, empfehle, zunächst auf eigenen historischen Daten zu testen, bevor er live geht – anstatt einfach einer Rangliste zu vertrauen.

Ich entwickle bei eesel beruflich KI-Agenten. Ein Benchmark, der endlich ungeordnete echte Arbeit statt Trivialwissen misst, ist etwas, für das ich alles stehen und liegen lasse. Im Folgenden wird erklärt, was AA-Briefcase tatsächlich misst, wie er bewertet, wer führt und die eine Lektion, die ich daraus für jeden KI-Agenten-Rollout mitnehmen würde.

AA-Briefcase Leaderboard
Ungefähre Startwerte, 18. Juni 2026. Wechseln Sie die Ansicht, um zu sehen, warum das günstigste Modell nie das beste ist.
Claude Fable 51587
Claude Opus 4.81356
GLM-5.2 (open)1266
GPT-5.51159
MiniMax-M3 (open)1116
Claude Sonnet 4.61081
Gemini 3.5 Flash870

Was AA-Briefcase tatsächlich misst

Die meisten KI-Benchmarks stellen kurze, in sich geschlossene Fragen: ein Matheproblem, ein Coding-Rätsel, ein Multiple-Choice-Quiz. Das ist gut geeignet, um reine Schlussfolgerungsfähigkeiten zu messen, entspricht aber nicht dem, wie Menschen diese Modelle tatsächlich bei der Arbeit einsetzen. Echte Wissensarbeit ist lang, mehrdeutig und in Unordnung vergraben.

AA-Briefcase wurde entwickelt, um diese Lücke zu schließen. Anstatt eines Prompts wird jedes Modell in ein mehrwöchiges Geschäftsprojekt mit vielen verknüpften Aufgaben und Tausenden von Quelldateien geworfen und gebeten, die Art von Ergebnissen zu liefern, die ein echter Analyst oder ein Product Manager erbringen würde: Finanzmodelle, Vorstandspräsentationen, Design-Mockups, Strategiememos. Die Szenarien wurden über Monate von Branchenexperten von Unternehmen wie Google, McKinsey und Boston Consulting Group entwickelt, sodass die Arbeit dem ähnelt, was diese Firmen tatsächlich tun.

Die Zahlen verdeutlichen den Umfang. Es gibt vier zurückgehaltene Projektszenarien und insgesamt 91 Aufgaben aus den Bereichen Data Science, Produktmanagement und Unternehmensstrategie. Darin befinden sich fast 2.000 Quelldateien, darunter mehr als 3.500 E-Mails und 25.000 Slack-Nachrichten – absichtlich fragmentiert und voller realistischer Widersprüche. Die vier Bewertungsszenarien sind ein Data-Science-Projekt, ein Produktmanagement-Projekt, eine Banking-Operations-Transformation und ein Heavy-Industry-Strategy-Build. Ein fünftes Due-Diligence-Szenario ist öffentlich und fließt nicht in die Scores ein.

Diese Rahmung ist wichtig, weil sie den Fehlerfall jedes KI-Agenten widerspiegelt, den ich je ausgeliefert habe: Das Modell kämpft selten mit der Idee, sondern damit, die eine Anforderung zu finden, die in Datei 1.400 versteckt ist, ohne der E-Mail zu widersprechen, die sie stillschweigend überschrieben hat.

Wie AA-Briefcase ein Modell bewertet

Hier wird AA-Briefcase clever. Ein einziger Score würde das Interessanteste am KI-Output verbergen: Professionell aussehen und korrekt sein sind zwei völlig verschiedene Fähigkeiten. Daher wird jede Aufgabe nach drei separaten Dimensionen bewertet.

So bewertet AA-Briefcase ein Modell: Ungeordnete Dateien werden einem KI-Agenten in einer Sandbox übergeben, der Ergebnisse produziert, die nach Rubrik, analytischer Qualität und Präsentation bewertet und dann zu einem einzigen Elo zusammengeführt werden
So bewertet AA-Briefcase ein Modell: Ungeordnete Dateien werden einem KI-Agenten in einer Sandbox übergeben, der Ergebnisse produziert, die nach Rubrik, analytischer Qualität und Präsentation bewertet und dann zu einem einzigen Elo zusammengeführt werden

Erstens gibt es eine binäre Rubrik: Bestanden oder nicht bestanden für jede Prüfung, ohne Teilpunkte. Hat das Modell die Anweisungen befolgt, über Dateien verteilte Anforderungen gefunden, die richtigen Belege verwendet und die korrekte Schlussfolgerung gezogen? Zweitens gibt es analytische Qualität, die durch paarweisen Vergleich mit der Einreichung eines anderen Modells beurteilt wird: Welches Ergebnis ist gründlicher und besser belegt? Drittens gibt es Präsentation, ebenfalls paarweise: Welches Ergebnis ist professioneller aufbereitet?

Diese drei fließen in eine einzige Gesamtkennzahl ein, den AA-Briefcase Elo, der analytischen Elo, Präsentations-Elo und Rubrik-Bestehensquote durch Maximum-Likelihood-Elo-Aggregation kombiniert. Damit keine Modellfamilie sich selbst bevorzugt bewertet, wird jeder Vergleich von einem Gremium aus drei Richtern entschieden: Claude Opus 4.8, GPT-5.5 und Gemini 3.1 Pro Preview.

Die Infrastruktur ist ebenfalls offen. Modelle laufen auf Stirrup, dem Open-Source-Agent-Harness von Artificial Analysis, in einer Offline-Sandbox ohne Internet, für bis zu 500 Turns pro Aufgabe. Das ist ein anspruchsvolles Setup und einem echten agentischen Workflow deutlich näher als ein Chat-Fenster.

Was die Ergebnisse tatsächlich aussagen

Das Leaderboard oben erzählt die erfreuliche Geschichte (Claude Fable 5 vorne, Leistungsstufen ordentlich gestapelt). Die schwierigere Geschichte steckt in den Bestehensquoten.

Balkendiagramm: Die Bestehensquote sinkt von 55 % bei Prompt-only-Prüfungen auf 40 % bei Prüfungen, die fünf oder mehr Dateien benötigen, mit dem Hinweis, dass das beste Modell alle Prüfungen nur bei 3 % der Aufgaben besteht
Balkendiagramm: Die Bestehensquote sinkt von 55 % bei Prompt-only-Prüfungen auf 40 % bei Prüfungen, die fünf oder mehr Dateien benötigen, mit dem Hinweis, dass das beste Modell alle Prüfungen nur bei 3 % der Aufgaben besteht

Selbst das führende Modell erfüllt alle Rubrikkriterien nur bei 3 % der Aufgaben, und bei 31 der 91 Aufgaben erzielt kein Modell über 50 %. Der Schwierigkeitsgrad steigt auch mit der Anzahl der benötigten Dateien: High-Intelligence-Modelle fallen von rund 55 % bei Prompt-only-Prüfungen auf etwa 40 %, sobald eine Aufgabe fünf oder mehr erfordert. Je mehr eine Aufgabe echter Arbeit ähnelt, desto schlechter schneiden alle ab.

Das Leaderboard liefert einige bemerkenswerte Erkenntnisse. GLM-5.2 ist der klare Open-Weight-Spitzenreiter und das Preis-Leistungs-Highlight – rund 90 Elo hinter Claude Opus 4.8 für weniger als ein Viertel der Kosten. MiniMax-M3 und GLM-5.2 übertreffen beide ihre allgemeinen Intelligenz-Scores, während Googles Gemini-Modelle bei AA-Briefcase tatsächlich schlechter abschneiden als in breiten Intelligenzrankings. Und wie die Kostenansicht im Widget zeigt, beträgt der Spread zwischen dem teuersten und günstigsten Modell über 800× – eine nützliche Erinnerung, wenn man die tatsächlichen Kosten eines KI-Agenten gegen die Metriken abwägt, die wirklich zählen.

Das Problem "sieht richtig aus, ist aber falsch"

Mein Lieblingsbefund der gesamten Veröffentlichung ist ein verhaltensbezogener, und er erklärt viel darüber, warum KI-Arbeit sich unzuverlässig anfühlen kann.

Balkendiagramm der View-Image-Aufrufe pro Aufgabe: Claude Fable 5 bei 21, Claude Opus 4.8 bei 12, GPT-5.4 Mini bei 2 und Gemini 3.1 Pro bei 0,1, das Dateien einreicht, die es nie angesehen hat
Balkendiagramm der View-Image-Aufrufe pro Aufgabe: Claude Fable 5 bei 21, Claude Opus 4.8 bei 12, GPT-5.4 Mini bei 2 und Gemini 3.1 Pro bei 0,1, das Dateien einreicht, die es nie angesehen hat

Die Modelle, die bei der Präsentation am besten abschneiden, sind diejenigen, die ihre eigenen gerenderten Ergebnisse tatsächlich betrachten. Claude Fable 5 machte etwa 21 View-Image-Aufrufe pro Aufgabe und Opus 4.8 etwa 12, während einige Modelle Dateien einreichten, die sie kaum angeschaut hatten (Gemini 3.1 Pro Preview durchschnittlich rund 0,1 View-Image-Aufrufe). Es stellt sich heraus, dass "Überprüfe deine Arbeit, bevor du sie abgibst" für eine KI genauso guter Rat ist wie für einen Menschen.

Darunter liegt ein tieferer Punkt. AA-Briefcase trennt Politur von Korrektheit, weil eine selbstsichere, gut formatierte Antwort, die leise falsch ist, gefährlicher ist als eine offensichtlich unvollständige. Genau dieses Risiko taucht auf, wenn ein KI-Chatbot einem Kunden antwortet, und deshalb ist das Verhindern von Halluzinationen im Support das Wichtigste – kein nettes Zusatzfeature.

Warum ein Leaderboard-Score kein Deployment-Plan ist

Ein Frontier-Modell kann also echte Wissensarbeit leisten – manchmal brillant –, und dennoch bei den schwierigsten, dateireichsten Aufgaben meist scheitern. Wenn Sie eine Sache aus AA-Briefcase mitnehmen, dann diese: Eine Benchmark-Platzierung ist ein allgemeines Leistungssignal, keine Garantie dafür, wie sich ein Modell auf Ihren ungeordneten Daten verhält.

Ich habe das aus erster Hand erlebt. Wir haben jahrelang KI-Agenten auf Live-Support-Queues gesetzt, und das, woran Teams scheitern, ist nicht, ob das Basismodell abstrakt klug genug ist – sondern ob es auf ihren spezifischen Tickets, ihren Produkteigenheiten und ihren Randfällen genau bleibt. Ein Modell, das jedes öffentliche Leaderboard anführt, kann am ersten Tag trotzdem selbstsicher Ihre Rückgaberichtlinie falsch zitieren, lange bevor es zur automatisierten Ticket-Auflösung kommt. Das ist kein Vorwurf gegen das Modell; es ist der Unterschied zwischen einem Benchmark und der Produktion.

Die Lösung folgt demselben Instinkt, auf dem AA-Briefcase aufgebaut ist: Bewerten Sie die Arbeit anhand von Grundwahrheiten, bevor Sie ihr vertrauen. Für ein Helpdesk bedeutet das, die KI gegen eigene historische Tickets zu testen und genau zu sehen, was sie geantwortet hätte, anstatt ein Datenblatt zu lesen und zu hoffen. Betrachten Sie es als Ihr eigenes privates AA-Briefcase, bei dem der Testsatz Ihre echte Support-Historie ist.

eesel für KI-Support ausprobieren, dem Sie wirklich vertrauen können

Wenn AA-Briefcase Sie überzeugt hat, dass Leistungsfähigkeit und Zuverlässigkeit nicht dasselbe sind, ist das genau das Problem, für das eesel AI entwickelt wurde. eesel funktioniert wie ein neues Support-Teammitglied, das sich in Minuten in Ihr bestehendes Helpdesk und Ihre Wissensbasis einklinkt und Sie dann auf Tausenden vergangener Tickets simulieren lässt, bevor es je mit einem Kunden spricht – so sehen Sie die echte Lösungsrate und genaue Antworten im Voraus, statt aus einem Leaderboard zu schätzen.

eesel AI's Berichte-Dashboard, in dem Teams Lösungsraten prognostizieren und überprüfen können, wie die KI vergangene Tickets behandelt hätte, bevor sie live geht
eesel AI's Berichte-Dashboard, in dem Teams Lösungsraten prognostizieren und überprüfen können, wie die KI vergangene Tickets behandelt hätte, bevor sie live geht

Sie behalten die Kontrolle darüber, was beantwortet werden darf und wann eskaliert wird, und es ist kostenlos, auf Ihren eigenen Daten auszuprobieren. Wenn Sie KI für den Kundenservice evaluieren, ist dieser Simulate-First-Ansatz das Nächste, was es gibt, um die "Beweise es an echter Arbeit"-Strenge von AA-Briefcase auf Ihre eigene Queue zu übertragen.

Häufig gestellte Fragen

Was ist der AA-Briefcase-Benchmark?
AA-Briefcase ist ein Benchmark von Artificial Analysis, der KI-Modelle an realistischen, mehrwöchigen Wissensarbeitsprojekten testet – nicht an Einzelfragen. Jedes Projekt übergibt dem Modell Tausende ungeordneter Quelldateien und fordert echte Ergebnisse wie Finanzmodelle und Vorstandspräsentationen, die dann auf tatsächliche Korrektheit geprüft werden. Es ist einer der besten öffentlichen Indikatoren dafür, wie ein KI-Agent bei echter Büroarbeit abschneidet.
Welches KI-Modell schneidet bei AA-Briefcase am besten ab?
Beim Start am 18. Juni 2026 führt Claude Fable 5 den AA-Briefcase Elo mit rund 1587 an, vor Claude Opus 4.8 und dem Open-Weight-Spitzenreiter GLM-5.2. Die vollständige Rangliste befindet sich im interaktiven Leaderboard oben in diesem Beitrag. Die aktuellen Live-Zahlen können auf der Artificial Analysis Evaluationsseite abgerufen werden.
Wie wird AA-Briefcase bewertet?
Jede Aufgabe wird nach drei Dimensionen bewertet: eine binäre Rubrik für überprüfbare Korrektheit, ein paarweises Elo für analytische Qualität und ein paarweises Elo für Präsentation. Diese fließen in einen einzigen AA-Briefcase Elo ein, wobei ein dreiköpfiges Richtergremium jede Vergleichsentscheidung trifft, um Verzerrungen durch Modelle derselben Familie zu begrenzen.
Warum erzielen KI-Modelle bei AA-Briefcase so niedrige Scores?
Die Aufgaben sind genuinen schwierig: Das beste Modell besteht alle Rubrikprüfungen nur bei 3 % der Aufgaben, und bei 31 von 91 Aufgaben schafft kein Modell 50 %. Der Schwierigkeitsgrad steigt auch mit der Anzahl der benötigten Dateien – genau die Art fragmentierter Kontexte, die KI in der Produktion stolpern lässt.
Bedeutet ein hoher AA-Briefcase-Score, dass das Modell sicher einsetzbar ist?
Nein. Eine Leaderboard-Platzierung sagt aus, dass ein Modell generell leistungsfähig ist, nicht dass es auf Ihren Daten und Workflows zuverlässig ist. Der sicherere Weg ist, zunächst mit den eigenen historischen Daten zu testen – so wie eesel Support-Teams erlaubt, einen KI-Agenten zu simulieren, bevor er jemals einem Kunden antwortet.
Wie unterscheidet sich AA-Briefcase von anderen KI-Benchmarks?
Die meisten Benchmarks bewerten kurze, in sich geschlossene Fragen. AA-Briefcase bewertet langfristige Projekte mit verknüpften Aufgaben und widersprüchlichen Quelldateien und unterscheidet zwischen Ergebnissen, die poliert wirken, und solchen, die tatsächlich korrekt sind. Das macht ihn relevanter für alle, die KI gegenüber menschlicher Arbeit bei realen Geschäftsaufgaben abwägen.
Kann ich AA-Briefcase nutzen, um ein KI-Tool für den Kundensupport auszuwählen?
Es ist ein nützliches Signal für Fähigkeiten, aber Support-Tools sind mehr als ein reines Modell. Für KI im Kundenservice kommt es darauf an, wie das System Ihr Wissen abruft, eskaliert und sichere falsche Antworten vermeidet. Kombinieren Sie den Benchmark mit einem echten Test auf Ihren eigenen Tickets – wie die Simulation in eesel AI –, bevor Sie sich festlegen.

Share this article

Alicia Kirana Utomo

Article by

Alicia Kirana Utomo

Kira is a writer at eesel AI with a Computer Science background and over a year of hands-on experience evaluating AI-powered customer service tools. She focuses on breaking down how helpdesk platforms and AI agents actually work so that support teams can make better buying decisions.

Related Posts

All posts →
Illustration, die einen KI-Chatbot beim Beantworten einer Frage einem KI-Agenten gegenüberstellt, der mit Slack, E-Mail und Ticketing-Tools verbunden ist
AI

KI-Agenten vs. KI-Chatbots: der echte Unterschied und wann man was einsetzt

KI-Agenten vs. KI-Chatbots: Chatbots beantworten Fragen, Agenten handeln und schließen Tickets. Hier ist der echte Unterschied und wann Sie zu welchem greifen sollten.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Eine nicht-technische Person beschreibt eine App-Idee, während die KI Software-Bausteine zusammensetzt
AI

Vibe Coding für Nicht-Entwickler: was es wirklich ist und wie man es sicher nutzt

Ein verständlicher Leitfaden zum Vibe Coding für Nicht-Entwickler: was es bedeutet, welche Tools man nutzt, wo es scheitert und was man gefahrlos selbst bauen kann.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Illustration einer Person, die Codeblöcke dirigiert, die sich von selbst zusammensetzen und Vibe Coding darstellen
AI

Was ist Vibe Coding? Ein verständlicher Leitfaden für 2026

Vibe Coding bedeutet, einer KI zu beschreiben, was du willst, und sie den Code schreiben zu lassen. Hier erfährst du, was es ist, woher es kommt, welche Risiken es gibt und wann du es tatsächlich einsetzen solltest.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Illustration von verstreutem Rauschen und maskierten Blöcken, die sich zu sauberen Textzeilen auflösen, mit einer Stoppuhr als Symbol für Geschwindigkeit
AI

Diffusionsbasierte KI-Modelle erklärt: wie sie funktionieren und warum sie plötzlich so schnell sind

Ein verständlicher Leitfaden zu diffusionsbasierten KI-Modellen: wie sie sich von autoregressiven LLMs unterscheiden, warum sie Text 10x schneller erzeugen und was das für Unternehmen bedeutet.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Illustration von durcheinandergewürfelten Text-Tokens, die sich in sauberen, lesbaren Text auflösen und DiffusionGemmas paralleles Entrauschen darstellen
AI

Was ist DiffusionGemma? Googles Open-Weights-Diffusions-LLM, erklärt

DiffusionGemma ist Googles Open-Weights-Textdiffusionsmodell: ein 26B Mixture-of-Experts, das ganze Textblöcke parallel schreibt und so bis zu 4x schneller generiert.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Zwei Menschen sprechen verschiedene Sprachen, verbunden durch eine Live-Schallwelle, als Illustration von Gemini 3.5 Live Translate
AI

Was ist Gemini 3.5 Live Translate?

Gemini 3.5 Live Translate ist Googles Echtzeit-Sprache-zu-Sprache-Übersetzungsmodell für über 70 Sprachen. Hier erfahren Sie, was es kann, wie es funktioniert und wo es passt.

Riellvriany IndriawanRiellvriany IndriawanJun 17, 2026
Illustration eines Telefons, das den neuen konversationsbasierten Siri AI in Apple Intelligence unter iOS 27 ausführt
AI

Was ist Apple Intelligence in iOS 27? Ein verständlicher Leitfaden

Ein verständlicher Leitfaden zu Apple Intelligence in iOS 27: der neu aufgebaute Siri AI, die Google-Verbindung, was wirklich neu ist und was das für Support-Teams bedeutet.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Redaktionelle Illustration von Claude Opus 4.8 für den Unternehmenseinsatz
AI

Claude Opus 4.8 für Unternehmen: Was sich ändert – und was nicht

Claude Opus 4.8 ist Anthropics Flaggschiff-Modell. Eine praxisnahe Einschätzung aus Betreibersicht: Was das für Ihr Unternehmen bedeutet, was es kostet und wo die Grenzen liegen.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Redaktionelle Illustration von Claude Opus 4.8, Anthropics Flaggschiff-KI-Modell
AI

Was ist Claude Opus 4.8? Ein nüchterner Blick auf Anthropics Flaggschiff-Modell

Claude Opus 4.8 ist Anthropics neuestes Flaggschiff-Modell. Hier erfahren Sie, was sich geändert hat, was es kostet und was ein intelligenteres Modell für den KI-Kundensupport bedeutet.

Riellvriany IndriawanRiellvriany IndriawanJun 17, 2026

Bereit, Ihren KI-Teamkollegen einzustellen?

In Minuten eingerichtet. Keine Kreditkarte erforderlich.

Kostenlos starten