Was ist DiffusionGemma? Googles Open-Weights-Diffusions-LLM, erklärt

Alicia Kirana Utomo
Geschrieben von

Alicia Kirana Utomo

Katelin Teen
Geprüft von

Katelin Teen

Zuletzt bearbeitet June 17, 2026

Expertengeprüft
Illustration von durcheinandergewürfelten Text-Tokens, die sich in sauberen, lesbaren Text auflösen und DiffusionGemmas paralleles Entrauschen darstellen

Was ist DiffusionGemma?

DiffusionGemma ist ein Modell aus Googles offener Gemma-Familie, das Text mit einem Diffusions-Prozess generiert statt mit dem autoregressiven Ansatz hinter fast jedem Chatbot, den du genutzt hast. Es wurde von Google DeepMind am 10. Juni 2026 als experimentelles Open-Weights-Modell unter Apache 2.0 veröffentlicht, wobei die offizielle Model Card auf DeepMinds Website lebt.

Hier ist das wichtigste Datenblatt:

AttributDiffusionGemma
Veröffentlicht10. Juni 2026
LizenzApache 2.0 (Open Weights)
ArchitekturAufbauend auf Gemma 4, Mixture-of-Experts
Größe25,2 Mrd. Gesamtparameter, ~3,8 Mrd. aktiv pro Schritt ("26B A4B")
GenerierungEntrauscht Blöcke von 256 Tokens parallel
Eingabe / AusgabeMultimodal ein (Text/Bild/Video), Text aus
Geschwindigkeit>1.000 Tok/s auf einer H100, bis zu 4x schneller als vergleichbare AR-Modelle
Hardware~52 GB VRAM bei BF16, ~28 GB bei INT8, lauffähig ab ~18 GB quantisiert

Die meisten dieser Zahlen stammen aus MarkTechPosts Launch-Berichterstattung und dem Spheron-Deployment-Leitfaden, mit dem Detail zu den parallelen Blöcken aus Diggs Artikel. Das Kürzel "26B A4B" ist Googles Bezeichnung: ein Mixture-of-Experts-Modell der 26B-Klasse, das auf jedem gegebenen Schritt nur etwa 3,8 Mrd. Parameter feuert, was ein Teil davon ist, warum es günstig schnell zu betreiben ist.

Der Grund, warum das eine große Sache ist, sind nicht die Benchmark-Werte. Es ist, dass ein Frontier-Lab ein echtes, herunterladbares Diffusions-Sprachmodell ausgeliefert hat. Jahrelang war Diffusion die dominierende Methode für Bilder und Video (denk an Midjourney, Sora), während Text hartnäckig autoregressiv blieb, dieselbe Familie, die alltägliche Assistenten wie ChatGPT und Claude antreibt. DiffusionGemma ist eines der klarsten Signale bisher, dass die Textseite aufholt.

Wie DiffusionGemma tatsächlich funktioniert

Standard-Large-Language-Models sind autoregressiv. Wie Inception Labs es ausdrückt, "generieren sie Text von links nach rechts, ein Token nach dem anderen, wobei ein Token nicht generiert werden kann, bis der gesamte Text davor generiert wurde." Jedes Wort wartet auf das davor, sodass eine lange Antwort eine lange Abfolge von Vorwärtsdurchläufen durch Milliarden von Parametern bedeutet. Daher kommt die Latenz.

Diffusion dreht das um. Der dominierende Ansatz für Text ist maskierte Diffusion: Du beginnst mit einem Block von Tokens, die alle maskiert sind, und ein Transformer sagt die unmaskierten Versionen voraus, dann verfeinert er seine Vermutung über eine Handvoll Durchläufe. Google beschreibt es so, dass Text "so generiert wird, wie Bilddiffusion funktioniert: Statt Text direkt vorherzusagen, lernt das Modell, Ausgaben zu generieren, indem es Rauschen Schritt für Schritt verfeinert, sodass es schnell an einer Lösung iterieren und während der Generierung fehlerkorrigieren kann."

Direkter Vergleich von autoregressiver Generierung, die Tokens einen nach dem anderen füllt, gegenüber Diffusion, die einen ganzen Block maskierter Tokens parallel verfeinert
Direkter Vergleich von autoregressiver Generierung, die Tokens einen nach dem anderen füllt, gegenüber Diffusion, die einen ganzen Block maskierter Tokens parallel verfeinert

Eine Klarstellung, weil der Name die Leute stolpern lässt. Diffusion ersetzt hier nicht den Transformer; sie ersetzt die Autoregression. Wie ein vielzitierter Hacker-News-Kommentar von Nutzer synapsomorphy es erklärte:

"Diffusion ist nicht an der Stelle von Transformern, sie ist an der Stelle der Autoregression. Frühere Diffusions-LLMs wie Mercury nutzen immer noch einen Transformer, aber es gibt keine kausale Maskierung, sodass die gesamte Eingabe auf einmal verarbeitet wird und die Ausgabegenerierung offensichtlich anders ist."

Hacker News, über Gemini Diffusion

Die praktischen Vorteile der parallelen Generierung sind dreifach: rohe Geschwindigkeit, die Fähigkeit zur Fehlerkorrektur mitten in der Generierung und natürliches Infilling (weil das Modell Kontext auf beiden Seiten einer Lücke sehen kann, ist es gut darin, die Mitte einer Sequenz zu bearbeiten, nicht nur ans Ende anzuhängen). Andrej Karpathy wies früh auf die Neuheit hin und merkte an, dass Diffusion "nicht von links nach rechts geht, sondern alles auf einmal. Du beginnst mit Rauschen und entrauschst es allmählich zu einem Token-Strom."

DiffusionGemma vs. Gemini Diffusion: nicht verwechseln

Das erwischt fast jeden, weil Google innerhalb von etwa einem Jahr zwei Textdiffusions-Dinge ausgeliefert und ihnen nahezu identische Namen gegeben hat.

Gemini Diffusion wurde im Mai 2025 auf der Google I/O als experimentelles, nur per Warteliste zugängliches Modell gezeigt, das auf Googles Infrastruktur läuft. Du kannst es nicht herunterladen. DiffusionGemma hingegen ist das Open-Weights-Modell, das du herunterladen und selbst betreiben kannst.

Zwei Karten, die Gemini Diffusion als geschlossen und nur per Warteliste verfügbar gegenüber DiffusionGemma als Open-Weights, Apache 2.0 und selbst hostbar klarstellen
Zwei Karten, die Gemini Diffusion als geschlossen und nur per Warteliste verfügbar gegenüber DiffusionGemma als Open-Weights, Apache 2.0 und selbst hostbar klarstellen

Die Tatsache, dass Google sowohl ein experimentelles geschlossenes Modell als auch ein Open-Weights-Release ausgeliefert hat, ist selbst die Geschichte: Es ist das stärkste Signal, dass Diffusions-Sprachmodelle das Stadium der Forschungskuriosität hinter sich gelassen haben. Wenn ein Frontier-Lab eine Architektur als Open Source freigibt, wettet es darauf, dass andere Leute darauf aufbauen werden.

Die Geschwindigkeitszahlen (und warum sie halbwegs echt sind)

Geschwindigkeit ist der gesamte Pitch, also schauen wir uns die Zahlen ehrlich an. DiffusionGemmas >1.000 Tok/s reihen sich neben seinen Diffusions-Verwandten ein, und der Abstand zu autoregressiven Modellen ist groß:

Balkendiagramm, das die Generierungsgeschwindigkeit in Tokens pro Sekunde vergleicht und Diffusionsmodelle bei rund 1.000-1.500 Tok/s gegenüber autoregressiven Modellen bei 60-200 Tok/s zeigt
Balkendiagramm, das die Generierungsgeschwindigkeit in Tokens pro Sekunde vergleicht und Diffusionsmodelle bei rund 1.000-1.500 Tok/s gegenüber autoregressiven Modellen bei 60-200 Tok/s zeigt

Ein paar Einschränkungen halten das geerdet. Fast jede Zahl wird auf einer NVIDIA H100 gemessen, und die meisten sind Herstellerangaben. Der eine unabhängige Maßstab in diesem Bereich, Artificial Analysis, hat die Geschwindigkeit von Inceptions Mercury-Modellen bestätigt, aber noch nicht deren Qualität. Speziell für DiffusionGemma stammen die >1.000 Tok/s und die Bis-zu-4x-Zahlen von Google und Partner-Artikeln wie Yellow.com, noch nicht von Drittanbieter-Benchmarks.

Zum Vergleich: Die autoregressiven Modelle, die Leute tatsächlich in der Produktion nutzen, liegen beim Durchsatz weit niedriger: gemäß Inceptions eigenen Benchmarks laufen GPT-4o Mini bei rund 59 Tok/s und Claude 3.5 Haiku bei rund 61, wobei das geschwindigkeitsoptimierte Gemini 2.0 Flash-Lite bei etwa 201 liegt. Die "etwa 10x schneller"-Einordnung für Diffusion hält also, zumindest auf dem Papier.

Wo es glänzt und wo nicht

Die ehrliche Einschätzung ist, dass Diffusion bei durchsatzgebundener, parallelisierbarer Arbeit wirklich schneller ist, aber Autoregression bei vielem, was Produktions-Apps tatsächlich brauchen, immer noch gewinnt. Die beste einzelne Quelle hier ist die Aufschlüsselung von Ingenieur Sean Goedecke zu den Grenzen der Diffusion, und sie lässt sich sauber auf eine Entscheidung übertragen.

Greif zur Diffusion, wenn die Aufgabe hochvolumig und parallelisierbar ist: Massen-Zusammenfassung, Klassifizierung, Umformatierung, Übersetzung oder latenzarme Agent-Loops, bei denen sich eine schnelle Antwort pro Schritt aufsummiert. Codegenerierung ist besonders gut geeignet, weil Diffusions Infilling-Natur dazu passt, wie du Code bearbeitest, indem der Anfang und das Ende eines Blocks im selben Durchlauf generiert werden.

Bleib bei Autoregression, wenn du kurze Ausgaben brauchst (Diffusion durchläuft unabhängig davon alle ihre Entrauschungsdurchläufe, also leistet sie zusätzliche Arbeit, um eine Sechs-Token-Antwort zu produzieren), lange Kontextfenster (Diffusion kann den Key-Value-Cache nicht so leicht wiederverwenden, also berechnet sie die Attention über den gesamten Kontext bei jedem Durchlauf neu) oder hartes Chain-of-Thought-Reasoning. Zu letzterem Punkt macht Goedecke das schärfste Argument:

"Ein Grund, dem Potenzial von Diffusionsmodellen zum Reasoning grundsätzlich skeptisch gegenüberzustehen, ist genau, dass sie pro Token viel weniger Arbeit leisten als autoregressive Modelle. Das ist einfach weniger Raum für das Modell, um zu 'denken'."

Sean Goedecke, "Strengths and limitations of diffusion language models"

DiffusionGemma selbst bestätigt den Kompromiss: Es bleibt in jedem veröffentlichten Benchmark unter dem Standard-Gemma 4. Ein Ingenieur, der über Produktions-Agent-Stacks schrieb, brachte den historischen Vorwurf gegen Diffusion einprägsam auf den Punkt, dass frühe Modelle "schnell waren auf die Weise, wie eine kaputte Uhr schnell ist, es spielt keine Rolle, wie schnell du die falsche Antwort bekommst" (dev.to). Die Qualitätslücke schließt sich bei kleiner und mittlerer Skala, aber an der Frontier ist sie immer noch sichtbar.

Der pragmatische Schritt, bei dem die meisten Teams landen werden, ist nicht Ersatz, sondern Routing: Sende einfache, hochfrequente Schritte (Nachschlagen, Formatieren, Klassifizieren) an ein schnelles Diffusionsmodell und reserviere ein Frontier-autoregressives Modell für tiefes Reasoning. Es ist dieselbe Logik dahinter, das richtige Werkzeug für eine Aufgabe zu wählen, statt dass ein KI-Helpdesk alles macht.

Was DiffusionGemma für Kundensupport-Teams bedeutet

Diffusion klingt perfekt für Support. Live-Chat und KI-Support-Agenten sind genau der latenzarme, nutzerorientierte Fall, bei dem der Abstand zwischen einer Ein-Sekunden- und einer Mehr-Sekunden-Antwort entscheidet, ob sich das Tool in Echtzeit anfühlt oder wie "ein Dienst, auf den man wartet." Für kundenorientierte Copiloten kann eine Antwort im Sub-Sekunden-Bereich wirklich der Unterschied zwischen Akzeptanz und Aufgabe sein.

Aber hier ist das, dem wir widersprechen würden: für ein Support-Team zählt die Modellarchitektur weit weniger als die Orchestrierung drumherum. Zwei Einschränkungen treffen direkt auf diesen Anwendungsfall zu.

Erstens stützen sich echte Support-Antworten auf langen Kontext und Retrieval, und langer Kontext ist genau die Schwachstelle der Diffusion. Eine gute Antwort ist keine Generierung von Grund auf; sie ist eine gegründete Antwort über deine Wissensdatenbank, Ticket-Historie und Richtliniendokumente. Das Retrieval und die Erdung zählen mehr zur Antwortqualität als die Frage, ob die finalen Tokens von links nach rechts oder parallel herauskamen, was der Kern der RAG vs. LLM-Frage ist.

Zweitens schlagen Qualität und Zuverlässigkeit rohe Geschwindigkeit bei allem Kundenorientierten. Ein schnelleres Modell, das an veraltetes Wissen oder schwache Eskalationsregeln angeschlossen ist, produziert nur schneller falsche Antworten. Das ist das Kaputte-Uhr-Problem, angewendet auf Support.

eesel-KI-Helpdesk-Dashboard, das verbundene Tickets und Wissensquellen zeigt, entnommen von eesel
eesel-KI-Helpdesk-Dashboard, das verbundene Tickets und Wissensquellen zeigt, entnommen von eesel

Wenn du also eine Support-Leitung bist, die über DiffusionGemma liest und sich fragt, ob du es brauchst: wahrscheinlich nicht direkt. Was du willst, ist eine Plattform, die Erdung, Leitplanken und Helpdesk-Integrationen richtig macht und dann still von dem Modell profitiert, das unter der Haube am schnellsten und besten ist. Latenz ist ein Hebel unter vielen, und sie ist selten der, der deine Lösungsquote zurückhält. Die größere Frage sind meist die Kosten pro Ticket gegenüber einem Menschen, der es bearbeitet.

Probiere eesel

eesel AI verkauft KI-Teamkollegen, die in deinem bestehenden Helpdesk (Zendesk, Freshdesk, HubSpot, Gorgias, Front) leben und Tier-1-Support übernehmen, indem sie ab dem ersten Tag aus deinen vergangenen Tickets und Hilfeartikeln lernen. Der Grund, warum es hier relevant ist: eesel ist bewusst modellagnostisch, sodass die Architekturdebatte oben eine ist, die du nicht gewinnen musst. Was es richtig macht, ist die Orchestrierung, die die Zahlen tatsächlich bewegt, wie konfidenzbasiertes Routing, das entwirft statt zu senden, wenn es unsicher ist, und ein Simulationsmodus, der gegen deine vergangenen Tickets läuft, sodass du die Abdeckung sehen kannst, bevor du live gehst. Gridwise sah 73 % der Tier-1-Anfragen im ersten Monat gelöst, und die Preise sind nutzungsbasiert ab 0,40 $ pro gelöstem Ticket ohne Gebühren pro Sitzplatz, sodass du für Ergebnisse zahlst statt für GPU-Stunden.

Häufig gestellte Fragen

Was ist DiffusionGemma einfach erklärt?
DiffusionGemma ist ein Open-Weights-KI-Sprachmodell von Google DeepMind, das Text mittels Diffusion statt der üblichen Links-nach-rechts-Methode schreibt. Anstatt ein Wort nach dem anderen vorherzusagen, beginnt es mit einem Block maskierter Tokens und verfeinert den gesamten Block parallel über einige Durchläufe, wodurch die Generierung bis zu 4x schneller wird. Es ist Teil der offenen Gemma-Familie und unter einer Apache-2.0-Lizenz veröffentlicht.
Ist DiffusionGemma dasselbe wie Gemini Diffusion?
Nein. Gemini Diffusion ist ein geschlossenes, nur per Warteliste zugängliches Experiment, das auf Googles eigener Infrastruktur läuft, während DiffusionGemma ein Open-Weights-Modell ist, das du herunterladen und selbst hosten kannst. Beide nutzen Textdiffusion, aber es sind unterschiedliche Releases, die leicht zu verwechseln sind. Wenn du Googles KI-Optionen vergleichst, behandelt unser Gemini-Preisratgeber die Produktionsmodelle.
Wie schnell ist DiffusionGemma im Vergleich zu einem normalen LLM?
Google meldet mehr als 1.000 Tokens pro Sekunde auf einer einzigen H100-GPU, bis zu 4x schneller als ein vergleichbares autoregressives Modell. Zum Vergleich: geschwindigkeitsoptimierte autoregressive Modelle wie Gemini 2.0 Flash-Lite liegen bei rund 200 Tokens pro Sekunde. Geschwindigkeit ist der ganze Sinn der Diffusion, was für latenzsensible Aufgaben wie eine Echtzeit-Chat-Antwort wichtig ist.
Kann ich DiffusionGemma für den Kundensupport nutzen?
Das kannst du, aber die Modellarchitektur ist die kleinere Hälfte des Problems. Eine gute Support-Antwort hängt weit mehr davon ab, worauf die KI gegründet ist (deine Hilfeartikel, vergangene Tickets, Richtlinien) und welche Leitplanken sie umgeben, als von der reinen Geschwindigkeit. Eine Plattform wie eesels KI-Helpdesk-Agent übernimmt diese Orchestrierung, unabhängig davon, welches Modell darunter sitzt.
Wie viel kostet der Betrieb von DiffusionGemma?
Die Gewichte sind unter Apache 2.0 kostenlos, aber du zahlst für die GPU, um sie auszuliefern. Es benötigt grob 52 GB VRAM bei voller Präzision, sinkend auf etwa 28 GB mit INT8-Quantisierung, daher wird eine Karte der H100-Klasse empfohlen. Wenn du lieber keine Infrastruktur betreiben möchtest, rechnen nutzungsbasierte Tools wie eesel AI pro gelöstem Ticket statt pro GPU-Stunde ab.

Share this article

Alicia Kirana Utomo

Article by

Alicia Kirana Utomo

Kira is a writer at eesel AI with a Computer Science background and over a year of hands-on experience evaluating AI-powered customer service tools. She focuses on breaking down how helpdesk platforms and AI agents actually work so that support teams can make better buying decisions.

Related Posts

All posts →
Illustration von verstreutem Rauschen und maskierten Blöcken, die sich zu sauberen Textzeilen auflösen, mit einer Stoppuhr als Symbol für Geschwindigkeit
AI

Diffusionsbasierte KI-Modelle erklärt: wie sie funktionieren und warum sie plötzlich so schnell sind

Ein verständlicher Leitfaden zu diffusionsbasierten KI-Modellen: wie sie sich von autoregressiven LLMs unterscheiden, warum sie Text 10x schneller erzeugen und was das für Unternehmen bedeutet.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Illustration des Apple Intelligence Siri-Assistenten in Verbindung mit Business-Software-Workflows
AI

Apple Intelligence für Unternehmen: Was es 2026 wirklich leistet (und was nicht)

Ein nüchterner Blick auf Apple Intelligence für Unternehmen in 2026: die neue Siri AI, das kostenlose Entwickler-Framework und wo es für den Kundensupport nicht mehr ausreicht.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Illustration eines Telefons, das den neuen konversationsbasierten Siri AI in Apple Intelligence unter iOS 27 ausführt
AI

Was ist Apple Intelligence in iOS 27? Ein verständlicher Leitfaden

Ein verständlicher Leitfaden zu Apple Intelligence in iOS 27: der neu aufgebaute Siri AI, die Google-Verbindung, was wirklich neu ist und was das für Support-Teams bedeutet.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Redaktionelle Illustration von Claude Opus 4.8 für den Unternehmenseinsatz
AI

Claude Opus 4.8 für Unternehmen: Was sich ändert – und was nicht

Claude Opus 4.8 ist Anthropics Flaggschiff-Modell. Eine praxisnahe Einschätzung aus Betreibersicht: Was das für Ihr Unternehmen bedeutet, was es kostet und wo die Grenzen liegen.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Redaktionelle Illustration von Claude Opus 4.8, Anthropics Flaggschiff-KI-Modell
AI

Was ist Claude Opus 4.8? Ein nüchterner Blick auf Anthropics Flaggschiff-Modell

Claude Opus 4.8 ist Anthropics neuestes Flaggschiff-Modell. Hier erfahren Sie, was sich geändert hat, was es kostet und was ein intelligenteres Modell für den KI-Kundensupport bedeutet.

Riellvriany IndriawanRiellvriany IndriawanJun 17, 2026
Illustration von Claude Fable 5 als langlaufender autonomer Mitarbeiter für ein Unternehmensteam
AI

Claude Fable 5 für Unternehmen: Was Anthropics leistungsstärkstes Modell wirklich für Ihr Team bedeutet

Ein nüchterner Blick auf Claude Fable 5 für Unternehmen: was es kostet, wo es glänzt, wo es Probleme macht und wie Sie es im Kundensupport tatsächlich einsetzen.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Illustration, die einen KI-Chatbot beim Beantworten einer Frage einem KI-Agenten gegenüberstellt, der mit Slack, E-Mail und Ticketing-Tools verbunden ist
AI

KI-Agenten vs. KI-Chatbots: der echte Unterschied und wann man was einsetzt

KI-Agenten vs. KI-Chatbots: Chatbots beantworten Fragen, Agenten handeln und schließen Tickets. Hier ist der echte Unterschied und wann Sie zu welchem greifen sollten.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Eine nicht-technische Person beschreibt eine App-Idee, während die KI Software-Bausteine zusammensetzt
AI

Vibe Coding für Nicht-Entwickler: was es wirklich ist und wie man es sicher nutzt

Ein verständlicher Leitfaden zum Vibe Coding für Nicht-Entwickler: was es bedeutet, welche Tools man nutzt, wo es scheitert und was man gefahrlos selbst bauen kann.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Zwei Menschen sprechen verschiedene Sprachen, verbunden durch eine Live-Schallwelle, als Illustration von Gemini 3.5 Live Translate
AI

Was ist Gemini 3.5 Live Translate?

Gemini 3.5 Live Translate ist Googles Echtzeit-Sprache-zu-Sprache-Übersetzungsmodell für über 70 Sprachen. Hier erfahren Sie, was es kann, wie es funktioniert und wo es passt.

Riellvriany IndriawanRiellvriany IndriawanJun 17, 2026

Bereit, Ihren KI-Teamkollegen einzustellen?

In Minuten eingerichtet. Keine Kreditkarte erforderlich.

Kostenlos starten