Was ist Gemma 4? Googles offene KI-Modellfamilie, erklärt

Alicia Kirana Utomo
Geschrieben von

Alicia Kirana Utomo

Katelin Teen
Geprüft von

Katelin Teen

Zuletzt bearbeitet June 19, 2026

Expertengeprüft
Illustration von Google Gemma 4, der Open-Weight-KI-Modellfamilie, die auf einem Laptop und einem lokalen Server läuft

Was genau ist Gemma 4?

Ich entwickle die KI-Agenten bei eesel und habe die letzten Jahre damit verbracht, zu beobachten, wie offene Modelle von „lustig zum Ausprobieren" zu „gut genug für zahlende Kunden" geworden sind. Wir betreiben täglich Agenten auf Live-Support-Warteschlangen; ein Kunde, Smava, verarbeitet monatlich über 100.000 deutschsprachige Tickets über einen automatisierten Agenten. Wann immer Google ein neues offenes Modell veröffentlicht, lese ich es durch eine Linse: Könnte man diesem Modell wirklich vertrauen, ohne menschliche Aufsicht auf Kundenfragen zu antworten?

Gemma 4 ist die interessanteste Antwort auf diese Frage, die ich von einem offenen Modell gesehen habe.

Einfach ausgedrückt ist Gemma die Linie offener Modelle von Google DeepMind – die kleineren, herunterladbaren Cousins der geschlossenen Gemini-Modelle. Gemma 4 wurde „aus derselben erstklassigen Forschung und Technologie wie Gemini 3 entwickelt, um die Intelligenz pro Parameter zu maximieren", laut Googles Launch-Post. Das Schlüsselwort ist Open-Weight: Google veröffentlicht die eigentlichen Modelldateien, sodass man sie auf dem eigenen Laptop, Server oder Smartphone ohne API-Aufruf betreiben kann.

Es ist auch multimodal. Jedes Modell verarbeitet Text- und Bildeingaben, die kleineren fügen nativen Audio-Input hinzu, und die Modellkarte nennt einen Trainings-Cutoff von Januar 2025 mit Unterstützung für über 140 Sprachen. Wer unseren Artikel zu RAG versus LLMs gelesen hat: Gemma 4 ist die „LLM"-Hälfte dieses Bildes – die Reasoning-Engine, die man auf das eigene Wissen ausrichten würde.

Die fünf Größen und welche die richtige ist

Gemma 4 ist nicht ein Modell, sondern fünf – sortiert nach dem Einsatzort. Das ist der Teil, den man zuerst verstehen sollte, denn die falsche Größe zu wählen ist der häufigste Fehler, den ich sehe.

Die fünf Gemma-4-Größen mit der zugehörigen Hardware – vom Smartphone bis zum Ein-GPU-Server
Die fünf Gemma-4-Größen mit der zugehörigen Hardware – vom Smartphone bis zum Ein-GPU-Server

Hier ist die Übersicht mit den Spezifikationen direkt aus der Modellkarte:

ModellEffektive ParameterKontextModalitätenLäuft auf
E2B2,3B (5,1B mit Embeddings)128KText, Bild, AudioSmartphones, Raspberry Pi, Edge
E4B4,5B (8B mit Embeddings)128KText, Bild, AudioHigh-End-Smartphones, IoT
12B Unified11,95B256KText, Bild, AudioLaptops (~16 GB)
26B A4B (MoE)25,2B gesamt, 3,8B aktiv256KText, BildWorkstation, latenzkritisch
31B Dense30,7B256KText, BildEin 80-GB-H100, beste Qualität

Das „E" in E2B und E4B steht für effektive Parameter. Diese Modelle verwenden einen Trick namens Per-Layer Embeddings, um den Speicherbedarf klein zu halten – so kann ein Smartphone sie offline mit nahezu null Latenz betreiben. Google hat sie zusammen mit dem Pixel-Team sowie Qualcomm und MediaTek entwickelt, sie sind also für echtes Mobile-Silizium optimiert, nicht nur für eine Demo.

Das 12B Unified ist der Neuling, am 3. Juni 2026 hinzugefügt. Es ist das „Laptop-taugliche" Modell und Googles erstes mittelgroßes Modell mit nativem Audio-Input. Das 31B Dense ist das Flaggschiff für maximale Qualität und die Basis, auf der alle feinabstimmen.

Das mittlere Modell, das 26B, ist das Cleverste der Gruppe. Es verdient einen eigenen Abschnitt.

Wie ein 26B-Modell mit Modellen mithalten kann, die 20x größer sind

Das 26B ist ein Mixture-of-Experts (MoE)-Modell, und es zu verstehen ist der beste Weg, zu begreifen, warum Gemma 4 so bedeutsam ist.

Ein normales „dichtes" Modell aktiviert jeden Parameter für jedes verarbeitete Token. Ein MoE-Modell teilt seine Parameter in viele kleine „Experten" auf und schaltet für jedes Token nur die wenigen ein, die wirklich benötigt werden. So sieht das aus:

Wie ein Mixture-of-Experts-Modell jedes Token zu einigen Experten weiterleitet und die aktiven Parameter niedrig hält
Wie ein Mixture-of-Experts-Modell jedes Token zu einigen Experten weiterleitet und die aktiven Parameter niedrig hält

Gemma 4s 26B hat 25,2B Gesamtparameter, aber nur 3,8B aktive pro Token, die durch 8 von 128 Experten plus einem geteilten Experten geleitet werden. Das praktische Ergebnis: Es läuft etwa so schnell wie ein 4B Dense-Modell, antwortet aber näher an der Qualität des 31B. (Ein Vorbehalt: Alle 25,2B Parameter müssen für das Routing noch in den Speicher geladen werden, MoE spart also Rechenleistung, nicht RAM.)

Warum ist das wichtig? Weil es die alte Annahme bricht, dass „intelligenter" auch „größer und langsamer" bedeutet. Man sehe, wo die mittelgroßen Gemma-4-Modelle in Googles eigenem Leistungs-versus-Größe-Diagramm landen:

Gemma 4s 31B und 26B an der Performance-vs.-Größe-Grenze, vor viel größeren Modellen, aus Googles Ankündigung
Gemma 4s 31B und 26B an der Performance-vs.-Größe-Grenze, vor viel größeren Modellen, aus Googles Ankündigung
Open-Model-Performance vs. Größe in Arena.ais Chat-Arena, veröffentlicht von Google DeepMind.

Das 31B ist das #3-offene Modell in Arena AIs Text-Bestenliste, und das 26B MoE belegt Platz #6 – so kann Google behaupten, Gemma 4 „übertrifft Modelle, die 20x größer sind". Für ein Support-Team ist die Erkenntnis nicht das Bestenlisten-Ranking, sondern dass diese Qualität auf eigener Hardware läuft.

Was „Open Weights" wirklich bedeutet (und warum sich die Lizenz geändert hat)

„Open" wird oft ungenau verwendet – hier möchte ich präzise sein, denn hier hat Gemma 4 seinen größten Schritt gemacht.

Frühere Gemma-Modelle wurden unter benutzerdefinierten „Gemma Nutzungsbedingungen" veröffentlicht. Gemma 4 wechselte zu einer standardmäßigen Apache-2.0-Lizenz. In Googles Worten ist sie „kommerziell freizügig" und gewährt „vollständige Kontrolle über Daten, Infrastruktur und Modelle". Hugging Faces CEO Clément Delangue bezeichnete diesen Schritt als „einen riesigen Meilenstein".

Das ist der Unterschied, den diese Lizenz in der Praxis macht:

Geschlossenes API-Modell sendet Kundendaten an Anbieterserver – offenes Gewichtsmodell hält sie auf eigener Infrastruktur
Geschlossenes API-Modell sendet Kundendaten an Anbieterserver – offenes Gewichtsmodell hält sie auf eigener Infrastruktur

Mit einem geschlossenen API-Modell wird jede verarbeitete Kundennachricht an die Server des Anbieters gesendet. Mit einem Open-Weight-Modell unter Apache 2.0 kann alles innerhalb der eigenen Infrastruktur betrieben werden – on-premises oder in der eigenen Cloud – und die Daten verlassen sie nie. Für alle in regulierten Branchen ist diese Datenhaltungskontrolle der einzige Grund, sich für offene Modelle zu interessieren. Aus demselben Grund greifen Menschen zu Open-Source-Ticketing-Systemen und Open-Source-Chatbot-Plattformen.

Um es zu skalieren, bietet Google Gemma 4 über Vertex AI, Cloud Run und GKE an, und es funktioniert von Anfang an mit den Tools, die Self-Hoster bereits verwenden, wie Ollama, llama.cpp, vLLM und LM Studio.

Die Benchmarks und wo Gemma 4 wirklich glänzt

Nun zu den Zahlen. Google veröffentlicht eine vollständige Benchmark-Tabelle, die die instruction-tuned Gemma-4-Modelle mit der vorherigen Generation Gemma 3 27B vergleicht:

Gemma-4-Benchmark-Tabelle über MMMLU, AIME, GPQA, LiveCodeBench und agentischen Tool-Use, versus Gemma 3 27B
Gemma-4-Benchmark-Tabelle über MMMLU, AIME, GPQA, LiveCodeBench und agentischen Tool-Use, versus Gemma 3 27B
Instruction-tuned Benchmark-Ergebnisse, veröffentlicht in Googles Gemma-4-Materialien.

Die eine Zeile, die ich hervorheben würde, ist der agentische Tool-Use. Im τ2-Bench-Retail-Benchmark, der testet, ob ein Modell tatsächlich Tools aufrufen kann, um eine Aufgabe abzuschließen, erzielt das 31B-Modell 86,4% gegenüber Gemma 3s 6,6%. Das ist keine inkrementelle Verbesserung, sondern ein Generationssprung – und diese Fähigkeit verwandelt einen Chatbot in etwas, das wirklich arbeiten kann.

Es hält auch gegenüber den geschlossenen Giganten stand. Bei Arena Elo liegt das 31B mit 1452 knapp hinter Modellen mit 15–35x mehr Parametern:

Arena-Elo-Balkendiagramm: Gemma 4 31B bei 1452 neben viel größeren Modellen wie Glm 5, Kimi k2.5 und Qwen 3.5
Arena-Elo-Balkendiagramm: Gemma 4 31B bei 1452 neben viel größeren Modellen wie Glm 5, Kimi k2.5 und Qwen 3.5
Arena-Elo-Werte gegenüber Parameteranzahl, via Hugging Face.

Architektonisch ist die interessante Anmerkung aus Sebastian Raschkas Analyse, dass Gemma 4 unter der Haube „ziemlich unverändert" gegenüber Gemma 3 ist, sodass der Sprung „wahrscheinlich auf das Trainingsset und das Rezept zurückzuführen ist". Mit anderen Worten: Google hat diesen Sprung durch bessere Daten erreicht, nicht durch eine neue Architektur – was eine leise beeindruckende Leistung ist.

Wie es sich im Betrieb anfühlt

Benchmarks sind das eine. Was sagen Menschen, die Gemma 4 täglich betreiben? Ich habe mich in den Local-Model-Communities umgesehen, denn dort findet man die ungeschminkten Meinungen.

Das Lob ist einheitlich: schnell, speicherschonend und nicht langatmig.

„Schnell wie die Hölle auf einem M4Max, und verdammt schlau für seine Geschwindigkeit. Zerstört nicht die Speicherlast. Denkt nicht stundenlang nach (und frisst das gesamte Token-Budget beim Reasoning) wie Qwen... Es ist perfekt für openclaw, hermes, claude code usw. Ich LIEBE dieses Modell lokal. Es ist jetzt mein Standardmodell." – u/styles01 auf r/LocalLLaMA

Der Punkt „denkt nicht stundenlang nach" taucht immer wieder auf. Ein Self-Hoster, der das 26B und 31B für einen multimodalen Anwendungsfall betreibt, hat echte Zahlen geliefert und berichtet von etwa 149 Token/Sek. beim 31B und 88 beim 26B und ergänzt, dass „die Benchmarks wirklich nicht erfassen, wie wenig es im Vergleich zu größeren Modellen quasselt".

Aber hier ist die ehrliche Einschränkung, und sie ist der Grund, warum ich Gemma 4 nicht unbeaufsichtigt auf eine Live-Warteschlange lassen würde:

„Ich stimme zu, es ist bei allem viel besser, außer beim Coding. [...] Es leidet jedoch erheblich, wenn Gewichte oder KV-Cache auf einer anderen Quantisierung als der nativen sind." – u/fragment_me auf r/LocalLLM

Die Community-Einschätzung lautet also: Gemma 4 ist ein ausgezeichnetes Chat- und Instruction-Following-Modell, das weit über seinem Gewicht schlägt, mit zwei Vorbehalten – Coding und agentische Workflows sind schwächere Bereiche, und es verschlechtert sich merklich, wenn es auf einer anderen als der nativen Quantisierung betrieben wird. Gut zu wissen, bevor man es für eine Aufgabe auswählt.

Was das für den Kundensupport bedeutet

Hier wird es für alle, die ein Support-Team leiten, praktisch. Ein offenes Modell wie Gemma 4 ist eine fantastische Zutat. Es ist allein kein Support-Agent.

Ein rohes Modell hat keine Ahnung, was die Rückgaberichtlinie lautet, kann vergangene Tickets nicht einsehen und ist nicht mit dem Helpdesk verbunden. Es unbeaufsichtigt vor Kunden zu stellen, führt genau zu dem Fehlermodus, gegen den wir jahrelang entwickelt haben: Ein selbstsicherer Bot, der leise falsche Antworten gibt. Das Modell ist der Motor; das eigentliche Produkt ist alles darum herum – das Wissen, das sichere Routing, die Verbindung zu den eigenen Tools und die Fähigkeit, es vor dem Go-Live zu testen.

Diese Lücke ist der einzige Grund, warum Plattformen wie unsere existieren. Die Open-Weight-Bewegung gibt die Kontrolle über die Modellschicht, aber die meisten Support-Teams möchten nicht auch zu einem ML-Ops-Team werden. Die bessere Antwort für die meisten ist, die Datenkontroll- und Lernvorteile zu erhalten, ohne die Infrastruktur selbst aufzubauen – das ist die Grenze, die ich zwischen einem Modell und einer KI-Kundenservice-Plattform ziehen würde.

eesel für KI-Support ausprobieren

Wenn die Lektüre über Gemma 4 den Gedanken weckte „Ich möchte KI, die meine Tickets beantwortet, aber zu meinen Bedingungen" – genau das Problem löst eesel.

Eesels KI-Helpdesk-Agent integriert sich in die bereits genutzten Tools – Zendesk, Freshdesk, Gorgias, Slack und über 100 andere – und lernt ab Tag eins aus vergangenen Tickets und Hilfsdokumentationen, sodass jahrelanges Wissen sofort verfügbar wird. Der Teil, der direkt auf die eingangs gestellte Frage „Kann man ihm vertrauen?" einzahlt: Der Agent kann gegen tausende historischer Tickets simuliert werden, um zu sehen, wie er geantwortet hätte – bevor ein einziger Kunde ihn sieht. So hat Gridwise im ersten Monat 73% der Tier-1-Anfragen gelöst.

eesel-KI-Helpdesk-Dashboard mit verbundenen Support-Tools und Ticket-Aktivität
eesel-KI-Helpdesk-Dashboard mit verbundenen Support-Tools und Ticket-Aktivität

Es ist nutzungsbasiert, ab 0,40 $ pro Ticket ohne Sitzplatz-Gebühren, und der Start ist mit 50 $ kostenlosem Guthaben ohne Kreditkarte möglich. Egal ob das zugrunde liegende Modell Gemma 4 oder ein anderes ist – das eigentlich Gewünschte ist ein Agent, dem man auf der eigenen Warteschlange vertrauen kann. eesel ausprobieren und sehen, wie er damit umgeht.

Häufig gestellte Fragen

Was ist Gemma 4?
Gemma 4 ist die Familie von Open-Weight-KI-Modellen von Google DeepMind, veröffentlicht am 2. April 2026. Im Gegensatz zu einem reinen API-Modell werden die tatsächlichen Gewichte heruntergeladen und auf eigener Hardware betrieben – vom Smartphone bis zum Ein-GPU-Server. Es gibt fünf Größen und ist für Reasoning und agentische Workflows konzipiert.
Ist Gemma 4 kostenlos nutzbar?
Die Gewichte können kostenlos heruntergeladen werden, und die Lizenz ist Apache 2.0, also kommerziell freizügig – es fallen keine Lizenzgebühren pro Token an. Die einzigen Kosten sind die eigene Infrastruktur. Das ist ein großer Unterschied zur Preisgestaltung der meisten LLMs.
Welche Modellgrößen gibt es bei Gemma 4?
Es gibt fünf: E2B und E4B für Smartphones und Edge-Geräte, ein 12B-Unified-Modell für Laptops, ein 26B Mixture-of-Experts-Modell für niedrige Latenz und ein 31B Dense Flaggschiff. Die Modellkarte listet alle vollständigen Spezifikationen.
Kann Gemma 4 auf einem Laptop oder Smartphone laufen?
Ja. Die Modelle E2B und E4B laufen vollständig offline auf Smartphones und Geräten wie dem Raspberry Pi, und das 12B-Unified-Modell passt auf einen Laptop mit 16 GB Arbeitsspeicher. Self-Hoster auf r/LocalLLaMA berichten, dass das 26B schnell läuft auf einem 64-GB-Mac.
Ist Gemma 4 gut für den Kundensupport?
Ein offenes Modell bietet eine starke Basis, aber ein produktionsreifer Support-Agent braucht mehr als rohe Gewichte: Er muss aus Tickets lernen, sicher weiterleiten und mit dem Helpdesk verbunden sein. Eine Plattform wie eesels KI-Helpdesk-Agent übernimmt diese Ebene, sodass man die Kontrolle des Self-Hostings erhält, ohne die Infrastruktur selbst aufbauen zu müssen. Erfahren Sie, wie Teams Supportkosten mit KI senken.

Share this article

Alicia Kirana Utomo

Article by

Alicia Kirana Utomo

Kira is a writer at eesel AI with a Computer Science background and over a year of hands-on experience evaluating AI-powered customer service tools. She focuses on breaking down how helpdesk platforms and AI agents actually work so that support teams can make better buying decisions.

Related Posts

All posts →
Illustration eines KI-Support-Teammitglieds, das B2B-SaaS-Gespräche zwischen zwei Kunden verwaltet
AI

KI-Support für B2B-SaaS: Was 2026 wirklich funktioniert

B2B-SaaS-Tickets sind technisch, kontospezifisch und risikoreich. Hier erfahren Sie, wie KI-Support für sie tatsächlich funktioniert, was scheitert und wie man ihn sicher einführt.

Riellvriany IndriawanRiellvriany IndriawanJun 19, 2026
Redaktionelle Illustration von Claude Opus 4.8 für den Unternehmenseinsatz
AI

Claude Opus 4.8 für Unternehmen: Was sich ändert – und was nicht

Claude Opus 4.8 ist Anthropics Flaggschiff-Modell. Eine praxisnahe Einschätzung aus Betreibersicht: Was das für Ihr Unternehmen bedeutet, was es kostet und wo die Grenzen liegen.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Illustration von durcheinandergewürfelten Text-Tokens, die sich in sauberen, lesbaren Text auflösen und DiffusionGemmas paralleles Entrauschen darstellen
AI

Was ist DiffusionGemma? Googles Open-Weights-Diffusions-LLM, erklärt

DiffusionGemma ist Googles Open-Weights-Textdiffusionsmodell: ein 26B Mixture-of-Experts, das ganze Textblöcke parallel schreibt und so bis zu 4x schneller generiert.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Ein offener Aktenkoffer, aus dem Dokumente, Tabellen, E-Mails und Chat-Nachrichten quellen, während eine KI-Figur sie auf einer Scorecard bewertet
AI

Was ist AA-Briefcase? Der KI-Benchmark für echte Wissensarbeit, erklärt

AA-Briefcase ist der neue Benchmark von Artificial Analysis, der KI an realen, mehrwöchigen Büroprojekten testet. Was er misst, wer vorne liegt und was das für den KI-Einsatz im Beruf bedeutet.

Alicia Kirana UtomoAlicia Kirana UtomoJun 22, 2026
Illustriertes Hero-Banner für einen OpenAI Codex-Erklärer zum kostenlosen Zugang, mit Terminal- und Code-Editor-Motiven
AI

OpenAI Codex kostenloser Zugang, erklärt: was du wirklich für $0 bekommst

Ist OpenAI Codex kostenlos? Ja, wenn du dich mit einem kostenlosen ChatGPT-Konto anmeldest. Hier erfährst du genau, was der kostenlose Tarif bietet, wo die Grenze liegt und welche Limits gelten.

Alicia Kirana UtomoAlicia Kirana UtomoJun 18, 2026
Illustration von verstreutem Rauschen und maskierten Blöcken, die sich zu sauberen Textzeilen auflösen, mit einer Stoppuhr als Symbol für Geschwindigkeit
AI

Diffusionsbasierte KI-Modelle erklärt: wie sie funktionieren und warum sie plötzlich so schnell sind

Ein verständlicher Leitfaden zu diffusionsbasierten KI-Modellen: wie sie sich von autoregressiven LLMs unterscheiden, warum sie Text 10x schneller erzeugen und was das für Unternehmen bedeutet.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Illustration einer Coding-Session, die ein Dashboard-Artifact zu einem teilbaren Link veröffentlicht
AI

Was sind Claude Code Artifacts? Ein klarer Leitfaden für 2026

Claude Code Artifacts verwandeln eine Coding-Session in eine live, teilbare Webseite. Hier erfahren Sie, was sie sind, wie sie funktionieren und worin sie sich von Chat-Artifacts unterscheiden.

Alicia Kirana UtomoAlicia Kirana UtomoJun 21, 2026
Palmier, der KI-native Videoeditor, mit in die Timeline integrierter KI-Generierung
AI

Was ist Palmier? Der KI-Videoeditor, den deine Agenten bearbeiten können

Palmier ist ein Mac-nativer KI-Videoeditor, bei dem die Generierung direkt auf der Timeline stattfindet und Agenten wie Claude deinen Schnitt direkt bearbeiten können. Was er wirklich kann.

Rama Adi NugrahaRama Adi NugrahaJun 19, 2026
Illustration des Apple Intelligence Siri-Assistenten in Verbindung mit Business-Software-Workflows
AI

Apple Intelligence für Unternehmen: Was es 2026 wirklich leistet (und was nicht)

Ein nüchterner Blick auf Apple Intelligence für Unternehmen in 2026: die neue Siri AI, das kostenlose Entwickler-Framework und wo es für den Kundensupport nicht mehr ausreicht.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026

Bereit, Ihren KI-Teamkollegen einzustellen?

In Minuten eingerichtet. Keine Kreditkarte erforderlich.

Kostenlos starten