Blog / AI

Qu'est-ce que DiffusionGemma ? Le LLM de diffusion à poids ouverts de Google, expliqué

Écrit par

Alicia Kirana Utomo

Relu par

Katelin Teen

Dernière modification June 17, 2026

Vérifié par un expert

Illustration de jetons de texte brouillés se résolvant en un texte propre et lisible, représentant le débruitage parallèle de DiffusionGemma

TL;DR

DiffusionGemma est le modèle de langage à diffusion de texte et à poids ouverts de Google DeepMind, publié le 10 juin 2026 sous une licence Apache 2.0. La version courte : au lieu d'écrire un mot à la fois de gauche à droite comme GPT ou Claude, il part d'un bloc de jetons masqués et affine le bloc entier en parallèle sur quelques passes. Ce seul changement le fait fonctionner à plus de 1 000 jetons par seconde sur un seul H100, jusqu'à 4x plus vite qu'un modèle autorégressif comparable.

Le bémol est honnête et mérite d'être dit d'emblée : DiffusionGemma échange la qualité contre la vitesse. Il se situe en dessous du Gemma 4 standard sur chaque benchmark publié. C'est donc un signal fascinant sur la direction que prend le domaine, pas un remplacement clé en main de votre modèle de production. Et si vous le lorgnez spécifiquement pour le support client, l'architecture compte bien moins que ce sur quoi le modèle est fondé.

Jetons de texte brouillés se résolvant en un texte propre et lisible, représentant le débruitage parallèle de DiffusionGemma

Qu'est-ce que DiffusionGemma ?

DiffusionGemma est un modèle de la famille ouverte Gemma de Google qui génère du texte avec un processus de diffusion plutôt qu'avec l'approche autorégressive derrière presque tous les chatbots que vous avez utilisés. Il a été publié par Google DeepMind le 10 juin 2026 comme un modèle expérimental à poids ouverts sous Apache 2.0, la fiche officielle du modèle se trouvant sur le site de DeepMind.

Voici la fiche technique principale :

Attribut	DiffusionGemma
Publié	10 juin 2026
Licence	Apache 2.0 (poids ouverts)
Architecture	Construit sur Gemma 4, Mixture-of-Experts
Taille	25,2 Md de paramètres totaux, ~3,8 Md actifs par étape (« 26B A4B »)
Génération	Débruite des blocs de 256 jetons en parallèle
Entrée / sortie	Multimodal en entrée (texte/image/vidéo), texte en sortie
Vitesse	>1 000 jetons/s sur un H100, jusqu'à 4x plus vite que des modèles AR comparables
Matériel	~52 Go de VRAM en BF16, ~28 Go en INT8, exécutable à partir de ~18 Go quantifié

La plupart de ces chiffres proviennent de la couverture du lancement par MarkTechPost et du guide de déploiement de Spheron, le détail sur les blocs parallèles venant de l'article de Digg. L'étiquette « 26B A4B » est l'abréviation de Google : un modèle Mixture-of-Experts de classe 26B qui n'active qu'environ 3,8 Md de paramètres à chaque étape donnée, ce qui explique en partie pourquoi il est peu coûteux à exécuter rapidement.

La raison pour laquelle c'est important, ce ne sont pas les scores des benchmarks. C'est qu'un laboratoire de pointe a livré un véritable modèle de langage à diffusion, téléchargeable. Pendant des années, la diffusion a été la méthode dominante pour les images et la vidéo (pensez à Midjourney, Sora) tandis que le texte est resté obstinément autorégressif, la même famille qui anime des assistants du quotidien comme ChatGPT et Claude. DiffusionGemma est l'un des signaux les plus clairs à ce jour que le côté texte rattrape son retard.

Comment DiffusionGemma fonctionne réellement

Les grands modèles de langage standard sont autorégressifs. Comme le formule Inception Labs, ils « génèrent du texte de gauche à droite, un jeton à la fois, où un jeton ne peut pas être généré tant que tout le texte qui le précède n'a pas été généré. » Chaque mot attend celui d'avant, donc une longue réponse signifie une longue séquence de passes avant à travers des milliards de paramètres. C'est de là que vient la latence.

La diffusion renverse cela. L'approche dominante pour le texte est la diffusion masquée : vous partez d'un bloc de jetons tous masqués, et un transformeur prédit les versions démasquées, puis affine sa supposition sur une poignée de passes. Google le décrit comme générant du texte « de la manière dont fonctionne la diffusion d'images : plutôt que de prédire le texte directement, le modèle apprend à générer des sorties en affinant le bruit étape par étape, de sorte qu'il peut itérer rapidement sur une solution et corriger les erreurs pendant la génération. »

Comparaison côte à côte de la génération autorégressive remplissant les jetons un à la fois face à la diffusion affinant un bloc entier de jetons masqués en parallèle

Une précision, parce que le nom fait trébucher les gens. La diffusion ne remplace pas ici le transformeur ; elle remplace l'autorégression. Comme l'a expliqué un commentaire très cité de Hacker News de l'utilisateur synapsomorphy :

« La diffusion n'est pas à la place des transformeurs, elle est à la place de l'autorégression. Les précédents LLM de diffusion comme Mercury utilisent toujours un transformeur, mais il n'y a pas de masquage causal, donc l'ensemble de l'entrée est traité d'un coup et la génération de la sortie est évidemment différente. »

Hacker News, à propos de Gemini Diffusion

Les avantages pratiques de la génération en parallèle sont au nombre de trois : la vitesse brute, la capacité à corriger les erreurs en cours de génération et le remplissage naturel (parce que le modèle peut voir le contexte des deux côtés d'un trou, il excelle à éditer le milieu d'une séquence, pas seulement à ajouter à la fin). Andrej Karpathy a signalé la nouveauté tôt, notant que la diffusion « ne va pas de gauche à droite, mais tout d'un coup. Vous partez du bruit et le débruitez progressivement en un flux de jetons. »

DiffusionGemma vs Gemini Diffusion : ne les confondez pas

Celui-ci piège presque tout le monde, parce que Google a livré deux choses de diffusion de texte en environ un an et leur a donné des noms quasi identiques.

Gemini Diffusion a été présenté à la Google I/O en mai 2025 comme un modèle expérimental, accessible uniquement sur liste d'attente, fonctionnant sur l'infrastructure de Google. Vous ne pouvez pas le télécharger. DiffusionGemma, en revanche, est celui à poids ouverts que vous pouvez récupérer et exécuter vous-même.

Deux cartes clarifiant Gemini Diffusion comme fermé et sur liste d'attente uniquement face à DiffusionGemma comme à poids ouverts, Apache 2.0 et auto-hébergeable

Le fait que Google ait livré à la fois un modèle fermé expérimental et une version à poids ouverts est en soi l'histoire : c'est le signal le plus fort que les modèles de langage à diffusion ont dépassé le stade de la curiosité de recherche. Quand un laboratoire de pointe ouvre le code d'une architecture, il parie que d'autres construiront dessus.

Les chiffres de vitesse (et pourquoi ils sont à peu près réels)

La vitesse est tout l'argumentaire, alors regardons les chiffres honnêtement. Les >1 000 jetons/s de DiffusionGemma se situent aux côtés de ses cousins de diffusion, et l'écart avec les modèles autorégressifs est important :

Diagramme à barres comparant la vitesse de génération en jetons par seconde, montrant les modèles de diffusion autour de 1 000-1 500 jetons/s face aux modèles autorégressifs à 60-200 jetons/s

Quelques réserves gardent cela les pieds sur terre. Presque tous les chiffres sont mesurés sur un NVIDIA H100, et la plupart sont des affirmations de fournisseurs. Le seul étalon indépendant dans ce domaine, Artificial Analysis, a corroboré la vitesse des modèles Mercury d'Inception mais pas encore leur qualité. Pour DiffusionGemma précisément, les chiffres de >1 000 jetons/s et jusqu'à 4x proviennent de Google et d'articles de partenaires comme Yellow.com, pas encore de benchmarks tiers.

À titre de comparaison, les modèles autorégressifs que les gens utilisent réellement en production se situent bien plus bas en débit : selon les propres benchmarks d'Inception, GPT-4o Mini tourne autour de 59 jetons/s et Claude 3.5 Haiku autour de 61, Gemini 2.0 Flash-Lite optimisé pour la vitesse étant à environ 201. Donc le cadrage « environ 10x plus rapide » pour la diffusion tient, au moins sur le papier.

Là où il brille, et là où il ne brille pas

La lecture honnête est que la diffusion est réellement plus rapide sur le travail limité par le débit et parallélisable, mais que l'autorégression l'emporte encore pour beaucoup de ce dont les applications de production ont réellement besoin. La meilleure source unique ici est l'analyse de l'ingénieur Sean Goedecke sur les limites de la diffusion, et elle se transpose proprement en une décision.

Optez pour la diffusion quand la tâche est à fort volume et parallélisable : résumé en masse, classification, reformatage, traduction, ou boucles d'agent à faible latence où une réponse rapide par étape se cumule. La génération de code est particulièrement bien adaptée car la nature de remplissage de la diffusion correspond à la façon dont vous éditez du code, en générant le début et la fin d'un bloc dans la même passe.

Restez sur l'autorégression quand vous avez besoin de sorties courtes (la diffusion exécute toutes ses passes de débruitage quoi qu'il arrive, donc elle fait du travail supplémentaire pour produire une réponse de six jetons), de longues fenêtres de contexte (la diffusion ne peut pas réutiliser le cache clé-valeur aussi facilement, donc elle recalcule l'attention sur tout le contexte à chaque passe), ou d'un raisonnement en chaîne de pensée difficile. Sur ce dernier point, Goedecke avance l'argument le plus tranchant :

« Une raison d'être globalement sceptique quant au potentiel des modèles de diffusion à raisonner est précisément qu'ils font beaucoup moins de travail par jeton que les modèles autorégressifs. C'est tout simplement moins d'espace pour que le modèle "réfléchisse". »

Sean Goedecke, "Strengths and limitations of diffusion language models"

DiffusionGemma lui-même confirme le compromis : il reste en dessous du Gemma 4 standard sur chaque benchmark publié. Un ingénieur écrivant sur les stacks d'agents de production a formulé de manière mémorable le reproche historique fait à la diffusion, à savoir que les premiers modèles « étaient rapides à la manière dont une horloge cassée est rapide, peu importe la vitesse à laquelle vous obtenez la mauvaise réponse » (dev.to). L'écart de qualité se resserre à petite et moyenne échelle, mais il reste visible à la pointe.

Le mouvement pragmatique auquel la plupart des équipes aboutiront n'est pas le remplacement, mais le routage : envoyez les étapes simples et à haute fréquence (recherches, mise en forme, classification) à un modèle de diffusion rapide et réservez un modèle autorégressif de pointe pour le raisonnement approfondi. C'est la même logique que choisir le bon outil pour une tâche plutôt qu'un seul helpdesk IA faisant tout.

Ce que DiffusionGemma signifie pour les équipes de support client

La diffusion semble parfaite pour le support. Le chat en direct et les agents de support IA sont exactement le cas à faible latence, orienté utilisateur, où l'écart entre une réponse d'une seconde et une réponse de plusieurs secondes décide si l'outil semble en temps réel ou comme « un service qu'on attend ». Pour les copilotes orientés client, une réponse en moins d'une seconde peut vraiment faire la différence entre l'adoption et l'abandon.

Mais voici ce que nous contesterions : pour une équipe de support, l'architecture du modèle compte bien moins que l'orchestration qui l'entoure. Deux réserves s'appliquent directement à ce cas d'usage.

D'abord, les vraies réponses de support s'appuient sur un long contexte et la récupération, et le long contexte est précisément le point faible de la diffusion. Une bonne réponse n'est pas une génération à partir de zéro ; c'est une réponse fondée sur votre base de connaissances, votre historique de tickets et vos documents de politique. La récupération et l'ancrage comptent davantage pour la qualité de la réponse que de savoir si les jetons finaux sont sortis de gauche à droite ou en parallèle, ce qui est au cœur de la question RAG vs LLM.

Ensuite, la qualité et la fiabilité l'emportent sur la vitesse brute pour tout ce qui est orienté client. Un modèle plus rapide branché sur des connaissances obsolètes ou de faibles règles d'escalade ne fait que produire de mauvaises réponses plus vite. C'est le problème de l'horloge cassée, appliqué au support.

Tableau de bord du helpdesk IA d'eesel montrant les tickets et sources de connaissances connectés, tiré d'eesel

Donc, si vous êtes un responsable du support qui lit au sujet de DiffusionGemma et qui se demande s'il vous le faut : probablement pas directement. Ce que vous voulez, c'est une plateforme qui réussit l'ancrage, les garde-fous et les intégrations de helpdesk, et qui bénéficie ensuite discrètement de quel que soit le modèle le plus rapide et le meilleur sous le capot. La latence est un levier parmi d'autres, et c'est rarement celui qui freine votre taux de résolution. La plus grande question est généralement le coût par ticket par rapport à un humain qui le traite.

Essayez eesel

eesel AI vend des coéquipiers IA qui vivent à l'intérieur de votre helpdesk existant (Zendesk, Freshdesk, HubSpot, Gorgias, Front) et gèrent le support de niveau 1 en apprenant de vos tickets passés et de vos documents d'aide dès le premier jour. La raison pour laquelle c'est pertinent ici : eesel est délibérément agnostique vis-à-vis du modèle, donc le débat d'architecture ci-dessus est un débat que vous n'avez pas à gagner. Ce qu'il réussit, c'est l'orchestration qui fait réellement bouger les chiffres, comme le routage basé sur la confiance qui rédige au lieu d'envoyer lorsqu'il n'est pas sûr, et un mode de simulation qui s'exécute sur vos tickets passés pour que vous puissiez voir la couverture avant de passer en production. Gridwise a vu 73 % des demandes de niveau 1 résolues dès le premier mois, et la tarification est à l'usage à partir de 0,40 $ par ticket résolu sans frais par siège, donc vous payez pour des résultats plutôt que pour des heures de GPU.

Foire aux questions

Qu'est-ce que DiffusionGemma en termes simples ?

DiffusionGemma est un modèle de langage IA à poids ouverts de Google DeepMind qui écrit du texte par diffusion au lieu de la méthode habituelle de gauche à droite. Plutôt que de prédire un mot à la fois, il part d'un bloc de jetons masqués et affine le bloc entier en parallèle sur quelques passes, ce qui rend la génération jusqu'à 4x plus rapide. Il fait partie de la famille ouverte Gemma et est publié sous une licence Apache 2.0.

DiffusionGemma est-il identique à Gemini Diffusion ?

Non. Gemini Diffusion est une expérience fermée, accessible uniquement sur liste d'attente, qui fonctionne sur l'infrastructure propre de Google, tandis que DiffusionGemma est un modèle à poids ouverts que vous pouvez télécharger et héberger vous-même. Les deux utilisent la diffusion de texte, mais ce sont des versions différentes et faciles à confondre. Si vous comparez les options d'IA de Google, notre guide des tarifs de Gemini couvre les modèles de production.

À quelle vitesse DiffusionGemma fonctionne-t-il par rapport à un LLM normal ?

Google annonce plus de 1 000 jetons par seconde sur un seul GPU H100, jusqu'à 4x plus rapide qu'un modèle autorégressif comparable. Pour situer, les modèles autorégressifs optimisés pour la vitesse comme Gemini 2.0 Flash-Lite tournent autour de 200 jetons par seconde. La vitesse est tout l'intérêt de la diffusion, ce qui compte pour les tâches sensibles à la latence comme une réponse de chat en temps réel.

Puis-je utiliser DiffusionGemma pour le support client ?

Vous le pouvez, mais l'architecture du modèle est la plus petite moitié du problème. Une bonne réponse de support dépend bien plus de ce sur quoi l'IA est fondée (vos documents d'aide, tickets passés, politiques) et des garde-fous qui l'entourent que de la vitesse brute. Une plateforme comme l'agent de support IA d'eesel gère cette orchestration quel que soit le modèle situé en dessous.

Combien coûte l'exécution de DiffusionGemma ?

Les poids sont gratuits sous Apache 2.0, mais vous payez le GPU pour les servir. Il faut environ 52 Go de VRAM en précision complète, descendant à environ 28 Go avec une quantification INT8, donc une carte de classe H100 est recommandée. Si vous préférez ne pas gérer d'infrastructure, des outils à l'usage comme eesel AI facturent par ticket résolu plutôt que par heure de GPU.

Recrutez votre collègue IA

Configuration en quelques minutes. Pas de carte bancaire requise.

Essayer gratuitement Réserver une démo

Share this article

Article by

Alicia Kirana Utomo

Kira is a writer at eesel AI with a Computer Science background and over a year of hands-on experience evaluating AI-powered customer service tools. She focuses on breaking down how helpdesk platforms and AI agents actually work so that support teams can make better buying decisions.