Qu'est-ce que Gemma 4 ? La famille de modèles d'IA ouverts de Google, expliquée

Alicia Kirana Utomo
Écrit par

Alicia Kirana Utomo

Katelin Teen
Relu par

Katelin Teen

Dernière modification June 19, 2026

Vérifié par un expert
Illustration de Google Gemma 4, la famille de modèles d'IA à poids ouverts, fonctionnant sur un ordinateur portable et un serveur local

Qu'est-ce que Gemma 4 exactement ?

Je construis les agents IA chez eesel, et j'ai passé ces dernières années à observer comment les modèles ouverts sont passés de « amusants à tester » à « assez bons pour être mis devant un client payant ». Nous faisons tourner des agents sur des files de support en direct tous les jours ; un client, Smava, traite plus de 100 000 tickets en allemand par mois via un agent automatisé. Donc à chaque fois que Google sort un nouveau modèle ouvert, je le lis avec une seule question : pourrait-on vraiment lui faire confiance pour répondre à un client sans surveillance humaine ?

Gemma 4 est la réponse la plus intéressante à cette question que j'aie vue de la part d'un modèle ouvert.

En termes simples, Gemma est la gamme de modèles ouverts de Google DeepMind — les cousins plus petits et téléchargeables des modèles Gemini fermés. Gemma 4 est « construit à partir de la même recherche et technologie de pointe que Gemini 3 pour maximiser l'intelligence par paramètre », selon le post de lancement de Google. Le mot clé est open-weight : Google publie les fichiers du modèle, vous pouvez donc les faire tourner sur votre propre ordinateur portable, serveur ou téléphone sans qu'aucun appel API ne sorte de votre réseau.

Il est aussi multimodal. Chaque modèle gère les entrées texte et image, les plus petits ajoutent l'audio natif, et la fiche modèle indique un cutoff d'entraînement en janvier 2025 avec support de plus de 140 langues. Si vous avez lu notre article sur RAG versus LLMs, Gemma 4 est la moitié « LLM » de cette image — le moteur de raisonnement que vous pointeriez vers vos propres connaissances.

Les cinq tailles, et laquelle vous convient

Gemma 4 n'est pas un modèle, ce sont cinq, triés selon l'endroit où ils sont censés tourner. C'est la partie qui vaut la peine d'être comprise avant tout le reste, car choisir la mauvaise taille est l'erreur la plus courante que je vois commettre.

Les cinq tailles de Gemma 4 mappées au matériel sur lequel chacune fonctionne, des téléphones à un serveur à GPU unique
Les cinq tailles de Gemma 4 mappées au matériel sur lequel chacune fonctionne, des téléphones à un serveur à GPU unique

Voici la gamme complète, avec les spécifications tirées directement de la fiche modèle :

ModèleParamètres effectifsContexteModalitésFonctionne sur
E2B2,3B (5,1B avec embeddings)128KTexte, image, audioTéléphones, Raspberry Pi, edge
E4B4,5B (8B avec embeddings)128KTexte, image, audioTéléphones haut de gamme, IoT
12B Unified11,95B256KTexte, image, audioOrdinateurs portables (~16 Go)
26B A4B (MoE)25,2B total, 3,8B actifs256KTexte, imageStation de travail, faible latence
31B Dense30,7B256KTexte, imageUn H100 de 80 Go, qualité maximale

Le « E » dans E2B et E4B signifie paramètres effectifs. Ces modèles utilisent une astuce appelée Per-Layer Embeddings pour maintenir leur empreinte mémoire réduite, ce qui permet à un téléphone de les faire tourner hors ligne avec une latence quasi nulle. Google les a construits avec l'équipe Pixel ainsi que Qualcomm et MediaTek, donc ils sont optimisés pour du vrai silicium mobile, pas juste une démo.

Le 12B Unified est le petit nouveau, ajouté le 3 juin 2026. C'est l'option « prête pour laptop » et le premier modèle de taille moyenne de Google avec entrée audio native. Le 31B Dense est le vaisseau amiral de la qualité brute et la base depuis laquelle tout le monde fait du fine-tuning.

Celui du milieu, le 26B, est le plus ingénieux du groupe. Il mérite sa propre section.

Comment un modèle de 26B rivalise avec des modèles 20 fois plus grands

Le 26B est un modèle Mixture-of-Experts (MoE), et le comprendre est la meilleure façon de saisir pourquoi Gemma 4 est important.

Un modèle « dense » classique active tous les paramètres pour chaque token qu'il traite. Un modèle MoE divise ses paramètres en de nombreux petits « experts » et, pour chaque token, n'active que la poignée dont il a vraiment besoin. Voici sa structure :

Comment un modèle Mixture-of-Experts achemine chaque token vers quelques experts, maintenant les paramètres actifs à un niveau bas
Comment un modèle Mixture-of-Experts achemine chaque token vers quelques experts, maintenant les paramètres actifs à un niveau bas

Le 26B de Gemma 4 a 25,2B de paramètres totaux mais seulement 3,8B actifs par token, en passant par 8 de ses 128 experts plus un expert partagé. Le résultat pratique : il tourne environ aussi vite qu'un modèle dense de 4B tout en répondant avec une qualité plus proche du 31B. (Une mise en garde à garder en tête : les 25,2B paramètres doivent toujours être chargés en mémoire pour le routage, donc MoE vous économise du calcul, pas de la RAM.)

Pourquoi est-ce important ? Parce que cela brise l'ancienne hypothèse selon laquelle « plus intelligent » signifie « plus grand et plus lent ». Regardez où les modèles Gemma 4 de taille moyenne se positionnent dans le propre graphique de Google sur les performances versus la taille :

Les 31B et 26B de Gemma 4 à la frontière performance-vs-taille, devant des modèles bien plus grands, comme présenté dans l'annonce de Google
Les 31B et 26B de Gemma 4 à la frontière performance-vs-taille, devant des modèles bien plus grands, comme présenté dans l'annonce de Google
Performance de modèle ouvert vs taille sur l'arène de chat d'Arena.ai, publiée par Google DeepMind.

Le 31B est le 3e modèle ouvert du classement texte d'Arena AI, et le 26B MoE prend la 6e place, ce qui permet à Google d'affirmer que Gemma 4 « surpasse des modèles 20 fois plus grands ». Pour une équipe de support, la leçon n'est pas le rang dans le classement, c'est que cette qualité tient sur du matériel que vous possédez.

Ce que « poids ouverts » signifie vraiment (et pourquoi la licence a changé)

On utilise « ouvert » de façon imprécise, donc soyons précis, car c'est là que Gemma 4 a fait son plus grand pas.

Les modèles Gemma précédents étaient distribués sous des « Conditions d'utilisation Gemma » personnalisées. Gemma 4 est passé à une licence standard Apache 2.0. Dans les termes de Google, elle est « commercialement permissive » et accorde « un contrôle total sur vos données, votre infrastructure et vos modèles ». Le PDG de Hugging Face, Clément Delangue, a qualifié ce changement de « grande étape ».

Voici la différence que cette licence fait en pratique :

Modèle d'API fermé envoyant les données clients aux serveurs du fournisseur versus modèle à poids ouverts les maintenant dans votre propre infrastructure
Modèle d'API fermé envoyant les données clients aux serveurs du fournisseur versus modèle à poids ouverts les maintenant dans votre propre infrastructure

Avec un modèle d'API fermé, chaque message client que vous traitez est envoyé aux serveurs du fournisseur. Avec un modèle à poids ouverts sous Apache 2.0, vous pouvez tout faire tourner dans votre propre infrastructure — sur site ou dans votre propre cloud — et les données ne sortent jamais. Pour toute personne dans un secteur réglementé, ce contrôle de résidence des données est la seule raison de s'intéresser aux modèles ouverts. C'est la même raison pour laquelle les gens se tournent vers les systèmes de ticketing open source et les plateformes de chatbot open source.

Pour le passage à l'échelle, Google propose Gemma 4 sur Vertex AI, Cloud Run et GKE, et il fonctionne dès le premier jour avec les outils que les self-hosters utilisent déjà, comme Ollama, llama.cpp, vLLM et LM Studio.

Les benchmarks, et où Gemma 4 brille vraiment

Place aux chiffres. Google publie un tableau de benchmarks complet comparant les modèles Gemma 4 instruction-tuned face au Gemma 3 27B de la génération précédente :

Tableau de benchmarks Gemma 4 sur MMMLU, AIME, GPQA, LiveCodeBench et utilisation d'outils agentiques, versus Gemma 3 27B
Tableau de benchmarks Gemma 4 sur MMMLU, AIME, GPQA, LiveCodeBench et utilisation d'outils agentiques, versus Gemma 3 27B
Résultats de benchmarks instruction-tuned, publiés dans les documents Gemma 4 de Google.

La ligne que je soulignerais est l'utilisation agentique d'outils. Sur le benchmark τ2-bench retail, qui teste si un modèle peut réellement appeler des outils pour accomplir une tâche, le modèle 31B obtient 86,4% contre 6,6% pour Gemma 3. Ce n'est pas une amélioration incrémentale, c'est un saut générationnel, et c'est la capacité qui transforme un chatbot en quelque chose qui peut réellement accomplir du travail.

Il tient aussi face aux géants fermés. Sur Arena Elo, le 31B avec 1452 se retrouve juste derrière des modèles avec 15 à 35 fois plus de paramètres :

Graphique en barres Arena Elo : Gemma 4 31B à 1452 aux côtés de modèles bien plus grands comme Glm 5, Kimi k2.5 et Qwen 3.5
Graphique en barres Arena Elo : Gemma 4 31B à 1452 aux côtés de modèles bien plus grands comme Glm 5, Kimi k2.5 et Qwen 3.5
Scores Arena Elo par rapport aux nombres de paramètres, via Hugging Face.

Sur le plan architectural, la note intéressante tirée de la lecture de Sebastian Raschka est que Gemma 4 est « pratiquement inchangé » par rapport à Gemma 3 sous le capot, donc le saut est « probablement dû au jeu de données d'entraînement et à la recette ». En d'autres termes, Google a obtenu ce saut grâce à de meilleures données, pas à une nouvelle architecture — ce qui est une performance discrètement impressionnante.

Comment c'est en pratique

Les benchmarks c'est une chose. Que disent vraiment les personnes qui font tourner Gemma 4 tous les jours ? J'ai cherché dans les communautés de modèles locaux, parce que c'est là que vivent les avis sans filtre.

Les éloges sont cohérents : c'est rapide, léger en mémoire et ça ne s'épanche pas.

« Rapide comme l'éclair sur un M4Max, et incroyablement intelligent pour sa vitesse. Ne détruit pas votre charge mémoire. Ne raisonne pas pendant des heures (et ne bouffe pas tout le budget de tokens) comme Qwen... C'est parfait pour openclaw, hermes, claude code etc. J'ADORE ce modèle en local. C'est mon modèle par défaut maintenant. » — u/styles01 sur r/LocalLLaMA

Le point « ne raisonne pas pendant des heures » revient sans cesse. Un self-hoster qui fait tourner les 26B et 31B pour un cas d'usage multimodal a donné de vrais chiffres, rapportant environ 149 tokens/sec sur le 31B et 88 sur le 26B, et ajoutant que « les benchmarks ne capturent vraiment pas à quel point il délire moins que les plus grands ».

Mais voici la vraie limitation, et c'est la raison pour laquelle je ne mettrais pas Gemma 4 brut sur une file live sans supervision :

« Je suis d'accord, c'est bien meilleur dans tout sauf le coding. [...] Cependant il souffre beaucoup quand les poids ou le cache kv sont dans une autre quantisation que la native. » — u/fragment_me sur r/LocalLLM

Donc la lecture communautaire se résume à ceci : Gemma 4 est un excellent modèle de chat et de suivi d'instructions qui performe bien au-dessus de son poids, avec deux mises en garde — le coding et les workflows agentiques sont ses points faibles, et il se dégrade notablement si on le fait tourner avec une quantisation différente de la native. Bon à savoir avant de le choisir pour une tâche.

Ce que cela signifie pour le support client

Voici où ça devient pratique pour quiconque gère une équipe de support. Un modèle ouvert comme Gemma 4 est un ingrédient fantastique. Il n'est pas, à lui seul, un agent de support.

Un modèle brut n'a aucune idée de votre politique de remboursement, ne peut pas voir vos tickets passés, et n'est pas connecté à votre helpdesk. Le mettre devant les clients sans supervision produit exactement le mode d'échec contre lequel on travaille depuis des années : un bot qui parle avec assurance mais donne silencieusement la mauvaise réponse. Le modèle est le moteur ; le vrai produit c'est tout ce qui l'entoure — la connaissance, le routage sécurisé, la connexion à vos outils, et la capacité de le tester avant de le mettre en production.

C'est ce vide qui justifie l'existence de plateformes comme la nôtre. Le mouvement open-weight vous donne le contrôle sur la couche modèle, mais la plupart des équipes de support ne veulent pas non plus devenir une équipe ML ops. La meilleure réponse pour la plupart des gens est d'obtenir les bénéfices du contrôle des données et de l'apprentissage sans rouler l'infrastructure à la main — c'est la ligne que je tracerais entre un modèle et une plateforme de service client IA.

Essayez eesel pour le support IA

Si la lecture sur Gemma 4 vous a fait penser « je veux que l'IA réponde à mes tickets, mais à mes conditions », c'est exactement le problème pour lequel eesel a été conçu.

L'agent helpdesk IA d'eesel se connecte aux outils que vous utilisez déjà — Zendesk, Freshdesk, Gorgias, Slack et plus de 100 autres — et apprend de vos tickets et docs d'aide dès le premier jour, pour que des années d'historique deviennent immédiatement de la connaissance. La partie qui répond directement à la question « pourrait-on lui faire confiance ? » avec laquelle j'ai ouvert : vous pouvez simuler l'agent sur des milliers de vos tickets historiques pour voir exactement comment il aurait répondu, avant qu'un seul client ne le voie. C'est ainsi que Gridwise a résolu 73 % des demandes de niveau 1 dès son premier mois.

Tableau de bord helpdesk IA d'eesel montrant les outils de support connectés et l'activité des tickets
Tableau de bord helpdesk IA d'eesel montrant les outils de support connectés et l'activité des tickets

C'est basé sur l'usage, à partir de 0,40 $ par ticket sans frais par siège, et vous pouvez démarrer avec 50 $ d'utilisation gratuite sans carte de crédit. Que le modèle sous le capot soit Gemma 4 ou autre chose, ce que vous voulez vraiment c'est un agent auquel vous pouvez faire confiance sur votre file. Essayez eesel et voyez comment il gère la vôtre.

Questions Fréquentes

Qu'est-ce que Gemma 4 ?
Gemma 4 est la famille de modèles d'IA à poids ouverts de Google DeepMind, lancée le 2 avril 2026. Contrairement à un modèle uniquement accessible via API, vous téléchargez les poids réels et les exécutez sur votre propre matériel, d'un téléphone à un serveur avec un seul GPU. Il est disponible en cinq tailles et est conçu pour le raisonnement et les workflows agentiques.
Gemma 4 est-il gratuit ?
Les poids sont gratuits à télécharger et la licence est Apache 2.0, commercialement permissive, donc pas de frais de licence par token. Votre seul coût est l'infrastructure sur laquelle vous le faites tourner. C'est un changement majeur par rapport à la tarification de la plupart des LLMs.
Quelles sont les tailles de modèles Gemma 4 ?
Il y en a cinq : E2B et E4B pour les téléphones et appareils edge, un modèle Unified 12B pour les ordinateurs portables, un modèle Mixture-of-Experts 26B optimisé pour la faible latence, et un modèle Dense 31B phare. La fiche modèle liste les spécifications complètes de chacun.
Gemma 4 peut-il fonctionner sur un ordinateur portable ou un téléphone ?
Oui. Les modèles E2B et E4B fonctionnent entièrement hors ligne sur des téléphones et des appareils comme le Raspberry Pi, et le modèle Unified 12B est conçu pour tenir sur un ordinateur portable avec 16 Go de mémoire. Les utilisateurs de r/LocalLLaMA rapportent que le 26B tourne rapidement sur un Mac de 64 Go.
Gemma 4 est-il bon pour le support client ?
Un modèle ouvert fournit une base solide, mais un agent de support en production a besoin de plus que des poids bruts : il doit apprendre de vos tickets, router en toute sécurité et se connecter à votre helpdesk. Une plateforme comme l'agent helpdesk IA d'eesel gère cette couche pour vous permettre d'avoir le contrôle du self-hosting sans construire la plomberie. Découvrez comment les équipes réduisent leurs coûts de support avec l'IA.

Share this article

Alicia Kirana Utomo

Article by

Alicia Kirana Utomo

Kira is a writer at eesel AI with a Computer Science background and over a year of hands-on experience evaluating AI-powered customer service tools. She focuses on breaking down how helpdesk platforms and AI agents actually work so that support teams can make better buying decisions.

Related Posts

All posts →
Illustration d'un assistant IA de support gérant des conversations B2B SaaS entre deux clients
AI

Support IA pour le B2B SaaS : ce qui fonctionne vraiment en 2026

Les tickets B2B SaaS sont techniques, spécifiques à un compte et à forts enjeux. Voici comment le support IA fonctionne réellement pour eux, ce qui échoue et comment le déployer en toute sécurité.

Riellvriany IndriawanRiellvriany IndriawanJun 19, 2026
Illustration editoriale de Claude Opus 4.8 pour usage professionnel
AI

Claude Opus 4.8 pour les entreprises : ce qui change et ce qui ne change pas

Claude Opus 4.8 est le modele phare d'Anthropic. Une lecture pratique du point de vue de l'operateur : ce que cela signifie pour votre entreprise, ce que ca coute et ses limites.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Illustration de jetons de texte brouillés se résolvant en un texte propre et lisible, représentant le débruitage parallèle de DiffusionGemma
AI

Qu'est-ce que DiffusionGemma ? Le LLM de diffusion à poids ouverts de Google, expliqué

DiffusionGemma est le modèle de diffusion de texte à poids ouverts de Google : un Mixture-of-Experts de 26B qui écrit des blocs entiers de texte en parallèle pour une génération jusqu'à 4x plus rapide.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Illustration de bruit dispersé et de blocs masqués se résolvant en lignes de texte nettes, avec un chronomètre signalant la vitesse
AI

Les modèles d'IA basés sur la diffusion expliqués : comment ils fonctionnent et pourquoi ils sont soudain si rapides

Un guide accessible des modèles d'IA basés sur la diffusion : en quoi ils diffèrent des LLM autorégressifs, pourquoi ils génèrent du texte 10 fois plus vite, et ce que cela signifie pour les entreprises.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Une mallette ouverte déversant des documents, des feuilles de calcul, des e-mails et des messages de chat pendant qu'une figure IA les note sur une fiche d'évaluation
AI

Qu'est-ce qu'AA-Briefcase ? Le benchmark IA pour le travail de connaissance réel, expliqué

AA-Briefcase est le nouveau benchmark d'Artificial Analysis qui teste l'IA sur de vrais projets de bureau s'étalant sur plusieurs semaines. Voici ce qu'il mesure, qui est en tête, et ce que cela signifie pour l'IA au travail.

Alicia Kirana UtomoAlicia Kirana UtomoJun 22, 2026
Bannière illustrée pour un article explicatif sur l'accès gratuit à OpenAI Codex, avec des motifs de terminal et d'éditeur de code
AI

Accès gratuit à OpenAI Codex, expliqué : ce que vous obtenez vraiment pour $0

OpenAI Codex est-il gratuit ? Oui, si vous vous connectez avec un compte ChatGPT Free. Voici exactement ce que le niveau gratuit vous offre, où se situe la limite et quelles sont les restrictions.

Alicia Kirana UtomoAlicia Kirana UtomoJun 18, 2026
Illustration éditoriale de Claude Opus 4.8, le modèle IA phare d'Anthropic
AI

Qu'est-ce que Claude Opus 4.8 ? Un regard lucide sur le modèle phare d'Anthropic

Claude Opus 4.8 est le dernier modèle phare d'Anthropic. Voici ce qui a changé, ce qu'il coûte et ce qu'un modèle plus intelligent signifie pour le support client IA.

Riellvriany IndriawanRiellvriany IndriawanJun 17, 2026
Illustration de Claude Fable 5 travaillant comme un coéquipier autonome de longue durée pour une équipe d'entreprise
AI

Claude Fable 5 pour les entreprises : ce que le modèle le plus puissant d'Anthropic signifie vraiment pour votre équipe

Un regard lucide sur Claude Fable 5 pour les entreprises : ce qu'il coûte, là où il brille, là où il coince, et comment le mettre vraiment au travail dans le support client.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Illustration d'une session de codage publiant un artifact tableau de bord vers un lien partageable
AI

Que sont les Claude Code artifacts ? Un guide clair pour 2026

Les Claude Code artifacts transforment une session de codage en page web interactive et partageable. Voici ce qu'ils sont, comment ils fonctionnent et en quoi ils diffèrent des chat artifacts.

Alicia Kirana UtomoAlicia Kirana UtomoJun 21, 2026

Prêt à recruter votre collègue IA ?

Configuration en quelques minutes. Pas de carte bancaire requise.

Commencer gratuitement