Blog / AI

Qu'est-ce que Gemma 4 ? La famille de modèles d'IA ouverts de Google, expliquée

Écrit par

Alicia Kirana Utomo

Relu par

Katelin Teen

Dernière modification June 19, 2026

Vérifié par un expert

Illustration de Google Gemma 4, la famille de modèles d'IA à poids ouverts, fonctionnant sur un ordinateur portable et un serveur local

TL;DR

Gemma 4 est la famille de modèles à poids ouverts de Google DeepMind, lancée le 2 avril 2026. Vous téléchargez les poids et les exécutez vous-même, d'un téléphone à une station de travail avec un seul GPU, au lieu d'appeler l'API de quelqu'un d'autre. Elle est disponible en cinq tailles et, pour la première fois dans l'histoire de Gemma, sous une licence Apache 2.0 entièrement permissive pour un usage commercial.

Le point clé que la plupart des articles manquent : le modèle 31B obtient un score Arena Elo à quelques points seulement de modèles fermés 20 à 30 fois plus grands, ce qui signifie qu'une vraie intelligence peut désormais vivre sur du matériel que vous contrôlez. Cela compte surtout quand vos données sont sensibles, ce qui est exactement le cas dans le support client.

La mise en garde honnête : les utilisateurs réels l'apprécient pour le chat et le suivi d'instructions, mais le jugent moins performant en coding et pour l'utilisation agentique d'outils, et il devient instable hors de sa quantisation native. C'est donc un excellent modèle de base, pas un agent de support clé en main. Si vous voulez l'avantage du contrôle des données sans construire toute la stack vous-même, c'est le vide qu'une plateforme comme eesel comble.

Qu'est-ce que Gemma 4 exactement ?

Je construis les agents IA chez eesel, et j'ai passé ces dernières années à observer comment les modèles ouverts sont passés de « amusants à tester » à « assez bons pour être mis devant un client payant ». Nous faisons tourner des agents sur des files de support en direct tous les jours ; un client, Smava, traite plus de 100 000 tickets en allemand par mois via un agent automatisé. Donc à chaque fois que Google sort un nouveau modèle ouvert, je le lis avec une seule question : pourrait-on vraiment lui faire confiance pour répondre à un client sans surveillance humaine ?

Gemma 4 est la réponse la plus intéressante à cette question que j'aie vue de la part d'un modèle ouvert.

En termes simples, Gemma est la gamme de modèles ouverts de Google DeepMind — les cousins plus petits et téléchargeables des modèles Gemini fermés. Gemma 4 est « construit à partir de la même recherche et technologie de pointe que Gemini 3 pour maximiser l'intelligence par paramètre », selon le post de lancement de Google. Le mot clé est open-weight : Google publie les fichiers du modèle, vous pouvez donc les faire tourner sur votre propre ordinateur portable, serveur ou téléphone sans qu'aucun appel API ne sorte de votre réseau.

Il est aussi multimodal. Chaque modèle gère les entrées texte et image, les plus petits ajoutent l'audio natif, et la fiche modèle indique un cutoff d'entraînement en janvier 2025 avec support de plus de 140 langues. Si vous avez lu notre article sur RAG versus LLMs, Gemma 4 est la moitié « LLM » de cette image — le moteur de raisonnement que vous pointeriez vers vos propres connaissances.

Les cinq tailles, et laquelle vous convient

Gemma 4 n'est pas un modèle, ce sont cinq, triés selon l'endroit où ils sont censés tourner. C'est la partie qui vaut la peine d'être comprise avant tout le reste, car choisir la mauvaise taille est l'erreur la plus courante que je vois commettre.

Les cinq tailles de Gemma 4 mappées au matériel sur lequel chacune fonctionne, des téléphones à un serveur à GPU unique

Voici la gamme complète, avec les spécifications tirées directement de la fiche modèle :

Modèle	Paramètres effectifs	Contexte	Modalités	Fonctionne sur
E2B	2,3B (5,1B avec embeddings)	128K	Texte, image, audio	Téléphones, Raspberry Pi, edge
E4B	4,5B (8B avec embeddings)	128K	Texte, image, audio	Téléphones haut de gamme, IoT
12B Unified	11,95B	256K	Texte, image, audio	Ordinateurs portables (~16 Go)
26B A4B (MoE)	25,2B total, 3,8B actifs	256K	Texte, image	Station de travail, faible latence
31B Dense	30,7B	256K	Texte, image	Un H100 de 80 Go, qualité maximale

Le « E » dans E2B et E4B signifie paramètres effectifs. Ces modèles utilisent une astuce appelée Per-Layer Embeddings pour maintenir leur empreinte mémoire réduite, ce qui permet à un téléphone de les faire tourner hors ligne avec une latence quasi nulle. Google les a construits avec l'équipe Pixel ainsi que Qualcomm et MediaTek, donc ils sont optimisés pour du vrai silicium mobile, pas juste une démo.

Le 12B Unified est le petit nouveau, ajouté le 3 juin 2026. C'est l'option « prête pour laptop » et le premier modèle de taille moyenne de Google avec entrée audio native. Le 31B Dense est le vaisseau amiral de la qualité brute et la base depuis laquelle tout le monde fait du fine-tuning.

Celui du milieu, le 26B, est le plus ingénieux du groupe. Il mérite sa propre section.

Comment un modèle de 26B rivalise avec des modèles 20 fois plus grands

Le 26B est un modèle Mixture-of-Experts (MoE), et le comprendre est la meilleure façon de saisir pourquoi Gemma 4 est important.

Un modèle « dense » classique active tous les paramètres pour chaque token qu'il traite. Un modèle MoE divise ses paramètres en de nombreux petits « experts » et, pour chaque token, n'active que la poignée dont il a vraiment besoin. Voici sa structure :

Comment un modèle Mixture-of-Experts achemine chaque token vers quelques experts, maintenant les paramètres actifs à un niveau bas

Le 26B de Gemma 4 a 25,2B de paramètres totaux mais seulement 3,8B actifs par token, en passant par 8 de ses 128 experts plus un expert partagé. Le résultat pratique : il tourne environ aussi vite qu'un modèle dense de 4B tout en répondant avec une qualité plus proche du 31B. (Une mise en garde à garder en tête : les 25,2B paramètres doivent toujours être chargés en mémoire pour le routage, donc MoE vous économise du calcul, pas de la RAM.)

Pourquoi est-ce important ? Parce que cela brise l'ancienne hypothèse selon laquelle « plus intelligent » signifie « plus grand et plus lent ». Regardez où les modèles Gemma 4 de taille moyenne se positionnent dans le propre graphique de Google sur les performances versus la taille :

Les 31B et 26B de Gemma 4 à la frontière performance-vs-taille, devant des modèles bien plus grands, comme présenté dans l'annonce de Google

Performance de modèle ouvert vs taille sur l'arène de chat d'Arena.ai, publiée par Google DeepMind.

Le 31B est le 3e modèle ouvert du classement texte d'Arena AI, et le 26B MoE prend la 6e place, ce qui permet à Google d'affirmer que Gemma 4 « surpasse des modèles 20 fois plus grands ». Pour une équipe de support, la leçon n'est pas le rang dans le classement, c'est que cette qualité tient sur du matériel que vous possédez.

Ce que « poids ouverts » signifie vraiment (et pourquoi la licence a changé)

On utilise « ouvert » de façon imprécise, donc soyons précis, car c'est là que Gemma 4 a fait son plus grand pas.

Les modèles Gemma précédents étaient distribués sous des « Conditions d'utilisation Gemma » personnalisées. Gemma 4 est passé à une licence standard Apache 2.0. Dans les termes de Google, elle est « commercialement permissive » et accorde « un contrôle total sur vos données, votre infrastructure et vos modèles ». Le PDG de Hugging Face, Clément Delangue, a qualifié ce changement de « grande étape ».

Voici la différence que cette licence fait en pratique :

Modèle d'API fermé envoyant les données clients aux serveurs du fournisseur versus modèle à poids ouverts les maintenant dans votre propre infrastructure

Avec un modèle d'API fermé, chaque message client que vous traitez est envoyé aux serveurs du fournisseur. Avec un modèle à poids ouverts sous Apache 2.0, vous pouvez tout faire tourner dans votre propre infrastructure — sur site ou dans votre propre cloud — et les données ne sortent jamais. Pour toute personne dans un secteur réglementé, ce contrôle de résidence des données est la seule raison de s'intéresser aux modèles ouverts. C'est la même raison pour laquelle les gens se tournent vers les systèmes de ticketing open source et les plateformes de chatbot open source.

Pour le passage à l'échelle, Google propose Gemma 4 sur Vertex AI, Cloud Run et GKE, et il fonctionne dès le premier jour avec les outils que les self-hosters utilisent déjà, comme Ollama, llama.cpp, vLLM et LM Studio.

Les benchmarks, et où Gemma 4 brille vraiment

Place aux chiffres. Google publie un tableau de benchmarks complet comparant les modèles Gemma 4 instruction-tuned face au Gemma 3 27B de la génération précédente :

Tableau de benchmarks Gemma 4 sur MMMLU, AIME, GPQA, LiveCodeBench et utilisation d'outils agentiques, versus Gemma 3 27B

Résultats de benchmarks instruction-tuned, publiés dans les documents Gemma 4 de Google.

La ligne que je soulignerais est l'utilisation agentique d'outils. Sur le benchmark τ2-bench retail, qui teste si un modèle peut réellement appeler des outils pour accomplir une tâche, le modèle 31B obtient 86,4% contre 6,6% pour Gemma 3. Ce n'est pas une amélioration incrémentale, c'est un saut générationnel, et c'est la capacité qui transforme un chatbot en quelque chose qui peut réellement accomplir du travail.

Il tient aussi face aux géants fermés. Sur Arena Elo, le 31B avec 1452 se retrouve juste derrière des modèles avec 15 à 35 fois plus de paramètres :

Graphique en barres Arena Elo : Gemma 4 31B à 1452 aux côtés de modèles bien plus grands comme Glm 5, Kimi k2.5 et Qwen 3.5

Scores Arena Elo par rapport aux nombres de paramètres, via Hugging Face.

Sur le plan architectural, la note intéressante tirée de la lecture de Sebastian Raschka est que Gemma 4 est « pratiquement inchangé » par rapport à Gemma 3 sous le capot, donc le saut est « probablement dû au jeu de données d'entraînement et à la recette ». En d'autres termes, Google a obtenu ce saut grâce à de meilleures données, pas à une nouvelle architecture — ce qui est une performance discrètement impressionnante.

Comment c'est en pratique

Les benchmarks c'est une chose. Que disent vraiment les personnes qui font tourner Gemma 4 tous les jours ? J'ai cherché dans les communautés de modèles locaux, parce que c'est là que vivent les avis sans filtre.

Les éloges sont cohérents : c'est rapide, léger en mémoire et ça ne s'épanche pas.

« Rapide comme l'éclair sur un M4Max, et incroyablement intelligent pour sa vitesse. Ne détruit pas votre charge mémoire. Ne raisonne pas pendant des heures (et ne bouffe pas tout le budget de tokens) comme Qwen... C'est parfait pour openclaw, hermes, claude code etc. J'ADORE ce modèle en local. C'est mon modèle par défaut maintenant. » — u/styles01 sur r/LocalLLaMA

Le point « ne raisonne pas pendant des heures » revient sans cesse. Un self-hoster qui fait tourner les 26B et 31B pour un cas d'usage multimodal a donné de vrais chiffres, rapportant environ 149 tokens/sec sur le 31B et 88 sur le 26B, et ajoutant que « les benchmarks ne capturent vraiment pas à quel point il délire moins que les plus grands ».

Mais voici la vraie limitation, et c'est la raison pour laquelle je ne mettrais pas Gemma 4 brut sur une file live sans supervision :

« Je suis d'accord, c'est bien meilleur dans tout sauf le coding. [...] Cependant il souffre beaucoup quand les poids ou le cache kv sont dans une autre quantisation que la native. » — u/fragment_me sur r/LocalLLM

Donc la lecture communautaire se résume à ceci : Gemma 4 est un excellent modèle de chat et de suivi d'instructions qui performe bien au-dessus de son poids, avec deux mises en garde — le coding et les workflows agentiques sont ses points faibles, et il se dégrade notablement si on le fait tourner avec une quantisation différente de la native. Bon à savoir avant de le choisir pour une tâche.

Ce que cela signifie pour le support client

Voici où ça devient pratique pour quiconque gère une équipe de support. Un modèle ouvert comme Gemma 4 est un ingrédient fantastique. Il n'est pas, à lui seul, un agent de support.

Un modèle brut n'a aucune idée de votre politique de remboursement, ne peut pas voir vos tickets passés, et n'est pas connecté à votre helpdesk. Le mettre devant les clients sans supervision produit exactement le mode d'échec contre lequel on travaille depuis des années : un bot qui parle avec assurance mais donne silencieusement la mauvaise réponse. Le modèle est le moteur ; le vrai produit c'est tout ce qui l'entoure — la connaissance, le routage sécurisé, la connexion à vos outils, et la capacité de le tester avant de le mettre en production.

C'est ce vide qui justifie l'existence de plateformes comme la nôtre. Le mouvement open-weight vous donne le contrôle sur la couche modèle, mais la plupart des équipes de support ne veulent pas non plus devenir une équipe ML ops. La meilleure réponse pour la plupart des gens est d'obtenir les bénéfices du contrôle des données et de l'apprentissage sans rouler l'infrastructure à la main — c'est la ligne que je tracerais entre un modèle et une plateforme de service client IA.

Essayez eesel pour le support IA

Si la lecture sur Gemma 4 vous a fait penser « je veux que l'IA réponde à mes tickets, mais à mes conditions », c'est exactement le problème pour lequel eesel a été conçu.

L'agent helpdesk IA d'eesel se connecte aux outils que vous utilisez déjà — Zendesk, Freshdesk, Gorgias, Slack et plus de 100 autres — et apprend de vos tickets et docs d'aide dès le premier jour, pour que des années d'historique deviennent immédiatement de la connaissance. La partie qui répond directement à la question « pourrait-on lui faire confiance ? » avec laquelle j'ai ouvert : vous pouvez simuler l'agent sur des milliers de vos tickets historiques pour voir exactement comment il aurait répondu, avant qu'un seul client ne le voie. C'est ainsi que Gridwise a résolu 73 % des demandes de niveau 1 dès son premier mois.

Tableau de bord helpdesk IA d'eesel montrant les outils de support connectés et l'activité des tickets

C'est basé sur l'usage, à partir de 0,40 $ par ticket sans frais par siège, et vous pouvez démarrer avec 50 $ d'utilisation gratuite sans carte de crédit. Que le modèle sous le capot soit Gemma 4 ou autre chose, ce que vous voulez vraiment c'est un agent auquel vous pouvez faire confiance sur votre file. Essayez eesel et voyez comment il gère la vôtre.

Questions Fréquentes

Qu'est-ce que Gemma 4 ?

Gemma 4 est la famille de modèles d'IA à poids ouverts de Google DeepMind, lancée le 2 avril 2026. Contrairement à un modèle uniquement accessible via API, vous téléchargez les poids réels et les exécutez sur votre propre matériel, d'un téléphone à un serveur avec un seul GPU. Il est disponible en cinq tailles et est conçu pour le raisonnement et les workflows agentiques.

Gemma 4 est-il gratuit ?

Les poids sont gratuits à télécharger et la licence est Apache 2.0, commercialement permissive, donc pas de frais de licence par token. Votre seul coût est l'infrastructure sur laquelle vous le faites tourner. C'est un changement majeur par rapport à la tarification de la plupart des LLMs.

Quelles sont les tailles de modèles Gemma 4 ?

Il y en a cinq : E2B et E4B pour les téléphones et appareils edge, un modèle Unified 12B pour les ordinateurs portables, un modèle Mixture-of-Experts 26B optimisé pour la faible latence, et un modèle Dense 31B phare. La fiche modèle liste les spécifications complètes de chacun.

Gemma 4 peut-il fonctionner sur un ordinateur portable ou un téléphone ?

Oui. Les modèles E2B et E4B fonctionnent entièrement hors ligne sur des téléphones et des appareils comme le Raspberry Pi, et le modèle Unified 12B est conçu pour tenir sur un ordinateur portable avec 16 Go de mémoire. Les utilisateurs de r/LocalLLaMA rapportent que le 26B tourne rapidement sur un Mac de 64 Go.

Gemma 4 est-il bon pour le support client ?

Un modèle ouvert fournit une base solide, mais un agent de support en production a besoin de plus que des poids bruts : il doit apprendre de vos tickets, router en toute sécurité et se connecter à votre helpdesk. Une plateforme comme l'agent helpdesk IA d'eesel gère cette couche pour vous permettre d'avoir le contrôle du self-hosting sans construire la plomberie. Découvrez comment les équipes réduisent leurs coûts de support avec l'IA.

Recrutez votre collègue IA

Configuration en quelques minutes. Pas de carte bancaire requise.

Essayer gratuitement Réserver une démo

Share this article

Article by

Alicia Kirana Utomo

Kira is a writer at eesel AI with a Computer Science background and over a year of hands-on experience evaluating AI-powered customer service tools. She focuses on breaking down how helpdesk platforms and AI agents actually work so that support teams can make better buying decisions.