Blog / AI

Qu'est-ce que Gemini 3.5 Live Translate ?

Écrit par

Riellvriany Indriawan

Relu par

Katelin Teen

Dernière modification June 17, 2026

Vérifié par un expert

Deux personnes parlant des langues différentes reliées par une onde sonore en direct, illustrant Gemini 3.5 Live Translate

TL;DR

Gemini 3.5 Live Translate est le modèle audio de Google pour la traduction vocale quasi en temps réel dans plus de 70 langues, annoncé le 9 juin 2026. Au lieu d'attendre que vous terminiez une phrase, il écoute et énonce la traduction en continu, en restant seulement quelques secondes derrière la personne qui parle et en conservant son ton et son rythme.

Vous le croiserez à trois endroits : l'application gratuite Google Traduction, Google Meet pour les réunions en direct, et l'API Gemini Live pour les développeurs. Il est impressionnant pour les voyages et les conversations informelles, mais les premiers testeurs signalent de réelles lacunes en matière de précision et de gestion des tours de parole, de sorte qu'il ne remplace pas tel quel un interprète ni, surtout, votre file d'attente de support. Pour le support écrit dans des dizaines de langues, un agent IA pour le service client vérifiable est mieux adapté que la traduction vocale en direct.

Qu'est-ce que Gemini 3.5 Live Translate ?

Gemini 3.5 Live Translate est un modèle de traduction vocale (de la parole à la parole) de Google. Vous parlez dans une langue, et il répond à voix haute dans une autre, quasi en temps réel, sans que vous ayez à appuyer sur un bouton entre les tours. Google le décrit comme « notre tout dernier modèle audio, offrant une traduction de la parole à la parole quasi en temps réel dans plus de 70 langues ».

Ce qui fait dresser l'oreille, c'est à quel point cela sonne naturel. Le modèle « génère une parole traduite fluide et au son naturel qui préserve l'intonation, le rythme et la hauteur de voix des locuteurs », si bien que la voix traduite monte et descend toujours comme celle du locuteur d'origine au lieu de s'aplatir en une lecture robotique. Il détecte aussi la langue tout seul, vous n'avez donc pas à lui indiquer si la personne en face de vous parle espagnol ou tagalog.

Une précision de dénomination qu'il vaut mieux bien comprendre, car elle prête à confusion : la fonctionnalité « Live translate » de l'application Google Traduction a en réalité été lancée dès août 2025, suivie d'une bêta basée sur les écouteurs en décembre 2025. Ce qui a changé en juin 2026, c'est le moteur en dessous : Google a basculé sur le nouveau modèle 3.5 Live Translate. Et malgré l'étiquette « 3.5 », la fiche du modèle de DeepMind indique que le modèle est basé sur Gemini 3 Pro, un modèle audio dédié doté d'une fenêtre de contexte audio de 128K jetons, et non du palier Flash, plus petit.

Page officielle de l'annonce de Gemini 3.5 Live Translate de Google, tirée du blog Keyword

Comment fonctionne Gemini 3.5 Live Translate

La plupart des applications de traduction que vous avez utilisées fonctionnent comme une course de relais : elles convertissent votre parole en texte, traduisent le texte, puis relisent le texte avec une autre voix. Ça marche, mais c'est pourquoi les outils plus anciens donnent une impression de saccades : vous devez finir de parler, puis attendre trois passages de relais avant que quoi que ce soit ne sorte.

Gemini 3.5 Live Translate saute le relais. Il utilise l'audio natif, ce qui signifie qu'un seul modèle prend le son brut en entrée et produit du son traduit en sortie. Parce qu'il ne jette jamais l'audio pour le convertir d'abord en texte, il peut conserver les détails acoustiques, le ton, le rythme, la hauteur, qu'un pipeline textuel rejetterait. Les transcriptions sont une option supplémentaire, pas le mécanisme.

La deuxième astuce, c'est qu'il traduit en continu plutôt que tour par tour. Plutôt que d'attendre une phrase complète, il « génère de la parole en continu, en équilibrant le compromis entre attendre du contexte pour améliorer la qualité et traduire immédiatement pour rester synchronisé avec la personne qui parle ». C'est la différence entre une conversation et un talkie-walkie.

Comment Gemini 3.5 Live Translate remplace l'ancien relais parole-vers-texte, traduction, texte-vers-parole par un seul modèle audio natif continu

Sous le capot, pour les développeurs, il fonctionne via l'API Live, une connexion WebSocket avec état qui diffuse l'audio dans les deux sens. Vous activez la traduction en envoyant une translationConfig avec un code de langue cible, puis vous acheminez l'audio en PCM mono 16 kHz par blocs de 100 ms. Les sessions uniquement audio sont plafonnées à 15 minutes sauf si vous les prolongez, et chaque extrait d'audio généré porte un filigrane SynthID imperceptible pour pouvoir être identifié plus tard comme créé par IA. C'est la même famille de technologie vocale à faible latence que celle qui se trouve derrière l'assistant Gemini plus large, simplement réglée purement pour la traduction, sans outils ni bavardage rattachés.

Où vous pouvez réellement l'utiliser

Google livre 3.5 Live Translate sur trois voies distinctes, et celle qui compte pour vous dépend entièrement de votre profil : voyageur, équipe ou développeur.

Les trois façons d'utiliser Gemini 3.5 Live Translate : l'application Google Traduction pour les particuliers, Google Meet pour les équipes et l'API Live pour les développeurs

Les particuliers l'obtiennent dans l'application Google Traduction sur Android et iOS. Vous ouvrez l'application, vous appuyez sur Live translate, vous choisissez vos deux langues et vous commencez à parler. Sur Android, il y a aussi un nouveau mode d'écoute qui diffuse la traduction directement dans l'écouteur de votre téléphone, de sorte que vous le tenez contre votre oreille comme un appel normal.
Les équipes l'obtiennent dans Google Meet, où c'est un grand bond. La traduction vocale de Meet passe « de la limite précédente de seulement cinq langues » à plus de 70, permettant plus de 2 000 combinaisons de langues dans une seule réunion. C'est en préversion privée d'abord pour les clients professionnels de Workspace.
Les développeurs obtiennent l'API Gemini Live et Google AI Studio en préversion publique, sous l'identifiant de modèle gemini-3.5-live-translate-preview. La plomberie média en temps réel est généralement prise en charge par des partenaires comme LiveKit, Pipecat et Agora.

Les signaux d'échelle derrière tout cela sont réels, eux aussi. Google indique que Grab teste le modèle pour la communication entre chauffeur et voyageur auprès d'utilisateurs passant plus de 10 millions d'appels vocaux par mois, ce qui vous indique où tout cela se dirige : intégré dans les applications d'autres entreprises, et pas seulement comme traducteur autonome.

Gemini 3.5 Live Translate en un coup d'œil

Dimension	Détail
Modèle	`gemini-3.5-live-translate-preview`, basé sur Gemini 3 Pro
Ce qu'il fait	Parole à parole, audio en entrée / audio en sortie
Langues	Plus de 70 avec détection automatique
Latence	Quelques secondes derrière la personne qui parle
Style	Préserve l'intonation, le rythme, la hauteur
Où	Application Google Traduction, Google Meet, API Live
Disponibilité	Déploiement grand public ; préversions développeur + Meet
Filigrane	SynthID sur tout l'audio

Ce que ça donne vraiment à l'usage

C'est là que le marketing et la réalité commencent à diverger, et il vaut la peine d'être honnête sur les deux, car l'écart est toute l'histoire.

Du bon côté, quand ça marche, c'est différent des outils de traduction plus anciens. Un passionné a résumé l'attrait après le lancement :

Real time speech to speech translation. Over 70 languages. No waiting. No awkward pauses. No robotic stop and start conversations. Just speak naturally and hear the translation almost instantly.

u/Grewup01 on r/GoogleGemini

Mais les mêmes fils de discussion sont pleins de gens qui se heurtent à des murs. La plainte la plus constante porte sur la gestion des tours de parole : parce que le modèle traduit en continu, il ne sait parfois pas quand vous avez fini. Un développeur qui crée des outils d'interprétation en temps réel l'a dit sans détour :

first the understanding of what is spoken is not very good [...] Second it doesn't have and end sentence tag so you can talk and never hear the end because it doesn't know you finished speaking only after you start speaking again or finish the session. It could be a good AI but needs more work and refining from Google.

u/nolovefullownership on r/GoogleGemini

Il y a aussi un plafond de friction sociale facile à négliger dans une démo. Un testeur tech qui l'a essayé dans de vraies conversations a noté sur LinkedIn qu'il fonctionne mieux quand tout le monde dans la pièce utilise le même outil :

Live AI translation sounds perfect until you're actually in a conversation with other people [...] I think it's a bit hard to use in a social scenario unless all participants are using it [...] Multi-person conversations still feel like they're at the edge of progress.

Est-il vraiment bon ?

Deux choses sont vraies en même temps. Les améliorations de traduction plus larges de Google affichent une qualité de texte à l'état de l'art sur le benchmark WMT25, et la sortie vocale naturelle est un net progrès. Mais la traduction vocale en direct, à l'échelle du secteur, commet encore des erreurs que la traduction de texte ne ferait pas, et certaines sont graves.

Un exemple révélateur est venu de quelqu'un qui testait la traduction vocale en direct dans le même écosystème Google (Google Meet), et qui l'a comparée en A/B à la simple application Traduction sur une phrase de voyage simple :

The voices sounded authentic but I was shocked at how inaccurate some of the translations were. Far worse than what even Google Translate is capable of. For example: English speaker: "Are you going to take care of the hotel reservations and flights?" Live translation: "Vas a cuidar de los pescadores y peleas?" ("Are you going to take care of the fishermen and fights?")

u/de_cachondeo on r/TranslationStudies

La propre documentation de Google est, elle aussi, rafraîchissante de franchise sur les aspérités. La réplication de la voix « peut être incohérente », avec des voix qui changent après de longues pauses ou se bloquent lors d'échanges rapides entre plusieurs interlocuteurs, et la détection de la langue « a du mal avec les accents marqués, les langues proches (par ex. espagnol vs portugais) ou les changements rapides de langue ». Donc la lecture honnête : brillant pour les conversations informelles et indulgentes, risqué pour tout ce où un mot erroné vous coûte cher. Cette distinction compte beaucoup dès que vous commencez à l'envisager pour le travail.

Traduction vocale en direct vs support client multilingue

Voici le recadrage que la plupart des articles laissent de côté. Gemini 3.5 Live Translate est conçu pour les conversations parlées, en direct : deux personnes qui parlent, une réunion, un appel téléphonique. C'est un problème réel et utile à résoudre. Mais ce n'est pas la forme de la majeure partie du support client.

Le support est surtout écrit et asynchrone : tickets, e-mails, messages de chat, questions du centre d'aide, qui arrivent souvent pendant la nuit pendant que votre équipe dort. Un traducteur vocal en direct n'aide pas avec un e-mail en allemand qui traîne dans votre file Zendesk, et vous ne voudriez jamais qu'une sortie vocale sans supervision, parfois fausse, parle au nom de votre marque à un client payant. Les compétences ne se recoupent presque pas.

La traduction vocale en direct convient aux conversations parlées en temps réel, tandis que l'automatisation du support multilingue convient aux tickets et chats écrits dans plus de 80 langues

Si le support multilingue est votre véritable objectif, la meilleure catégorie est un agent IA pour le service client qui lit vos documents d'aide et vos tickets passés, rédige des réponses et résout les cas faciles, dans la langue dans laquelle le client a écrit. C'est un problème d'IA conversationnelle avec un humain dans la boucle, pas un problème d'audio en temps réel. C'est aussi là que le calcul des coûts tend à favoriser la déflexion de niveau 1 plutôt que l'embauche d'agents multilingues, et là qu'un chatbot de base de connaissances IA gagne son salaire. Si vous évaluez la catégorie plus large, notre guide sur l'IA pour le service client et le tour d'horizon des logiciels de service client par IA sont de bonnes étapes suivantes.

Essayez eesel

Gemini 3.5 Live Translate est le bon outil quand la conversation se déroule à voix haute, en direct, sur le moment. Quand la conversation, c'est votre boîte de réception de support, eesel est conçu pour cela : un agent de helpdesk IA qui apprend de vos tickets passés et de vos documents d'aide, rédige et résout le support dans plus de 80 langues prêtes à l'emploi, et se branche directement sur le helpdesk que vous utilisez déjà.

La différence, c'est la supervision et l'échelle sur le travail écrit. Un client d'eesel, Smava, exploite un agent entièrement automatisé qui traite plus de 100 000 tickets de support en allemand par mois, le genre de volume multilingue et permanent qu'un traducteur vocal en direct n'a jamais été conçu pour toucher. Vous gardez le contrôle de ce à quoi il peut répondre, et vous pouvez monter l'autonomie progressivement.

Vue d'ensemble du tableau de bord du helpdesk IA d'eesel, où un agent IA rédige et résout des tickets de support dans plus de 80 langues

Si votre problème de « traduction » est en réalité un problème de support multilingue, essayez eesel et voyez quelle part de votre file il peut gérer avant qu'un humain n'ait à intervenir.

Foire aux questions

Qu'est-ce que Gemini 3.5 Live Translate ?

Gemini 3.5 Live Translate est le modèle audio de Google pour la traduction vocale quasi en temps réel dans plus de 70 langues. Annoncé le 9 juin 2026, il écoute l'audio parlé et restitue la traduction à voix haute en continu, tout en conservant l'intonation et le rythme de la personne qui parle. On le retrouve dans l'application Google Traduction, dans Google Meet et via l'API Gemini Live. Si votre objectif est le support écrit plutôt que la voix en direct, un agent IA pour le service client est mieux adapté.

Gemini 3.5 Live Translate est-il gratuit ?

Pour les particuliers, la fonctionnalité Live translate est déployée dans l'application gratuite Google Traduction sur Android et iOS. Pour les développeurs, elle fonctionne via l'API Gemini Live payante, facturée à l'usage de jetons plutôt qu'à un tarif fixe. Les équipes qui comparent le coût de fonctionnement des fonctionnalités vocales à celui de l'automatisation du texte commencent souvent par notre analyse des économies de coûts du support client par l'IA.

Combien de langues Gemini 3.5 Live Translate prend-il en charge ?

Le modèle détecte et traduit automatiquement dans plus de 70 langues. Dans Google Meet en particulier, c'est un bond par rapport à une limite précédente de seulement cinq langues, débloquant plus de 2 000 combinaisons de langues dans une seule réunion. Pour les canaux écrits, des outils comme un chatbot de base de connaissances IA peuvent répondre dans des dizaines de langues à partir de votre documentation existante.

Quelle est la précision de Gemini 3.5 Live Translate ?

Il est solide sur la parole au son naturel et le flux conversationnel, mais les premiers testeurs signalent une gestion plus faible de l'audio source non anglophone, une détection des tours de parole instable et des erreurs de traduction occasionnelles sur des phrases simples. Pour les réponses critiques pour l'activité, de nombreuses équipes préfèrent un flux de travail textuel vérifiable comme un chatbot de service client IA plutôt qu'une voix en direct sans supervision. Consultez notre point de vue sur l'IA conversationnelle pour savoir où chacune s'intègre.

Puis-je utiliser Gemini 3.5 Live Translate pour le service client ?

Il peut aider dans les conversations parlées en direct, comme les appels téléphoniques ou les réunions vidéo, mais l'essentiel du support se déroule dans des tickets et des chats écrits qui nécessitent supervision et précision. Pour cela, une IA pour le service client dédiée qui rédige et résout des tickets dans plus de 80 langues, comme eesel, est généralement une meilleure réponse que la traduction vocale en direct.

Recrutez votre collègue IA

Configuration en quelques minutes. Pas de carte bancaire requise.

Essayer gratuitement Réserver une démo

Share this article

Article by

Riellvriany Indriawan

Riell is a designer and writer at eesel AI with about two years of experience researching CX platforms, AI chatbots, and helpdesk software. She combines her design background with a sharp eye for how these tools actually look and feel in practice — making her comparisons unusually visual and user-focused.

Qu'est-ce que Gemini 3.5 Live Translate ?

Qu'est-ce que Gemini 3.5 Live Translate ?

Comment fonctionne Gemini 3.5 Live Translate

Où vous pouvez réellement l'utiliser

Gemini 3.5 Live Translate en un coup d'œil

Ce que ça donne vraiment à l'usage

Est-il vraiment bon ?

Traduction vocale en direct vs support client multilingue

Essayez eesel

Foire aux questions

Recrutez votre collègue IA

Riellvriany Indriawan

Related Posts

Agents IA vs chatbots IA : la vraie différence et quand utiliser chacun

Traduction IA en temps réel pour les entreprises : comment ça marche vraiment en 2026

Apple Intelligence pour les entreprises : ce qu'il fait vraiment (et ne fait pas) en 2026

Qu'est-ce qu'Apple Intelligence dans iOS 27 ? Un guide concret

Claude Opus 4.8 pour les entreprises : ce qui change et ce qui ne change pas

Qu'est-ce que Claude Opus 4.8 ? Un regard lucide sur le modèle phare d'Anthropic

Claude Fable 5 pour les entreprises : ce que le modèle le plus puissant d'Anthropic signifie vraiment pour votre équipe

Les modèles d'IA basés sur la diffusion expliqués : comment ils fonctionnent et pourquoi ils sont soudain si rapides

Qu'est-ce que DiffusionGemma ? Le LLM de diffusion à poids ouverts de Google, expliqué

Prêt à recruter votre collègue IA ?