Qu'est-ce que Gemini 3.5 Live Translate ?

Riellvriany Indriawan
Écrit par

Riellvriany Indriawan

Katelin Teen
Relu par

Katelin Teen

Dernière modification June 17, 2026

Vérifié par un expert
Deux personnes parlant des langues différentes reliées par une onde sonore en direct, illustrant Gemini 3.5 Live Translate

Qu'est-ce que Gemini 3.5 Live Translate ?

Gemini 3.5 Live Translate est un modèle de traduction vocale (de la parole à la parole) de Google. Vous parlez dans une langue, et il répond à voix haute dans une autre, quasi en temps réel, sans que vous ayez à appuyer sur un bouton entre les tours. Google le décrit comme « notre tout dernier modèle audio, offrant une traduction de la parole à la parole quasi en temps réel dans plus de 70 langues ».

Ce qui fait dresser l'oreille, c'est à quel point cela sonne naturel. Le modèle « génère une parole traduite fluide et au son naturel qui préserve l'intonation, le rythme et la hauteur de voix des locuteurs », si bien que la voix traduite monte et descend toujours comme celle du locuteur d'origine au lieu de s'aplatir en une lecture robotique. Il détecte aussi la langue tout seul, vous n'avez donc pas à lui indiquer si la personne en face de vous parle espagnol ou tagalog.

Une précision de dénomination qu'il vaut mieux bien comprendre, car elle prête à confusion : la fonctionnalité « Live translate » de l'application Google Traduction a en réalité été lancée dès août 2025, suivie d'une bêta basée sur les écouteurs en décembre 2025. Ce qui a changé en juin 2026, c'est le moteur en dessous : Google a basculé sur le nouveau modèle 3.5 Live Translate. Et malgré l'étiquette « 3.5 », la fiche du modèle de DeepMind indique que le modèle est basé sur Gemini 3 Pro, un modèle audio dédié doté d'une fenêtre de contexte audio de 128K jetons, et non du palier Flash, plus petit.

Page officielle de l'annonce de Gemini 3.5 Live Translate de Google, tirée du blog Keyword

Comment fonctionne Gemini 3.5 Live Translate

La plupart des applications de traduction que vous avez utilisées fonctionnent comme une course de relais : elles convertissent votre parole en texte, traduisent le texte, puis relisent le texte avec une autre voix. Ça marche, mais c'est pourquoi les outils plus anciens donnent une impression de saccades : vous devez finir de parler, puis attendre trois passages de relais avant que quoi que ce soit ne sorte.

Gemini 3.5 Live Translate saute le relais. Il utilise l'audio natif, ce qui signifie qu'un seul modèle prend le son brut en entrée et produit du son traduit en sortie. Parce qu'il ne jette jamais l'audio pour le convertir d'abord en texte, il peut conserver les détails acoustiques, le ton, le rythme, la hauteur, qu'un pipeline textuel rejetterait. Les transcriptions sont une option supplémentaire, pas le mécanisme.

La deuxième astuce, c'est qu'il traduit en continu plutôt que tour par tour. Plutôt que d'attendre une phrase complète, il « génère de la parole en continu, en équilibrant le compromis entre attendre du contexte pour améliorer la qualité et traduire immédiatement pour rester synchronisé avec la personne qui parle ». C'est la différence entre une conversation et un talkie-walkie.

Comment Gemini 3.5 Live Translate remplace l'ancien relais parole-vers-texte, traduction, texte-vers-parole par un seul modèle audio natif continu
Comment Gemini 3.5 Live Translate remplace l'ancien relais parole-vers-texte, traduction, texte-vers-parole par un seul modèle audio natif continu

Sous le capot, pour les développeurs, il fonctionne via l'API Live, une connexion WebSocket avec état qui diffuse l'audio dans les deux sens. Vous activez la traduction en envoyant une translationConfig avec un code de langue cible, puis vous acheminez l'audio en PCM mono 16 kHz par blocs de 100 ms. Les sessions uniquement audio sont plafonnées à 15 minutes sauf si vous les prolongez, et chaque extrait d'audio généré porte un filigrane SynthID imperceptible pour pouvoir être identifié plus tard comme créé par IA. C'est la même famille de technologie vocale à faible latence que celle qui se trouve derrière l'assistant Gemini plus large, simplement réglée purement pour la traduction, sans outils ni bavardage rattachés.

Où vous pouvez réellement l'utiliser

Google livre 3.5 Live Translate sur trois voies distinctes, et celle qui compte pour vous dépend entièrement de votre profil : voyageur, équipe ou développeur.

Les trois façons d'utiliser Gemini 3.5 Live Translate : l'application Google Traduction pour les particuliers, Google Meet pour les équipes et l'API Live pour les développeurs
Les trois façons d'utiliser Gemini 3.5 Live Translate : l'application Google Traduction pour les particuliers, Google Meet pour les équipes et l'API Live pour les développeurs

Les signaux d'échelle derrière tout cela sont réels, eux aussi. Google indique que Grab teste le modèle pour la communication entre chauffeur et voyageur auprès d'utilisateurs passant plus de 10 millions d'appels vocaux par mois, ce qui vous indique où tout cela se dirige : intégré dans les applications d'autres entreprises, et pas seulement comme traducteur autonome.

Gemini 3.5 Live Translate en un coup d'œil

DimensionDétail
Modèlegemini-3.5-live-translate-preview, basé sur Gemini 3 Pro
Ce qu'il faitParole à parole, audio en entrée / audio en sortie
LanguesPlus de 70 avec détection automatique
LatenceQuelques secondes derrière la personne qui parle
StylePréserve l'intonation, le rythme, la hauteur
Application Google Traduction, Google Meet, API Live
DisponibilitéDéploiement grand public ; préversions développeur + Meet
FiligraneSynthID sur tout l'audio

Ce que ça donne vraiment à l'usage

C'est là que le marketing et la réalité commencent à diverger, et il vaut la peine d'être honnête sur les deux, car l'écart est toute l'histoire.

Du bon côté, quand ça marche, c'est différent des outils de traduction plus anciens. Un passionné a résumé l'attrait après le lancement :

Real time speech to speech translation. Over 70 languages. No waiting. No awkward pauses. No robotic stop and start conversations. Just speak naturally and hear the translation almost instantly.

Mais les mêmes fils de discussion sont pleins de gens qui se heurtent à des murs. La plainte la plus constante porte sur la gestion des tours de parole : parce que le modèle traduit en continu, il ne sait parfois pas quand vous avez fini. Un développeur qui crée des outils d'interprétation en temps réel l'a dit sans détour :

first the understanding of what is spoken is not very good [...] Second it doesn't have and end sentence tag so you can talk and never hear the end because it doesn't know you finished speaking only after you start speaking again or finish the session. It could be a good AI but needs more work and refining from Google.

Il y a aussi un plafond de friction sociale facile à négliger dans une démo. Un testeur tech qui l'a essayé dans de vraies conversations a noté sur LinkedIn qu'il fonctionne mieux quand tout le monde dans la pièce utilise le même outil :

Live AI translation sounds perfect until you're actually in a conversation with other people [...] I think it's a bit hard to use in a social scenario unless all participants are using it [...] Multi-person conversations still feel like they're at the edge of progress.

Est-il vraiment bon ?

Deux choses sont vraies en même temps. Les améliorations de traduction plus larges de Google affichent une qualité de texte à l'état de l'art sur le benchmark WMT25, et la sortie vocale naturelle est un net progrès. Mais la traduction vocale en direct, à l'échelle du secteur, commet encore des erreurs que la traduction de texte ne ferait pas, et certaines sont graves.

Un exemple révélateur est venu de quelqu'un qui testait la traduction vocale en direct dans le même écosystème Google (Google Meet), et qui l'a comparée en A/B à la simple application Traduction sur une phrase de voyage simple :

The voices sounded authentic but I was shocked at how inaccurate some of the translations were. Far worse than what even Google Translate is capable of. For example: English speaker: "Are you going to take care of the hotel reservations and flights?" Live translation: "Vas a cuidar de los pescadores y peleas?" ("Are you going to take care of the fishermen and fights?")

La propre documentation de Google est, elle aussi, rafraîchissante de franchise sur les aspérités. La réplication de la voix « peut être incohérente », avec des voix qui changent après de longues pauses ou se bloquent lors d'échanges rapides entre plusieurs interlocuteurs, et la détection de la langue « a du mal avec les accents marqués, les langues proches (par ex. espagnol vs portugais) ou les changements rapides de langue ». Donc la lecture honnête : brillant pour les conversations informelles et indulgentes, risqué pour tout ce où un mot erroné vous coûte cher. Cette distinction compte beaucoup dès que vous commencez à l'envisager pour le travail.

Traduction vocale en direct vs support client multilingue

Voici le recadrage que la plupart des articles laissent de côté. Gemini 3.5 Live Translate est conçu pour les conversations parlées, en direct : deux personnes qui parlent, une réunion, un appel téléphonique. C'est un problème réel et utile à résoudre. Mais ce n'est pas la forme de la majeure partie du support client.

Le support est surtout écrit et asynchrone : tickets, e-mails, messages de chat, questions du centre d'aide, qui arrivent souvent pendant la nuit pendant que votre équipe dort. Un traducteur vocal en direct n'aide pas avec un e-mail en allemand qui traîne dans votre file Zendesk, et vous ne voudriez jamais qu'une sortie vocale sans supervision, parfois fausse, parle au nom de votre marque à un client payant. Les compétences ne se recoupent presque pas.

La traduction vocale en direct convient aux conversations parlées en temps réel, tandis que l'automatisation du support multilingue convient aux tickets et chats écrits dans plus de 80 langues
La traduction vocale en direct convient aux conversations parlées en temps réel, tandis que l'automatisation du support multilingue convient aux tickets et chats écrits dans plus de 80 langues

Si le support multilingue est votre véritable objectif, la meilleure catégorie est un agent IA pour le service client qui lit vos documents d'aide et vos tickets passés, rédige des réponses et résout les cas faciles, dans la langue dans laquelle le client a écrit. C'est un problème d'IA conversationnelle avec un humain dans la boucle, pas un problème d'audio en temps réel. C'est aussi là que le calcul des coûts tend à favoriser la déflexion de niveau 1 plutôt que l'embauche d'agents multilingues, et là qu'un chatbot de base de connaissances IA gagne son salaire. Si vous évaluez la catégorie plus large, notre guide sur l'IA pour le service client et le tour d'horizon des logiciels de service client par IA sont de bonnes étapes suivantes.

Essayez eesel

Gemini 3.5 Live Translate est le bon outil quand la conversation se déroule à voix haute, en direct, sur le moment. Quand la conversation, c'est votre boîte de réception de support, eesel est conçu pour cela : un agent de helpdesk IA qui apprend de vos tickets passés et de vos documents d'aide, rédige et résout le support dans plus de 80 langues prêtes à l'emploi, et se branche directement sur le helpdesk que vous utilisez déjà.

La différence, c'est la supervision et l'échelle sur le travail écrit. Un client d'eesel, Smava, exploite un agent entièrement automatisé qui traite plus de 100 000 tickets de support en allemand par mois, le genre de volume multilingue et permanent qu'un traducteur vocal en direct n'a jamais été conçu pour toucher. Vous gardez le contrôle de ce à quoi il peut répondre, et vous pouvez monter l'autonomie progressivement.

Vue d'ensemble du tableau de bord du helpdesk IA d'eesel, où un agent IA rédige et résout des tickets de support dans plus de 80 langues
Vue d'ensemble du tableau de bord du helpdesk IA d'eesel, où un agent IA rédige et résout des tickets de support dans plus de 80 langues

Si votre problème de « traduction » est en réalité un problème de support multilingue, essayez eesel et voyez quelle part de votre file il peut gérer avant qu'un humain n'ait à intervenir.

Foire aux questions

Qu'est-ce que Gemini 3.5 Live Translate ?
Gemini 3.5 Live Translate est le modèle audio de Google pour la traduction vocale quasi en temps réel dans plus de 70 langues. Annoncé le 9 juin 2026, il écoute l'audio parlé et restitue la traduction à voix haute en continu, tout en conservant l'intonation et le rythme de la personne qui parle. On le retrouve dans l'application Google Traduction, dans Google Meet et via l'API Gemini Live. Si votre objectif est le support écrit plutôt que la voix en direct, un agent IA pour le service client est mieux adapté.
Gemini 3.5 Live Translate est-il gratuit ?
Pour les particuliers, la fonctionnalité Live translate est déployée dans l'application gratuite Google Traduction sur Android et iOS. Pour les développeurs, elle fonctionne via l'API Gemini Live payante, facturée à l'usage de jetons plutôt qu'à un tarif fixe. Les équipes qui comparent le coût de fonctionnement des fonctionnalités vocales à celui de l'automatisation du texte commencent souvent par notre analyse des économies de coûts du support client par l'IA.
Combien de langues Gemini 3.5 Live Translate prend-il en charge ?
Le modèle détecte et traduit automatiquement dans plus de 70 langues. Dans Google Meet en particulier, c'est un bond par rapport à une limite précédente de seulement cinq langues, débloquant plus de 2 000 combinaisons de langues dans une seule réunion. Pour les canaux écrits, des outils comme un chatbot de base de connaissances IA peuvent répondre dans des dizaines de langues à partir de votre documentation existante.
Quelle est la précision de Gemini 3.5 Live Translate ?
Il est solide sur la parole au son naturel et le flux conversationnel, mais les premiers testeurs signalent une gestion plus faible de l'audio source non anglophone, une détection des tours de parole instable et des erreurs de traduction occasionnelles sur des phrases simples. Pour les réponses critiques pour l'activité, de nombreuses équipes préfèrent un flux de travail textuel vérifiable comme un chatbot de service client IA plutôt qu'une voix en direct sans supervision. Consultez notre point de vue sur l'IA conversationnelle pour savoir où chacune s'intègre.
Puis-je utiliser Gemini 3.5 Live Translate pour le service client ?
Il peut aider dans les conversations parlées en direct, comme les appels téléphoniques ou les réunions vidéo, mais l'essentiel du support se déroule dans des tickets et des chats écrits qui nécessitent supervision et précision. Pour cela, une IA pour le service client dédiée qui rédige et résout des tickets dans plus de 80 langues, comme eesel, est généralement une meilleure réponse que la traduction vocale en direct.

Share this article

Riellvriany Indriawan

Article by

Riellvriany Indriawan

Riell is a designer and writer at eesel AI with about two years of experience researching CX platforms, AI chatbots, and helpdesk software. She combines her design background with a sharp eye for how these tools actually look and feel in practice — making her comparisons unusually visual and user-focused.

Related Posts

All posts →
Illustration opposant un chatbot IA répondant à une question à un agent IA connecté à Slack, à l'e-mail et aux outils de ticketing
AI

Agents IA vs chatbots IA : la vraie différence et quand utiliser chacun

Agents IA vs chatbots IA : les chatbots répondent aux questions, les agents agissent et clôturent les tickets. Voici la vraie différence et quand recourir à chacun.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Illustration au trait d'un agent de support parlant à des personnes dans différentes langues à travers une bulle de dialogue en forme de globe
AI for business

Traduction IA en temps réel pour les entreprises : comment ça marche vraiment en 2026

La traduction IA en temps réel pour les entreprises expliquée : où les entreprises l'utilisent, comment elle gère le support dans n'importe quelle langue et ce qu'il faut vérifier avant de lui faire confiance.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Illustration de l'assistant Siri AI d'Apple Intelligence integre aux flux de travail des logiciels d'entreprise
AI

Apple Intelligence pour les entreprises : ce qu'il fait vraiment (et ne fait pas) en 2026

Un regard lucide sur Apple Intelligence pour les entreprises en 2026 : le nouveau Siri AI, le framework développeur gratuit, et là où il cesse d'être utile pour le support client.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Illustration d'un téléphone exécutant le nouveau Siri AI conversationnel dans Apple Intelligence sur iOS 27
AI

Qu'est-ce qu'Apple Intelligence dans iOS 27 ? Un guide concret

Un guide concret sur Apple Intelligence dans iOS 27 : le Siri AI reconstruit, le lien avec Google, ce qui est vraiment nouveau et ce que cela signifie pour les équipes de support.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Illustration editoriale de Claude Opus 4.8 pour usage professionnel
AI

Claude Opus 4.8 pour les entreprises : ce qui change et ce qui ne change pas

Claude Opus 4.8 est le modele phare d'Anthropic. Une lecture pratique du point de vue de l'operateur : ce que cela signifie pour votre entreprise, ce que ca coute et ses limites.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Illustration éditoriale de Claude Opus 4.8, le modèle IA phare d'Anthropic
AI

Qu'est-ce que Claude Opus 4.8 ? Un regard lucide sur le modèle phare d'Anthropic

Claude Opus 4.8 est le dernier modèle phare d'Anthropic. Voici ce qui a changé, ce qu'il coûte et ce qu'un modèle plus intelligent signifie pour le support client IA.

Riellvriany IndriawanRiellvriany IndriawanJun 17, 2026
Illustration de Claude Fable 5 travaillant comme un coéquipier autonome de longue durée pour une équipe d'entreprise
AI

Claude Fable 5 pour les entreprises : ce que le modèle le plus puissant d'Anthropic signifie vraiment pour votre équipe

Un regard lucide sur Claude Fable 5 pour les entreprises : ce qu'il coûte, là où il brille, là où il coince, et comment le mettre vraiment au travail dans le support client.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Illustration de bruit dispersé et de blocs masqués se résolvant en lignes de texte nettes, avec un chronomètre signalant la vitesse
AI

Les modèles d'IA basés sur la diffusion expliqués : comment ils fonctionnent et pourquoi ils sont soudain si rapides

Un guide accessible des modèles d'IA basés sur la diffusion : en quoi ils diffèrent des LLM autorégressifs, pourquoi ils génèrent du texte 10 fois plus vite, et ce que cela signifie pour les entreprises.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Illustration de jetons de texte brouillés se résolvant en un texte propre et lisible, représentant le débruitage parallèle de DiffusionGemma
AI

Qu'est-ce que DiffusionGemma ? Le LLM de diffusion à poids ouverts de Google, expliqué

DiffusionGemma est le modèle de diffusion de texte à poids ouverts de Google : un Mixture-of-Experts de 26B qui écrit des blocs entiers de texte en parallèle pour une génération jusqu'à 4x plus rapide.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026

Prêt à recruter votre collègue IA ?

Configuration en quelques minutes. Pas de carte bancaire requise.

Commencer gratuitement