
Qu'est-ce que Gemini 3.5 Live Translate ?
Gemini 3.5 Live Translate est un modèle de traduction vocale (de la parole à la parole) de Google. Vous parlez dans une langue, et il répond à voix haute dans une autre, quasi en temps réel, sans que vous ayez à appuyer sur un bouton entre les tours. Google le décrit comme « notre tout dernier modèle audio, offrant une traduction de la parole à la parole quasi en temps réel dans plus de 70 langues ».
Ce qui fait dresser l'oreille, c'est à quel point cela sonne naturel. Le modèle « génère une parole traduite fluide et au son naturel qui préserve l'intonation, le rythme et la hauteur de voix des locuteurs », si bien que la voix traduite monte et descend toujours comme celle du locuteur d'origine au lieu de s'aplatir en une lecture robotique. Il détecte aussi la langue tout seul, vous n'avez donc pas à lui indiquer si la personne en face de vous parle espagnol ou tagalog.
Une précision de dénomination qu'il vaut mieux bien comprendre, car elle prête à confusion : la fonctionnalité « Live translate » de l'application Google Traduction a en réalité été lancée dès août 2025, suivie d'une bêta basée sur les écouteurs en décembre 2025. Ce qui a changé en juin 2026, c'est le moteur en dessous : Google a basculé sur le nouveau modèle 3.5 Live Translate. Et malgré l'étiquette « 3.5 », la fiche du modèle de DeepMind indique que le modèle est basé sur Gemini 3 Pro, un modèle audio dédié doté d'une fenêtre de contexte audio de 128K jetons, et non du palier Flash, plus petit.
Comment fonctionne Gemini 3.5 Live Translate
La plupart des applications de traduction que vous avez utilisées fonctionnent comme une course de relais : elles convertissent votre parole en texte, traduisent le texte, puis relisent le texte avec une autre voix. Ça marche, mais c'est pourquoi les outils plus anciens donnent une impression de saccades : vous devez finir de parler, puis attendre trois passages de relais avant que quoi que ce soit ne sorte.
Gemini 3.5 Live Translate saute le relais. Il utilise l'audio natif, ce qui signifie qu'un seul modèle prend le son brut en entrée et produit du son traduit en sortie. Parce qu'il ne jette jamais l'audio pour le convertir d'abord en texte, il peut conserver les détails acoustiques, le ton, le rythme, la hauteur, qu'un pipeline textuel rejetterait. Les transcriptions sont une option supplémentaire, pas le mécanisme.
La deuxième astuce, c'est qu'il traduit en continu plutôt que tour par tour. Plutôt que d'attendre une phrase complète, il « génère de la parole en continu, en équilibrant le compromis entre attendre du contexte pour améliorer la qualité et traduire immédiatement pour rester synchronisé avec la personne qui parle ». C'est la différence entre une conversation et un talkie-walkie.

Sous le capot, pour les développeurs, il fonctionne via l'API Live, une connexion WebSocket avec état qui diffuse l'audio dans les deux sens. Vous activez la traduction en envoyant une translationConfig avec un code de langue cible, puis vous acheminez l'audio en PCM mono 16 kHz par blocs de 100 ms. Les sessions uniquement audio sont plafonnées à 15 minutes sauf si vous les prolongez, et chaque extrait d'audio généré porte un filigrane SynthID imperceptible pour pouvoir être identifié plus tard comme créé par IA. C'est la même famille de technologie vocale à faible latence que celle qui se trouve derrière l'assistant Gemini plus large, simplement réglée purement pour la traduction, sans outils ni bavardage rattachés.
Où vous pouvez réellement l'utiliser
Google livre 3.5 Live Translate sur trois voies distinctes, et celle qui compte pour vous dépend entièrement de votre profil : voyageur, équipe ou développeur.

- Les particuliers l'obtiennent dans l'application Google Traduction sur Android et iOS. Vous ouvrez l'application, vous appuyez sur Live translate, vous choisissez vos deux langues et vous commencez à parler. Sur Android, il y a aussi un nouveau mode d'écoute qui diffuse la traduction directement dans l'écouteur de votre téléphone, de sorte que vous le tenez contre votre oreille comme un appel normal.
- Les équipes l'obtiennent dans Google Meet, où c'est un grand bond. La traduction vocale de Meet passe « de la limite précédente de seulement cinq langues » à plus de 70, permettant plus de 2 000 combinaisons de langues dans une seule réunion. C'est en préversion privée d'abord pour les clients professionnels de Workspace.
- Les développeurs obtiennent l'API Gemini Live et Google AI Studio en préversion publique, sous l'identifiant de modèle
gemini-3.5-live-translate-preview. La plomberie média en temps réel est généralement prise en charge par des partenaires comme LiveKit, Pipecat et Agora.
Les signaux d'échelle derrière tout cela sont réels, eux aussi. Google indique que Grab teste le modèle pour la communication entre chauffeur et voyageur auprès d'utilisateurs passant plus de 10 millions d'appels vocaux par mois, ce qui vous indique où tout cela se dirige : intégré dans les applications d'autres entreprises, et pas seulement comme traducteur autonome.
Gemini 3.5 Live Translate en un coup d'œil
| Dimension | Détail |
|---|---|
| Modèle | gemini-3.5-live-translate-preview, basé sur Gemini 3 Pro |
| Ce qu'il fait | Parole à parole, audio en entrée / audio en sortie |
| Langues | Plus de 70 avec détection automatique |
| Latence | Quelques secondes derrière la personne qui parle |
| Style | Préserve l'intonation, le rythme, la hauteur |
| Où | Application Google Traduction, Google Meet, API Live |
| Disponibilité | Déploiement grand public ; préversions développeur + Meet |
| Filigrane | SynthID sur tout l'audio |
Ce que ça donne vraiment à l'usage
C'est là que le marketing et la réalité commencent à diverger, et il vaut la peine d'être honnête sur les deux, car l'écart est toute l'histoire.
Du bon côté, quand ça marche, c'est différent des outils de traduction plus anciens. Un passionné a résumé l'attrait après le lancement :
Real time speech to speech translation. Over 70 languages. No waiting. No awkward pauses. No robotic stop and start conversations. Just speak naturally and hear the translation almost instantly.
Mais les mêmes fils de discussion sont pleins de gens qui se heurtent à des murs. La plainte la plus constante porte sur la gestion des tours de parole : parce que le modèle traduit en continu, il ne sait parfois pas quand vous avez fini. Un développeur qui crée des outils d'interprétation en temps réel l'a dit sans détour :
first the understanding of what is spoken is not very good [...] Second it doesn't have and end sentence tag so you can talk and never hear the end because it doesn't know you finished speaking only after you start speaking again or finish the session. It could be a good AI but needs more work and refining from Google.
Il y a aussi un plafond de friction sociale facile à négliger dans une démo. Un testeur tech qui l'a essayé dans de vraies conversations a noté sur LinkedIn qu'il fonctionne mieux quand tout le monde dans la pièce utilise le même outil :
Live AI translation sounds perfect until you're actually in a conversation with other people [...] I think it's a bit hard to use in a social scenario unless all participants are using it [...] Multi-person conversations still feel like they're at the edge of progress.
Est-il vraiment bon ?
Deux choses sont vraies en même temps. Les améliorations de traduction plus larges de Google affichent une qualité de texte à l'état de l'art sur le benchmark WMT25, et la sortie vocale naturelle est un net progrès. Mais la traduction vocale en direct, à l'échelle du secteur, commet encore des erreurs que la traduction de texte ne ferait pas, et certaines sont graves.
Un exemple révélateur est venu de quelqu'un qui testait la traduction vocale en direct dans le même écosystème Google (Google Meet), et qui l'a comparée en A/B à la simple application Traduction sur une phrase de voyage simple :
The voices sounded authentic but I was shocked at how inaccurate some of the translations were. Far worse than what even Google Translate is capable of. For example: English speaker: "Are you going to take care of the hotel reservations and flights?" Live translation: "Vas a cuidar de los pescadores y peleas?" ("Are you going to take care of the fishermen and fights?")
La propre documentation de Google est, elle aussi, rafraîchissante de franchise sur les aspérités. La réplication de la voix « peut être incohérente », avec des voix qui changent après de longues pauses ou se bloquent lors d'échanges rapides entre plusieurs interlocuteurs, et la détection de la langue « a du mal avec les accents marqués, les langues proches (par ex. espagnol vs portugais) ou les changements rapides de langue ». Donc la lecture honnête : brillant pour les conversations informelles et indulgentes, risqué pour tout ce où un mot erroné vous coûte cher. Cette distinction compte beaucoup dès que vous commencez à l'envisager pour le travail.
Traduction vocale en direct vs support client multilingue
Voici le recadrage que la plupart des articles laissent de côté. Gemini 3.5 Live Translate est conçu pour les conversations parlées, en direct : deux personnes qui parlent, une réunion, un appel téléphonique. C'est un problème réel et utile à résoudre. Mais ce n'est pas la forme de la majeure partie du support client.
Le support est surtout écrit et asynchrone : tickets, e-mails, messages de chat, questions du centre d'aide, qui arrivent souvent pendant la nuit pendant que votre équipe dort. Un traducteur vocal en direct n'aide pas avec un e-mail en allemand qui traîne dans votre file Zendesk, et vous ne voudriez jamais qu'une sortie vocale sans supervision, parfois fausse, parle au nom de votre marque à un client payant. Les compétences ne se recoupent presque pas.

Si le support multilingue est votre véritable objectif, la meilleure catégorie est un agent IA pour le service client qui lit vos documents d'aide et vos tickets passés, rédige des réponses et résout les cas faciles, dans la langue dans laquelle le client a écrit. C'est un problème d'IA conversationnelle avec un humain dans la boucle, pas un problème d'audio en temps réel. C'est aussi là que le calcul des coûts tend à favoriser la déflexion de niveau 1 plutôt que l'embauche d'agents multilingues, et là qu'un chatbot de base de connaissances IA gagne son salaire. Si vous évaluez la catégorie plus large, notre guide sur l'IA pour le service client et le tour d'horizon des logiciels de service client par IA sont de bonnes étapes suivantes.
Essayez eesel
Gemini 3.5 Live Translate est le bon outil quand la conversation se déroule à voix haute, en direct, sur le moment. Quand la conversation, c'est votre boîte de réception de support, eesel est conçu pour cela : un agent de helpdesk IA qui apprend de vos tickets passés et de vos documents d'aide, rédige et résout le support dans plus de 80 langues prêtes à l'emploi, et se branche directement sur le helpdesk que vous utilisez déjà.
La différence, c'est la supervision et l'échelle sur le travail écrit. Un client d'eesel, Smava, exploite un agent entièrement automatisé qui traite plus de 100 000 tickets de support en allemand par mois, le genre de volume multilingue et permanent qu'un traducteur vocal en direct n'a jamais été conçu pour toucher. Vous gardez le contrôle de ce à quoi il peut répondre, et vous pouvez monter l'autonomie progressivement.

Si votre problème de « traduction » est en réalité un problème de support multilingue, essayez eesel et voyez quelle part de votre file il peut gérer avant qu'un humain n'ait à intervenir.
Foire aux questions
Qu'est-ce que Gemini 3.5 Live Translate ?
Gemini 3.5 Live Translate est-il gratuit ?
Combien de langues Gemini 3.5 Live Translate prend-il en charge ?
Quelle est la précision de Gemini 3.5 Live Translate ?
Puis-je utiliser Gemini 3.5 Live Translate pour le service client ?

Article by
Riellvriany Indriawan
Riell is a designer and writer at eesel AI with about two years of experience researching CX platforms, AI chatbots, and helpdesk software. She combines her design background with a sharp eye for how these tools actually look and feel in practice — making her comparisons unusually visual and user-focused.








