O que é o Gemini 3.5 Live Translate?

Riellvriany Indriawan
Escrito por

Riellvriany Indriawan

Katelin Teen
Revisado por

Katelin Teen

Última edição June 17, 2026

Verificado por especialista
Duas pessoas falando idiomas diferentes com uma onda sonora ao vivo conectando-as, ilustrando o Gemini 3.5 Live Translate

O que é o Gemini 3.5 Live Translate?

O Gemini 3.5 Live Translate é um modelo de tradução de fala para fala do Google. Você fala em um idioma e ele responde falando em outro, quase em tempo real, sem que você precise tocar em um botão entre os turnos. O Google o descreve como «nosso modelo de áudio mais recente, que oferece tradução de fala para fala quase em tempo real em mais de 70 idiomas».

A parte que faz as pessoas prestarem atenção é o quão natural ele soa. O modelo «gera uma fala traduzida fluida e de som natural que preserva a entonação, o ritmo e o tom de quem fala», de modo que a voz traduzida continua subindo e descendo como a do falante original, em vez de se achatar em uma leitura robótica. Ele também detecta o idioma por conta própria, então você não precisa dizer se a pessoa do outro lado da mesa fala espanhol ou tagalo.

Uma observação sobre o nome que vale a pena entender direito, porque confunde as pessoas: o recurso «Live translate» no app Google Translate na verdade foi lançado lá em agosto de 2025, com uma beta baseada em fones de ouvido em dezembro de 2025. O que mudou em junho de 2026 é o motor por baixo: o Google trocou pelo novo modelo 3.5 Live Translate. E, apesar do selo «3.5», o cartão do modelo da DeepMind diz que o modelo é baseado no Gemini 3 Pro, um modelo de áudio dedicado com uma janela de contexto de áudio de 128K tokens, não o nível Flash menor.

Página oficial do anúncio do Gemini 3.5 Live Translate do Google, retirada do blog Keyword

Como o Gemini 3.5 Live Translate funciona

A maioria dos apps de tradução que você já usou funciona como uma corrida de revezamento: eles convertem sua fala em texto, traduzem o texto e depois leem o texto de volta com outra voz. Isso funciona, mas é por isso que ferramentas mais antigas parecem truncadas: você tem que terminar de falar e então esperar por três repasses antes de qualquer coisa sair.

O Gemini 3.5 Live Translate pula o revezamento. Ele usa áudio nativo, o que significa que um único modelo recebe o som bruto e produz som traduzido. Como ele nunca descarta o áudio para convertê-lo primeiro em texto, consegue manter os detalhes acústicos, o tom, o ritmo, a altura, que um pipeline de texto descartaria. As transcrições são um complemento opcional, não o mecanismo.

O segundo truque é que ele traduz de forma contínua, em vez de turno por turno. Em vez de esperar por uma frase completa, ele «gera fala continuamente, equilibrando o trade-off entre esperar pelo contexto para melhorar a qualidade e traduzir imediatamente para se manter em sincronia com quem fala». Essa é a diferença entre uma conversa e um walkie-talkie.

Como o Gemini 3.5 Live Translate substitui a antiga corrida de revezamento de fala para texto, tradução e texto para fala por um único modelo de áudio nativo contínuo
Como o Gemini 3.5 Live Translate substitui a antiga corrida de revezamento de fala para texto, tradução e texto para fala por um único modelo de áudio nativo contínuo

Nos bastidores, para os desenvolvedores, ele roda sobre a Live API, uma conexão WebSocket com estado que transmite áudio nos dois sentidos. Você ativa a tradução enviando uma translationConfig com um código de idioma de destino e depois canaliza o áudio como PCM mono de 16 kHz em blocos de 100 ms. As sessões somente de áudio são limitadas a 15 minutos, a menos que você as estenda, e cada trecho de áudio gerado carrega uma marca-d'água SynthID imperceptível para que possa ser identificado depois como criado por IA. É a mesma família de tecnologia de voz de baixa latência por trás do assistente Gemini mais amplo, apenas ajustada puramente para tradução, sem ferramentas ou conversa fiada anexadas.

Onde você pode realmente usá-lo

O Google está disponibilizando o 3.5 Live Translate em três trilhas separadas, e qual delas importa para você depende inteiramente de se você é viajante, equipe ou desenvolvedor.

As três formas de usar o Gemini 3.5 Live Translate: o app Google Translate para consumidores, o Google Meet para equipes e a Live API para desenvolvedores
As três formas de usar o Gemini 3.5 Live Translate: o app Google Translate para consumidores, o Google Meet para equipes e a Live API para desenvolvedores

Os sinais de escala por trás disso também são reais. O Google diz que a Grab está testando o modelo para a comunicação entre motorista e viajante entre usuários que fazem mais de 10 milhões de chamadas de voz por mês, o que mostra para onde isso está indo: incorporado dentro dos apps de outras empresas, não apenas como um tradutor independente.

Gemini 3.5 Live Translate em resumo

DimensãoDetalhe
Modelogemini-3.5-live-translate-preview, baseado no Gemini 3 Pro
O que ele fazFala para fala, áudio de entrada / áudio de saída
IdiomasMais de 70 com detecção automática
LatênciaAlguns segundos atrás de quem fala
EstiloPreserva entonação, ritmo e tom
OndeApp Google Translate, Google Meet, Live API
DisponibilidadeLançamento para consumidores; prévias para desenvolvedores + Meet
Marca-d'águaSynthID em todo o áudio

Como é usá-lo de verdade

É aqui que o marketing e a realidade começam a divergir, e vale a pena ser honesto sobre os dois, porque a lacuna é a história toda.

No lado bom, quando funciona, parece diferente das ferramentas de tradução mais antigas. Um entusiasta resumiu o apelo após o lançamento:

Real time speech to speech translation. Over 70 languages. No waiting. No awkward pauses. No robotic stop and start conversations. Just speak naturally and hear the translation almost instantly.

Mas as mesmas threads estão cheias de gente esbarrando em paredes. A reclamação mais constante é a alternância de turnos: como o modelo traduz continuamente, às vezes ele não sabe quando você parou. Um desenvolvedor que constrói ferramentas de interpretação em tempo real colocou de forma direta:

first the understanding of what is spoken is not very good [...] Second it doesn't have and end sentence tag so you can talk and never hear the end because it doesn't know you finished speaking only after you start speaking again or finish the session. It could be a good AI but needs more work and refining from Google.

Há também um teto de atrito social que é fácil ignorar em uma demonstração. Um avaliador de tecnologia que o testou em conversas reais observou no LinkedIn que funciona melhor quando todos na sala usam a mesma ferramenta:

Live AI translation sounds perfect until you're actually in a conversation with other people [...] I think it's a bit hard to use in a social scenario unless all participants are using it [...] Multi-person conversations still feel like they're at the edge of progress.

Quão bom ele é, de verdade?

Duas coisas são verdadeiras ao mesmo tempo. As melhorias de tradução mais amplas do Google alcançam qualidade de texto de ponta no benchmark WMT25, e a saída de voz natural é um avanço claro. Mas a tradução de voz ao vivo em toda a indústria ainda comete erros que a tradução de texto não cometeria, e alguns deles são graves.

Um exemplo revelador veio de alguém que testou a tradução de voz ao vivo no mesmo ecossistema do Google (Google Meet), que a comparou em um teste A/B contra o app Translate com uma frase de viagem simples:

The voices sounded authentic but I was shocked at how inaccurate some of the translations were. Far worse than what even Google Translate is capable of. For example: English speaker: "Are you going to take care of the hotel reservations and flights?" Live translation: "Vas a cuidar de los pescadores y peleas?" ("Are you going to take care of the fishermen and fights?")

A própria documentação do Google também é refrescantemente franca sobre as arestas. A replicação de voz «pode ser inconsistente», com vozes mudando após longas pausas ou travando durante trocas rápidas entre vários falantes, e a detecção de idioma «tem dificuldade com sotaques fortes, idiomas semelhantes (por exemplo, espanhol vs. português) ou trocas rápidas de idioma». Então a leitura honesta: brilhante para conversas casuais e tolerantes, arriscado para qualquer coisa em que uma palavra errada custe caro. Essa distinção importa muito assim que você começa a pensar em usá-lo para o trabalho.

Tradução de voz ao vivo vs. atendimento ao cliente multilíngue

Aqui está o reenquadramento que a maioria da cobertura ignora. O Gemini 3.5 Live Translate é feito para conversas faladas, ao vivo: duas pessoas conversando, uma reunião, uma ligação telefônica. Esse é um problema real e útil de resolver. Mas não é o formato da maior parte do atendimento ao cliente.

O suporte é majoritariamente escrito e assíncrono: tickets, e-mails, mensagens de chat, perguntas da central de ajuda, que muitas vezes chegam durante a noite enquanto sua equipe dorme. Um tradutor de voz ao vivo não ajuda com um e-mail em alemão parado na sua fila do Zendesk, e você nunca iria querer uma saída de voz sem supervisão, e ocasionalmente errada, falando em nome da sua marca para um cliente que paga. As habilidades quase não se sobrepõem.

A tradução de voz ao vivo serve para conversas faladas em tempo real, enquanto a automação de suporte multilíngue serve para tickets e chats escritos em mais de 80 idiomas
A tradução de voz ao vivo serve para conversas faladas em tempo real, enquanto a automação de suporte multilíngue serve para tickets e chats escritos em mais de 80 idiomas

Se o suporte multilíngue é o seu objetivo real, a melhor categoria é um agente de IA para atendimento ao cliente que lê seus documentos de ajuda e tickets anteriores, redige respostas e resolve o que é fácil, em qualquer idioma em que o cliente tenha escrito. Esse é um problema de IA conversacional com um humano no circuito, não um problema de áudio em tempo real. É também onde a conta de custos tende a favorecer a deflexão de nível 1 em vez de contratar agentes multilíngues, e onde um chatbot de base de conhecimento com IA faz por merecer. Se você está avaliando a categoria mais ampla, nosso guia sobre IA para atendimento ao cliente e o resumo de software de atendimento ao cliente com IA são boas paradas seguintes.

Experimente a eesel

O Gemini 3.5 Live Translate é a ferramenta certa quando a conversa acontece em voz alta, ao vivo, no momento. Quando a conversa é a sua caixa de entrada de suporte, a eesel é feita para isso: um agente de helpdesk com IA que aprende com seus tickets anteriores e documentos de ajuda, redige e resolve o suporte em mais de 80 idiomas prontos para uso e se conecta diretamente ao helpdesk que você já usa.

A diferença é a supervisão e a escala no trabalho escrito. Um cliente da eesel, a Smava, opera um agente totalmente automatizado que lida com mais de 100.000 tickets de suporte em alemão por mês, o tipo de volume multilíngue e sempre ativo que um tradutor de voz ao vivo nunca foi feito para tocar. Você mantém o controle sobre o que ele pode responder e pode aumentar a autonomia gradualmente.

Visão geral do painel de helpdesk com IA da eesel, onde um agente de IA redige e resolve tickets de suporte em mais de 80 idiomas
Visão geral do painel de helpdesk com IA da eesel, onde um agente de IA redige e resolve tickets de suporte em mais de 80 idiomas

Se o seu problema de «tradução» é, na verdade, um problema de suporte multilíngue, experimente a eesel e veja quanto da sua fila ela consegue resolver antes que um humano precise intervir.

Perguntas frequentes

O que é o Gemini 3.5 Live Translate?
O Gemini 3.5 Live Translate é o modelo de áudio do Google para tradução de fala para fala quase em tempo real em mais de 70 idiomas. Anunciado em 9 de junho de 2026, ele escuta o áudio falado e devolve a tradução falada de forma contínua, mantendo a entonação e o ritmo de quem fala. Ele aparece no app Google Translate, no Google Meet e por meio da Gemini Live API. Se o seu objetivo é o suporte escrito em vez de fala ao vivo, um agente de IA para atendimento ao cliente é a opção mais adequada.
O Gemini 3.5 Live Translate é gratuito?
Para os consumidores, o recurso Live translate está sendo lançado dentro do app gratuito Google Translate no Android e no iOS. Para os desenvolvedores, ele funciona pela Gemini Live API paga, que é cobrada por uso de tokens em vez de um preço fixo. As equipes que comparam o custo operacional de recursos de voz com a automação de texto costumam começar pela nossa análise sobre economia de custos no suporte ao cliente com IA.
Quantos idiomas o Gemini 3.5 Live Translate suporta?
O modelo detecta e traduz automaticamente em mais de 70 idiomas. No Google Meet especificamente, isso é um salto a partir de um limite anterior de apenas cinco idiomas, desbloqueando mais de 2.000 combinações de idiomas em uma única reunião. Para canais escritos, ferramentas como um chatbot de base de conhecimento com IA podem responder em dezenas de idiomas a partir da sua documentação existente.
Quão preciso é o Gemini 3.5 Live Translate?
Ele é forte em fala de som natural e fluência de conversa, mas os primeiros testadores relatam um processamento mais fraco de áudio de origem não inglês, detecção de turnos instável e erros de tradução ocasionais em frases simples. Para respostas críticas para o negócio, muitas equipes preferem um fluxo de trabalho de texto revisável, como um chatbot de atendimento ao cliente com IA, em vez de voz ao vivo sem supervisão. Veja nossa opinião sobre IA conversacional para entender onde cada uma se encaixa.
Posso usar o Gemini 3.5 Live Translate para atendimento ao cliente?
Ele pode ajudar em conversas faladas ao vivo, como ligações telefônicas ou reuniões em vídeo, mas a maior parte do suporte acontece em tickets e chats escritos que precisam de supervisão e precisão. Para isso, uma IA para atendimento ao cliente dedicada que redige e resolve tickets em mais de 80 idiomas, como a eesel, costuma ser a melhor resposta do que a tradução de voz ao vivo.

Share this article

Riellvriany Indriawan

Article by

Riellvriany Indriawan

Riell is a designer and writer at eesel AI with about two years of experience researching CX platforms, AI chatbots, and helpdesk software. She combines her design background with a sharp eye for how these tools actually look and feel in practice — making her comparisons unusually visual and user-focused.

Related Posts

All posts →
Ilustração contrastando um chatbot de IA respondendo a uma pergunta com um agente de IA conectado ao Slack, e-mail e ferramentas de tickets
AI

Agentes de IA vs. chatbots de IA: a diferença real e quando usar cada um

Agentes de IA vs. chatbots de IA: os chatbots respondem perguntas, os agentes realizam ações e encerram tickets. Aqui está a diferença real e quando recorrer a cada um.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Ilustração em linha de um agente de suporte conversando com pessoas em diferentes idiomas através de um balão de fala em forma de globo
AI for business

Tradução com IA em tempo real para empresas: como funciona de verdade em 2026

A tradução com IA em tempo real para empresas explicada: onde as empresas a usam, como ela lida com o suporte em qualquer idioma e o que verificar antes de confiar nela.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Ilustração do assistente Siri AI do Apple Intelligence integrado com fluxos de trabalho de software empresarial
AI

Apple Intelligence para empresas: o que realmente faz (e não faz) em 2026

Uma análise objetiva do Apple Intelligence para empresas em 2026: o novo Siri AI, o framework gratuito para desenvolvedores e onde ele deixa de ser útil para o suporte ao cliente.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Ilustracao de um telefone a executar o novo Siri AI conversacional no Apple Intelligence no iOS 27
AI

O que é o Apple Intelligence no iOS 27? Um guia direto

Um guia direto sobre o Apple Intelligence no iOS 27: o Siri AI reconstruído, a ligação ao Google, o que realmente é novo e o que isso significa para as equipas de suporte.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Ilustracao editorial do Claude Opus 4.8 para uso empresarial
AI

Claude Opus 4.8 para empresas: o que muda e o que não muda

Claude Opus 4.8 é o modelo principal da Anthropic. Uma leitura prática da perspectiva do operador: o que significa para o seu negócio, quanto custa e onde fica aquém.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Ilustração editorial do Claude Opus 4.8, o modelo de IA principal da Anthropic
AI

O que é o Claude Opus 4.8? Uma análise objetiva do modelo principal da Anthropic

Claude Opus 4.8 é o mais recente modelo principal da Anthropic. Veja o que mudou, quanto custa e o que um modelo mais inteligente significa para o suporte ao cliente com IA.

Riellvriany IndriawanRiellvriany IndriawanJun 17, 2026
Ilustração do Claude Fable 5 trabalhando como um colega de equipe autônomo de longa duração para uma equipe empresarial
AI

Claude Fable 5 para empresas: o que o modelo mais poderoso da Anthropic realmente significa para a sua equipe

Um olhar lúcido sobre o Claude Fable 5 para empresas: quanto custa, onde brilha, onde tropeça e como realmente colocá-lo para trabalhar no atendimento ao cliente.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Ilustracao de ruido disperso e blocos mascarados que se transformam em linhas limpas de texto, com um cronometro sinalizando velocidade
AI

Modelos de IA baseados em difusao explicados: como funcionam e por que de repente sao tao rapidos

Um guia acessivel sobre modelos de IA baseados em difusao: como se diferenciam dos LLMs autorregressivos, por que geram texto 10x mais rapido e o que isso significa para as empresas.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Ilustração de tokens de texto embaralhados que se resolvem em texto limpo e legível, representando a remoção de ruído em paralelo do DiffusionGemma
AI

O que é o DiffusionGemma? O LLM de difusão de pesos abertos do Google, explicado

O DiffusionGemma é o modelo de difusão de texto de pesos abertos do Google: um Mixture-of-Experts de 26B que escreve blocos inteiros de texto em paralelo para uma geração até 4x mais rápida.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026

Pronto para contratar seu colega de IA?

Configure em minutos. Sem cartão de crédito necessário.

Comece grátis