Blog / AI

O que é o Gemini 3.5 Live Translate?

Escrito por

Riellvriany Indriawan

Revisado por

Katelin Teen

Última edição June 17, 2026

Verificado por especialista

Duas pessoas falando idiomas diferentes com uma onda sonora ao vivo conectando-as, ilustrando o Gemini 3.5 Live Translate

TL;DR

O Gemini 3.5 Live Translate é o modelo de áudio do Google para tradução de fala para fala quase em tempo real em mais de 70 idiomas, anunciado em 9 de junho de 2026. Em vez de esperar você terminar uma frase, ele escuta e fala a tradução de forma contínua, ficando apenas alguns segundos atrás de quem fala e mantendo o tom e o ritmo da pessoa.

Você vai encontrá-lo em três lugares: o app gratuito Google Translate, o Google Meet para reuniões ao vivo e a Gemini Live API para desenvolvedores. É impressionante para viagens e conversas casuais, mas os primeiros testadores apontam lacunas reais de precisão e de alternância de turnos, então não é um substituto direto de um intérprete nem, mais importante, da sua fila de suporte. Para suporte escrito em dezenas de idiomas, um agente de IA para atendimento ao cliente revisável é a opção mais adequada do que a tradução de voz ao vivo.

O que é o Gemini 3.5 Live Translate?

O Gemini 3.5 Live Translate é um modelo de tradução de fala para fala do Google. Você fala em um idioma e ele responde falando em outro, quase em tempo real, sem que você precise tocar em um botão entre os turnos. O Google o descreve como «nosso modelo de áudio mais recente, que oferece tradução de fala para fala quase em tempo real em mais de 70 idiomas».

A parte que faz as pessoas prestarem atenção é o quão natural ele soa. O modelo «gera uma fala traduzida fluida e de som natural que preserva a entonação, o ritmo e o tom de quem fala», de modo que a voz traduzida continua subindo e descendo como a do falante original, em vez de se achatar em uma leitura robótica. Ele também detecta o idioma por conta própria, então você não precisa dizer se a pessoa do outro lado da mesa fala espanhol ou tagalo.

Uma observação sobre o nome que vale a pena entender direito, porque confunde as pessoas: o recurso «Live translate» no app Google Translate na verdade foi lançado lá em agosto de 2025, com uma beta baseada em fones de ouvido em dezembro de 2025. O que mudou em junho de 2026 é o motor por baixo: o Google trocou pelo novo modelo 3.5 Live Translate. E, apesar do selo «3.5», o cartão do modelo da DeepMind diz que o modelo é baseado no Gemini 3 Pro, um modelo de áudio dedicado com uma janela de contexto de áudio de 128K tokens, não o nível Flash menor.

Página oficial do anúncio do Gemini 3.5 Live Translate do Google, retirada do blog Keyword

Como o Gemini 3.5 Live Translate funciona

A maioria dos apps de tradução que você já usou funciona como uma corrida de revezamento: eles convertem sua fala em texto, traduzem o texto e depois leem o texto de volta com outra voz. Isso funciona, mas é por isso que ferramentas mais antigas parecem truncadas: você tem que terminar de falar e então esperar por três repasses antes de qualquer coisa sair.

O Gemini 3.5 Live Translate pula o revezamento. Ele usa áudio nativo, o que significa que um único modelo recebe o som bruto e produz som traduzido. Como ele nunca descarta o áudio para convertê-lo primeiro em texto, consegue manter os detalhes acústicos, o tom, o ritmo, a altura, que um pipeline de texto descartaria. As transcrições são um complemento opcional, não o mecanismo.

O segundo truque é que ele traduz de forma contínua, em vez de turno por turno. Em vez de esperar por uma frase completa, ele «gera fala continuamente, equilibrando o trade-off entre esperar pelo contexto para melhorar a qualidade e traduzir imediatamente para se manter em sincronia com quem fala». Essa é a diferença entre uma conversa e um walkie-talkie.

Como o Gemini 3.5 Live Translate substitui a antiga corrida de revezamento de fala para texto, tradução e texto para fala por um único modelo de áudio nativo contínuo

Nos bastidores, para os desenvolvedores, ele roda sobre a Live API, uma conexão WebSocket com estado que transmite áudio nos dois sentidos. Você ativa a tradução enviando uma translationConfig com um código de idioma de destino e depois canaliza o áudio como PCM mono de 16 kHz em blocos de 100 ms. As sessões somente de áudio são limitadas a 15 minutos, a menos que você as estenda, e cada trecho de áudio gerado carrega uma marca-d'água SynthID imperceptível para que possa ser identificado depois como criado por IA. É a mesma família de tecnologia de voz de baixa latência por trás do assistente Gemini mais amplo, apenas ajustada puramente para tradução, sem ferramentas ou conversa fiada anexadas.

Onde você pode realmente usá-lo

O Google está disponibilizando o 3.5 Live Translate em três trilhas separadas, e qual delas importa para você depende inteiramente de se você é viajante, equipe ou desenvolvedor.

As três formas de usar o Gemini 3.5 Live Translate: o app Google Translate para consumidores, o Google Meet para equipes e a Live API para desenvolvedores

Consumidores o recebem dentro do app Google Translate no Android e no iOS. Você abre o app, toca em Live translate, escolhe seus dois idiomas e começa a falar. No Android também há um novo modo de escuta que transmite a tradução direto para o fone de ouvido do seu celular, então você o segura junto ao ouvido como em uma ligação normal.
Equipes o recebem no Google Meet, onde é um grande salto. A tradução de fala do Meet vai «do limite anterior de apenas cinco idiomas» para mais de 70, habilitando mais de 2.000 combinações de idiomas em uma reunião. Está em prévia privada primeiro para clientes empresariais do Workspace.
Desenvolvedores recebem a Gemini Live API e o Google AI Studio em prévia pública, sob o ID de modelo gemini-3.5-live-translate-preview. A infraestrutura de mídia em tempo real costuma ser gerenciada por parceiros como LiveKit, Pipecat e Agora.

Os sinais de escala por trás disso também são reais. O Google diz que a Grab está testando o modelo para a comunicação entre motorista e viajante entre usuários que fazem mais de 10 milhões de chamadas de voz por mês, o que mostra para onde isso está indo: incorporado dentro dos apps de outras empresas, não apenas como um tradutor independente.

Gemini 3.5 Live Translate em resumo

Dimensão	Detalhe
Modelo	`gemini-3.5-live-translate-preview`, baseado no Gemini 3 Pro
O que ele faz	Fala para fala, áudio de entrada / áudio de saída
Idiomas	Mais de 70 com detecção automática
Latência	Alguns segundos atrás de quem fala
Estilo	Preserva entonação, ritmo e tom
Onde	App Google Translate, Google Meet, Live API
Disponibilidade	Lançamento para consumidores; prévias para desenvolvedores + Meet
Marca-d'água	SynthID em todo o áudio

Como é usá-lo de verdade

É aqui que o marketing e a realidade começam a divergir, e vale a pena ser honesto sobre os dois, porque a lacuna é a história toda.

No lado bom, quando funciona, parece diferente das ferramentas de tradução mais antigas. Um entusiasta resumiu o apelo após o lançamento:

Real time speech to speech translation. Over 70 languages. No waiting. No awkward pauses. No robotic stop and start conversations. Just speak naturally and hear the translation almost instantly.

u/Grewup01 on r/GoogleGemini

Mas as mesmas threads estão cheias de gente esbarrando em paredes. A reclamação mais constante é a alternância de turnos: como o modelo traduz continuamente, às vezes ele não sabe quando você parou. Um desenvolvedor que constrói ferramentas de interpretação em tempo real colocou de forma direta:

first the understanding of what is spoken is not very good [...] Second it doesn't have and end sentence tag so you can talk and never hear the end because it doesn't know you finished speaking only after you start speaking again or finish the session. It could be a good AI but needs more work and refining from Google.

u/nolovefullownership on r/GoogleGemini

Há também um teto de atrito social que é fácil ignorar em uma demonstração. Um avaliador de tecnologia que o testou em conversas reais observou no LinkedIn que funciona melhor quando todos na sala usam a mesma ferramenta:

Live AI translation sounds perfect until you're actually in a conversation with other people [...] I think it's a bit hard to use in a social scenario unless all participants are using it [...] Multi-person conversations still feel like they're at the edge of progress.

Quão bom ele é, de verdade?

Duas coisas são verdadeiras ao mesmo tempo. As melhorias de tradução mais amplas do Google alcançam qualidade de texto de ponta no benchmark WMT25, e a saída de voz natural é um avanço claro. Mas a tradução de voz ao vivo em toda a indústria ainda comete erros que a tradução de texto não cometeria, e alguns deles são graves.

Um exemplo revelador veio de alguém que testou a tradução de voz ao vivo no mesmo ecossistema do Google (Google Meet), que a comparou em um teste A/B contra o app Translate com uma frase de viagem simples:

The voices sounded authentic but I was shocked at how inaccurate some of the translations were. Far worse than what even Google Translate is capable of. For example: English speaker: "Are you going to take care of the hotel reservations and flights?" Live translation: "Vas a cuidar de los pescadores y peleas?" ("Are you going to take care of the fishermen and fights?")

u/de_cachondeo on r/TranslationStudies

A própria documentação do Google também é refrescantemente franca sobre as arestas. A replicação de voz «pode ser inconsistente», com vozes mudando após longas pausas ou travando durante trocas rápidas entre vários falantes, e a detecção de idioma «tem dificuldade com sotaques fortes, idiomas semelhantes (por exemplo, espanhol vs. português) ou trocas rápidas de idioma». Então a leitura honesta: brilhante para conversas casuais e tolerantes, arriscado para qualquer coisa em que uma palavra errada custe caro. Essa distinção importa muito assim que você começa a pensar em usá-lo para o trabalho.

Tradução de voz ao vivo vs. atendimento ao cliente multilíngue

Aqui está o reenquadramento que a maioria da cobertura ignora. O Gemini 3.5 Live Translate é feito para conversas faladas, ao vivo: duas pessoas conversando, uma reunião, uma ligação telefônica. Esse é um problema real e útil de resolver. Mas não é o formato da maior parte do atendimento ao cliente.

O suporte é majoritariamente escrito e assíncrono: tickets, e-mails, mensagens de chat, perguntas da central de ajuda, que muitas vezes chegam durante a noite enquanto sua equipe dorme. Um tradutor de voz ao vivo não ajuda com um e-mail em alemão parado na sua fila do Zendesk, e você nunca iria querer uma saída de voz sem supervisão, e ocasionalmente errada, falando em nome da sua marca para um cliente que paga. As habilidades quase não se sobrepõem.

A tradução de voz ao vivo serve para conversas faladas em tempo real, enquanto a automação de suporte multilíngue serve para tickets e chats escritos em mais de 80 idiomas

Se o suporte multilíngue é o seu objetivo real, a melhor categoria é um agente de IA para atendimento ao cliente que lê seus documentos de ajuda e tickets anteriores, redige respostas e resolve o que é fácil, em qualquer idioma em que o cliente tenha escrito. Esse é um problema de IA conversacional com um humano no circuito, não um problema de áudio em tempo real. É também onde a conta de custos tende a favorecer a deflexão de nível 1 em vez de contratar agentes multilíngues, e onde um chatbot de base de conhecimento com IA faz por merecer. Se você está avaliando a categoria mais ampla, nosso guia sobre IA para atendimento ao cliente e o resumo de software de atendimento ao cliente com IA são boas paradas seguintes.

Experimente a eesel

O Gemini 3.5 Live Translate é a ferramenta certa quando a conversa acontece em voz alta, ao vivo, no momento. Quando a conversa é a sua caixa de entrada de suporte, a eesel é feita para isso: um agente de helpdesk com IA que aprende com seus tickets anteriores e documentos de ajuda, redige e resolve o suporte em mais de 80 idiomas prontos para uso e se conecta diretamente ao helpdesk que você já usa.

A diferença é a supervisão e a escala no trabalho escrito. Um cliente da eesel, a Smava, opera um agente totalmente automatizado que lida com mais de 100.000 tickets de suporte em alemão por mês, o tipo de volume multilíngue e sempre ativo que um tradutor de voz ao vivo nunca foi feito para tocar. Você mantém o controle sobre o que ele pode responder e pode aumentar a autonomia gradualmente.

Visão geral do painel de helpdesk com IA da eesel, onde um agente de IA redige e resolve tickets de suporte em mais de 80 idiomas

Se o seu problema de «tradução» é, na verdade, um problema de suporte multilíngue, experimente a eesel e veja quanto da sua fila ela consegue resolver antes que um humano precise intervir.

Perguntas frequentes

O que é o Gemini 3.5 Live Translate?

O Gemini 3.5 Live Translate é o modelo de áudio do Google para tradução de fala para fala quase em tempo real em mais de 70 idiomas. Anunciado em 9 de junho de 2026, ele escuta o áudio falado e devolve a tradução falada de forma contínua, mantendo a entonação e o ritmo de quem fala. Ele aparece no app Google Translate, no Google Meet e por meio da Gemini Live API. Se o seu objetivo é o suporte escrito em vez de fala ao vivo, um agente de IA para atendimento ao cliente é a opção mais adequada.

O Gemini 3.5 Live Translate é gratuito?

Para os consumidores, o recurso Live translate está sendo lançado dentro do app gratuito Google Translate no Android e no iOS. Para os desenvolvedores, ele funciona pela Gemini Live API paga, que é cobrada por uso de tokens em vez de um preço fixo. As equipes que comparam o custo operacional de recursos de voz com a automação de texto costumam começar pela nossa análise sobre economia de custos no suporte ao cliente com IA.

Quantos idiomas o Gemini 3.5 Live Translate suporta?

O modelo detecta e traduz automaticamente em mais de 70 idiomas. No Google Meet especificamente, isso é um salto a partir de um limite anterior de apenas cinco idiomas, desbloqueando mais de 2.000 combinações de idiomas em uma única reunião. Para canais escritos, ferramentas como um chatbot de base de conhecimento com IA podem responder em dezenas de idiomas a partir da sua documentação existente.

Quão preciso é o Gemini 3.5 Live Translate?

Ele é forte em fala de som natural e fluência de conversa, mas os primeiros testadores relatam um processamento mais fraco de áudio de origem não inglês, detecção de turnos instável e erros de tradução ocasionais em frases simples. Para respostas críticas para o negócio, muitas equipes preferem um fluxo de trabalho de texto revisável, como um chatbot de atendimento ao cliente com IA, em vez de voz ao vivo sem supervisão. Veja nossa opinião sobre IA conversacional para entender onde cada uma se encaixa.

Posso usar o Gemini 3.5 Live Translate para atendimento ao cliente?

Ele pode ajudar em conversas faladas ao vivo, como ligações telefônicas ou reuniões em vídeo, mas a maior parte do suporte acontece em tickets e chats escritos que precisam de supervisão e precisão. Para isso, uma IA para atendimento ao cliente dedicada que redige e resolve tickets em mais de 80 idiomas, como a eesel, costuma ser a melhor resposta do que a tradução de voz ao vivo.

Contrate seu colega de IA

Configure em minutos. Sem cartão de crédito.

Teste grátis Agendar demo

Share this article

Article by

Riellvriany Indriawan

Riell is a designer and writer at eesel AI with about two years of experience researching CX platforms, AI chatbots, and helpdesk software. She combines her design background with a sharp eye for how these tools actually look and feel in practice — making her comparisons unusually visual and user-focused.