
O que é o Gemini 3.5 Live Translate?
O Gemini 3.5 Live Translate é um modelo de tradução de fala para fala do Google. Você fala em um idioma e ele responde falando em outro, quase em tempo real, sem que você precise tocar em um botão entre os turnos. O Google o descreve como «nosso modelo de áudio mais recente, que oferece tradução de fala para fala quase em tempo real em mais de 70 idiomas».
A parte que faz as pessoas prestarem atenção é o quão natural ele soa. O modelo «gera uma fala traduzida fluida e de som natural que preserva a entonação, o ritmo e o tom de quem fala», de modo que a voz traduzida continua subindo e descendo como a do falante original, em vez de se achatar em uma leitura robótica. Ele também detecta o idioma por conta própria, então você não precisa dizer se a pessoa do outro lado da mesa fala espanhol ou tagalo.
Uma observação sobre o nome que vale a pena entender direito, porque confunde as pessoas: o recurso «Live translate» no app Google Translate na verdade foi lançado lá em agosto de 2025, com uma beta baseada em fones de ouvido em dezembro de 2025. O que mudou em junho de 2026 é o motor por baixo: o Google trocou pelo novo modelo 3.5 Live Translate. E, apesar do selo «3.5», o cartão do modelo da DeepMind diz que o modelo é baseado no Gemini 3 Pro, um modelo de áudio dedicado com uma janela de contexto de áudio de 128K tokens, não o nível Flash menor.
Como o Gemini 3.5 Live Translate funciona
A maioria dos apps de tradução que você já usou funciona como uma corrida de revezamento: eles convertem sua fala em texto, traduzem o texto e depois leem o texto de volta com outra voz. Isso funciona, mas é por isso que ferramentas mais antigas parecem truncadas: você tem que terminar de falar e então esperar por três repasses antes de qualquer coisa sair.
O Gemini 3.5 Live Translate pula o revezamento. Ele usa áudio nativo, o que significa que um único modelo recebe o som bruto e produz som traduzido. Como ele nunca descarta o áudio para convertê-lo primeiro em texto, consegue manter os detalhes acústicos, o tom, o ritmo, a altura, que um pipeline de texto descartaria. As transcrições são um complemento opcional, não o mecanismo.
O segundo truque é que ele traduz de forma contínua, em vez de turno por turno. Em vez de esperar por uma frase completa, ele «gera fala continuamente, equilibrando o trade-off entre esperar pelo contexto para melhorar a qualidade e traduzir imediatamente para se manter em sincronia com quem fala». Essa é a diferença entre uma conversa e um walkie-talkie.

Nos bastidores, para os desenvolvedores, ele roda sobre a Live API, uma conexão WebSocket com estado que transmite áudio nos dois sentidos. Você ativa a tradução enviando uma translationConfig com um código de idioma de destino e depois canaliza o áudio como PCM mono de 16 kHz em blocos de 100 ms. As sessões somente de áudio são limitadas a 15 minutos, a menos que você as estenda, e cada trecho de áudio gerado carrega uma marca-d'água SynthID imperceptível para que possa ser identificado depois como criado por IA. É a mesma família de tecnologia de voz de baixa latência por trás do assistente Gemini mais amplo, apenas ajustada puramente para tradução, sem ferramentas ou conversa fiada anexadas.
Onde você pode realmente usá-lo
O Google está disponibilizando o 3.5 Live Translate em três trilhas separadas, e qual delas importa para você depende inteiramente de se você é viajante, equipe ou desenvolvedor.

- Consumidores o recebem dentro do app Google Translate no Android e no iOS. Você abre o app, toca em Live translate, escolhe seus dois idiomas e começa a falar. No Android também há um novo modo de escuta que transmite a tradução direto para o fone de ouvido do seu celular, então você o segura junto ao ouvido como em uma ligação normal.
- Equipes o recebem no Google Meet, onde é um grande salto. A tradução de fala do Meet vai «do limite anterior de apenas cinco idiomas» para mais de 70, habilitando mais de 2.000 combinações de idiomas em uma reunião. Está em prévia privada primeiro para clientes empresariais do Workspace.
- Desenvolvedores recebem a Gemini Live API e o Google AI Studio em prévia pública, sob o ID de modelo
gemini-3.5-live-translate-preview. A infraestrutura de mídia em tempo real costuma ser gerenciada por parceiros como LiveKit, Pipecat e Agora.
Os sinais de escala por trás disso também são reais. O Google diz que a Grab está testando o modelo para a comunicação entre motorista e viajante entre usuários que fazem mais de 10 milhões de chamadas de voz por mês, o que mostra para onde isso está indo: incorporado dentro dos apps de outras empresas, não apenas como um tradutor independente.
Gemini 3.5 Live Translate em resumo
| Dimensão | Detalhe |
|---|---|
| Modelo | gemini-3.5-live-translate-preview, baseado no Gemini 3 Pro |
| O que ele faz | Fala para fala, áudio de entrada / áudio de saída |
| Idiomas | Mais de 70 com detecção automática |
| Latência | Alguns segundos atrás de quem fala |
| Estilo | Preserva entonação, ritmo e tom |
| Onde | App Google Translate, Google Meet, Live API |
| Disponibilidade | Lançamento para consumidores; prévias para desenvolvedores + Meet |
| Marca-d'água | SynthID em todo o áudio |
Como é usá-lo de verdade
É aqui que o marketing e a realidade começam a divergir, e vale a pena ser honesto sobre os dois, porque a lacuna é a história toda.
No lado bom, quando funciona, parece diferente das ferramentas de tradução mais antigas. Um entusiasta resumiu o apelo após o lançamento:
Real time speech to speech translation. Over 70 languages. No waiting. No awkward pauses. No robotic stop and start conversations. Just speak naturally and hear the translation almost instantly.
Mas as mesmas threads estão cheias de gente esbarrando em paredes. A reclamação mais constante é a alternância de turnos: como o modelo traduz continuamente, às vezes ele não sabe quando você parou. Um desenvolvedor que constrói ferramentas de interpretação em tempo real colocou de forma direta:
first the understanding of what is spoken is not very good [...] Second it doesn't have and end sentence tag so you can talk and never hear the end because it doesn't know you finished speaking only after you start speaking again or finish the session. It could be a good AI but needs more work and refining from Google.
Há também um teto de atrito social que é fácil ignorar em uma demonstração. Um avaliador de tecnologia que o testou em conversas reais observou no LinkedIn que funciona melhor quando todos na sala usam a mesma ferramenta:
Live AI translation sounds perfect until you're actually in a conversation with other people [...] I think it's a bit hard to use in a social scenario unless all participants are using it [...] Multi-person conversations still feel like they're at the edge of progress.
Quão bom ele é, de verdade?
Duas coisas são verdadeiras ao mesmo tempo. As melhorias de tradução mais amplas do Google alcançam qualidade de texto de ponta no benchmark WMT25, e a saída de voz natural é um avanço claro. Mas a tradução de voz ao vivo em toda a indústria ainda comete erros que a tradução de texto não cometeria, e alguns deles são graves.
Um exemplo revelador veio de alguém que testou a tradução de voz ao vivo no mesmo ecossistema do Google (Google Meet), que a comparou em um teste A/B contra o app Translate com uma frase de viagem simples:
The voices sounded authentic but I was shocked at how inaccurate some of the translations were. Far worse than what even Google Translate is capable of. For example: English speaker: "Are you going to take care of the hotel reservations and flights?" Live translation: "Vas a cuidar de los pescadores y peleas?" ("Are you going to take care of the fishermen and fights?")
A própria documentação do Google também é refrescantemente franca sobre as arestas. A replicação de voz «pode ser inconsistente», com vozes mudando após longas pausas ou travando durante trocas rápidas entre vários falantes, e a detecção de idioma «tem dificuldade com sotaques fortes, idiomas semelhantes (por exemplo, espanhol vs. português) ou trocas rápidas de idioma». Então a leitura honesta: brilhante para conversas casuais e tolerantes, arriscado para qualquer coisa em que uma palavra errada custe caro. Essa distinção importa muito assim que você começa a pensar em usá-lo para o trabalho.
Tradução de voz ao vivo vs. atendimento ao cliente multilíngue
Aqui está o reenquadramento que a maioria da cobertura ignora. O Gemini 3.5 Live Translate é feito para conversas faladas, ao vivo: duas pessoas conversando, uma reunião, uma ligação telefônica. Esse é um problema real e útil de resolver. Mas não é o formato da maior parte do atendimento ao cliente.
O suporte é majoritariamente escrito e assíncrono: tickets, e-mails, mensagens de chat, perguntas da central de ajuda, que muitas vezes chegam durante a noite enquanto sua equipe dorme. Um tradutor de voz ao vivo não ajuda com um e-mail em alemão parado na sua fila do Zendesk, e você nunca iria querer uma saída de voz sem supervisão, e ocasionalmente errada, falando em nome da sua marca para um cliente que paga. As habilidades quase não se sobrepõem.

Se o suporte multilíngue é o seu objetivo real, a melhor categoria é um agente de IA para atendimento ao cliente que lê seus documentos de ajuda e tickets anteriores, redige respostas e resolve o que é fácil, em qualquer idioma em que o cliente tenha escrito. Esse é um problema de IA conversacional com um humano no circuito, não um problema de áudio em tempo real. É também onde a conta de custos tende a favorecer a deflexão de nível 1 em vez de contratar agentes multilíngues, e onde um chatbot de base de conhecimento com IA faz por merecer. Se você está avaliando a categoria mais ampla, nosso guia sobre IA para atendimento ao cliente e o resumo de software de atendimento ao cliente com IA são boas paradas seguintes.
Experimente a eesel
O Gemini 3.5 Live Translate é a ferramenta certa quando a conversa acontece em voz alta, ao vivo, no momento. Quando a conversa é a sua caixa de entrada de suporte, a eesel é feita para isso: um agente de helpdesk com IA que aprende com seus tickets anteriores e documentos de ajuda, redige e resolve o suporte em mais de 80 idiomas prontos para uso e se conecta diretamente ao helpdesk que você já usa.
A diferença é a supervisão e a escala no trabalho escrito. Um cliente da eesel, a Smava, opera um agente totalmente automatizado que lida com mais de 100.000 tickets de suporte em alemão por mês, o tipo de volume multilíngue e sempre ativo que um tradutor de voz ao vivo nunca foi feito para tocar. Você mantém o controle sobre o que ele pode responder e pode aumentar a autonomia gradualmente.

Se o seu problema de «tradução» é, na verdade, um problema de suporte multilíngue, experimente a eesel e veja quanto da sua fila ela consegue resolver antes que um humano precise intervir.
Perguntas frequentes
O que é o Gemini 3.5 Live Translate?
O Gemini 3.5 Live Translate é gratuito?
Quantos idiomas o Gemini 3.5 Live Translate suporta?
Quão preciso é o Gemini 3.5 Live Translate?
Posso usar o Gemini 3.5 Live Translate para atendimento ao cliente?

Article by
Riellvriany Indriawan
Riell is a designer and writer at eesel AI with about two years of experience researching CX platforms, AI chatbots, and helpdesk software. She combines her design background with a sharp eye for how these tools actually look and feel in practice — making her comparisons unusually visual and user-focused.








