¿Qué es Gemini 3.5 Live Translate?

Riellvriany Indriawan
Escrito por

Riellvriany Indriawan

Katelin Teen
Revisado por

Katelin Teen

Última edición June 17, 2026

Verificado por expertos
Dos personas hablando idiomas diferentes con una onda de sonido en vivo que las conecta, ilustrando Gemini 3.5 Live Translate

¿Qué es Gemini 3.5 Live Translate?

Gemini 3.5 Live Translate es un modelo de traducción de voz a voz de Google. Hablas en un idioma y responde hablando en otro, casi en tiempo real, sin que tengas que pulsar un botón entre turnos. Google lo describe como «nuestro modelo de audio más reciente, que ofrece traducción de voz a voz casi en tiempo real en más de 70 idiomas».

La parte que hace que la gente preste atención es lo natural que suena. El modelo «genera un habla traducida fluida y de sonido natural que conserva la entonación, el ritmo y el tono de quienes hablan», de modo que la voz traducida sigue subiendo y bajando como la del hablante original en lugar de aplanarse en una lectura robótica. También detecta el idioma por sí mismo, así que no tienes que decirle si la persona al otro lado de la mesa habla español o tagalo.

Una nota sobre el nombre que conviene tener clara, porque despista a la gente: la función «Live translate» de la app de Google Translate en realidad se lanzó allá por agosto de 2025, con una beta basada en auriculares en diciembre de 2025. Lo que cambió en junio de 2026 es el motor por debajo: Google incorporó el nuevo modelo 3.5 Live Translate. Y a pesar de la etiqueta «3.5», la ficha del modelo de DeepMind dice que el modelo se basa en Gemini 3 Pro, un modelo de audio dedicado con una ventana de contexto de audio de 128K tokens, no el nivel Flash más pequeño.

Página oficial del anuncio de Gemini 3.5 Live Translate de Google, tomada del blog Keyword

Cómo funciona Gemini 3.5 Live Translate

La mayoría de las apps de traducción que has usado funcionan como una carrera de relevos: convierten tu voz en texto, traducen el texto y luego lo leen en voz alta con otra voz. Eso funciona, pero es la razón por la que las herramientas más antiguas se sienten a trompicones: tienes que terminar de hablar y luego esperar a través de tres traspasos antes de que salga nada.

Gemini 3.5 Live Translate se salta el relevo. Usa audio nativo, lo que significa que un solo modelo toma el sonido en bruto y produce sonido traducido. Como nunca descarta el audio para convertirlo primero en texto, puede conservar el detalle acústico, el tono, el ritmo, el tono de voz, que una canalización de texto descartaría. Las transcripciones son un complemento opcional, no el mecanismo.

El segundo truco es que traduce de forma continua en lugar de turno por turno. En lugar de esperar a una frase completa, «genera voz de forma continua, equilibrando la disyuntiva entre esperar el contexto para mejorar la calidad y traducir de inmediato para mantenerse sincronizado con quien habla». Esa es la diferencia entre una conversación y un walkie-talkie.

Cómo Gemini 3.5 Live Translate reemplaza la antigua carrera de relevos de voz a texto, traducción y texto a voz por un único modelo de audio nativo continuo
Cómo Gemini 3.5 Live Translate reemplaza la antigua carrera de relevos de voz a texto, traducción y texto a voz por un único modelo de audio nativo continuo

Por dentro, para los desarrolladores, funciona sobre la Live API, una conexión WebSocket con estado que transmite audio en ambos sentidos. Activas la traducción enviando una translationConfig con un código de idioma de destino y luego canalizas el audio como PCM mono a 16 kHz en fragmentos de 100 ms. Las sesiones de solo audio están limitadas a 15 minutos a menos que las extiendas, y cada fragmento de audio generado lleva una marca de agua SynthID imperceptible para que más adelante pueda identificarse como creado por IA. Es la misma familia de tecnología de voz de baja latencia que hay detrás del asistente Gemini más amplio, solo que ajustada puramente para la traducción, sin herramientas ni charla adjuntas.

Dónde puedes usarlo de verdad

Google está lanzando 3.5 Live Translate en tres vías separadas, y cuál te importa depende por completo de si eres viajero, equipo o desarrollador.

Las tres formas de usar Gemini 3.5 Live Translate: la app de Google Translate para consumidores, Google Meet para equipos y la Live API para desarrolladores
Las tres formas de usar Gemini 3.5 Live Translate: la app de Google Translate para consumidores, Google Meet para equipos y la Live API para desarrolladores

Las señales de escala detrás de esto también son reales. Google dice que Grab está probando el modelo para la comunicación entre conductor y viajero entre usuarios que hacen más de 10 millones de llamadas de voz al mes, lo que te indica hacia dónde va esto: integrado dentro de las apps de otras empresas, no solo como un traductor independiente.

Gemini 3.5 Live Translate de un vistazo

DimensiónDetalle
Modelogemini-3.5-live-translate-preview, basado en Gemini 3 Pro
Qué haceVoz a voz, audio de entrada / audio de salida
IdiomasMás de 70 con detección automática
LatenciaUnos segundos por detrás de quien habla
EstiloConserva entonación, ritmo y tono
DóndeApp de Google Translate, Google Meet, Live API
DisponibilidadDespliegue para consumidores; vistas previas para desarrolladores + Meet
Marca de aguaSynthID en todo el audio

Cómo es usarlo de verdad

Aquí es donde el marketing y la realidad empiezan a divergir, y vale la pena ser honesto sobre ambos, porque la brecha es toda la historia.

En el lado bueno, cuando funciona, se siente distinto de las herramientas de traducción más antiguas. Un entusiasta resumió el atractivo tras el lanzamiento:

Real time speech to speech translation. Over 70 languages. No waiting. No awkward pauses. No robotic stop and start conversations. Just speak naturally and hear the translation almost instantly.

Pero los mismos hilos están llenos de gente que choca contra muros. La queja más constante es la gestión de turnos: como el modelo traduce de forma continua, a veces no sabe cuándo has parado. Un desarrollador que construye herramientas de interpretación en tiempo real lo expresó sin rodeos:

first the understanding of what is spoken is not very good [...] Second it doesn't have and end sentence tag so you can talk and never hear the end because it doesn't know you finished speaking only after you start speaking again or finish the session. It could be a good AI but needs more work and refining from Google.

También hay un techo de fricción social que es fácil pasar por alto en una demo. Un crítico tecnológico que lo probó en conversaciones reales señaló en LinkedIn que funciona mejor cuando todos en la sala usan la misma herramienta:

Live AI translation sounds perfect until you're actually in a conversation with other people [...] I think it's a bit hard to use in a social scenario unless all participants are using it [...] Multi-person conversations still feel like they're at the edge of progress.

¿Qué tan bueno es, en realidad?

Dos cosas son ciertas a la vez. Las mejoras de traducción más amplias de Google obtienen calidad de texto de vanguardia en el benchmark WMT25, y la salida de voz natural es un claro avance. Pero la traducción de voz en vivo en toda la industria sigue cometiendo errores que la traducción de texto no cometería, y algunos de ellos son graves.

Un ejemplo revelador vino de alguien que probó la traducción de voz en vivo en el mismo ecosistema de Google (Google Meet), quien la comparó en un test A/B contra la app de Translate con una frase de viaje sencilla:

The voices sounded authentic but I was shocked at how inaccurate some of the translations were. Far worse than what even Google Translate is capable of. For example: English speaker: "Are you going to take care of the hotel reservations and flights?" Live translation: "Vas a cuidar de los pescadores y peleas?" ("Are you going to take care of the fishermen and fights?")

La propia documentación de Google también es refrescantemente franca sobre las asperezas. La replicación de voz «puede ser inconsistente», con voces que cambian tras pausas largas o que se atascan durante intercambios rápidos entre varios hablantes, y la detección de idioma «tiene dificultades con acentos marcados, idiomas similares (p. ej., español frente a portugués) o cambios rápidos de idioma». Así que la lectura honesta: brillante para conversaciones informales y tolerantes, arriesgado para cualquier cosa en la que una palabra equivocada te cueste caro. Esa distinción importa mucho en cuanto empiezas a pensar en usarlo para el trabajo.

Traducción de voz en vivo vs. atención al cliente multilingüe

Aquí está el replanteamiento que la mayoría de la cobertura se salta. Gemini 3.5 Live Translate está hecho para conversaciones habladas, en vivo: dos personas hablando, una reunión, una llamada telefónica. Ese es un problema real y útil de resolver. Pero no es la forma de la mayoría de la atención al cliente.

El soporte es en su mayoría escrito y asíncrono: tickets, correos electrónicos, mensajes de chat, preguntas del centro de ayuda, que a menudo llegan durante la noche mientras tu equipo duerme. Un traductor de voz en vivo no ayuda con un correo en alemán que está en tu cola de Zendesk, y nunca querrías que una salida de voz sin supervisión y a veces incorrecta hablara en nombre de tu marca a un cliente que paga. Las habilidades apenas se solapan.

La traducción de voz en vivo se adapta a las conversaciones habladas en tiempo real, mientras que la automatización de soporte multilingüe se adapta a tickets y chats escritos en más de 80 idiomas
La traducción de voz en vivo se adapta a las conversaciones habladas en tiempo real, mientras que la automatización de soporte multilingüe se adapta a tickets y chats escritos en más de 80 idiomas

Si el soporte multilingüe es tu verdadero objetivo, la mejor categoría es un agente de IA para atención al cliente que lee tus documentos de ayuda y tickets pasados, redacta respuestas y resuelve lo fácil, en cualquier idioma en que el cliente haya escrito. Ese es un problema de IA conversacional con un humano en el bucle, no uno de audio en tiempo real. También es donde las cuentas de costes tienden a favorecer la deflexión de nivel 1 frente a contratar agentes multilingües, y donde un chatbot de base de conocimiento con IA se gana su sueldo. Si estás sopesando la categoría más amplia, nuestra guía sobre IA para atención al cliente y el resumen de software de atención al cliente con IA son buenas paradas siguientes.

Prueba eesel

Gemini 3.5 Live Translate es la herramienta correcta cuando la conversación ocurre en voz alta, en vivo, en el momento. Cuando la conversación es tu bandeja de entrada de soporte, eesel está hecho para eso: un agente de mesa de ayuda con IA que aprende de tus tickets pasados y documentos de ayuda, redacta y resuelve soporte en más de 80 idiomas listo para usar y se conecta directamente a la mesa de ayuda que ya tienes.

La diferencia es la supervisión y la escala en el trabajo escrito. Un cliente de eesel, Smava, ejecuta un agente totalmente automatizado que gestiona más de 100.000 tickets de soporte en alemán al mes, el tipo de volumen multilingüe y siempre activo que un traductor de voz en vivo nunca estuvo destinado a tocar. Mantienes el control de lo que puede responder y puedes aumentar la autonomía gradualmente.

Vista general del panel de la mesa de ayuda con IA de eesel, donde un agente de IA redacta y resuelve tickets de soporte en más de 80 idiomas
Vista general del panel de la mesa de ayuda con IA de eesel, donde un agente de IA redacta y resuelve tickets de soporte en más de 80 idiomas

Si tu problema de «traducción» es en realidad un problema de soporte multilingüe, prueba eesel y comprueba cuánto de tu cola puede gestionar antes de que un humano intervenga.

Preguntas frecuentes

¿Qué es Gemini 3.5 Live Translate?
Gemini 3.5 Live Translate es el modelo de audio de Google para la traducción de voz a voz casi en tiempo real en más de 70 idiomas. Anunciado el 9 de junio de 2026, escucha el audio hablado y devuelve la traducción hablada de forma continua, conservando la entonación y el ritmo de quien habla. Aparece en la app de Google Translate, en Google Meet y a través de la Gemini Live API. Si tu objetivo es el soporte escrito en lugar de la voz en vivo, un agente de IA para atención al cliente encaja mejor.
¿Gemini 3.5 Live Translate es gratis?
Para los consumidores, la función Live translate se está desplegando dentro de la app gratuita de Google Translate en Android e iOS. Para los desarrolladores, funciona a través de la Gemini Live API de pago, que se cobra por uso de tokens en lugar de una tarifa fija. Los equipos que comparan el coste operativo de las funciones de voz frente a la automatización de texto suelen empezar con nuestro desglose sobre el ahorro de costes en soporte al cliente con IA.
¿Cuántos idiomas admite Gemini 3.5 Live Translate?
El modelo detecta y traduce automáticamente en más de 70 idiomas. En Google Meet en concreto, eso es un salto desde un límite anterior de solo cinco idiomas, lo que desbloquea más de 2.000 combinaciones de idiomas en una sola reunión. Para los canales escritos, herramientas como un chatbot de base de conocimiento con IA pueden responder en decenas de idiomas a partir de tu documentación existente.
¿Qué tan preciso es Gemini 3.5 Live Translate?
Es sólido con el habla de sonido natural y el flujo conversacional, pero los primeros evaluadores informan de un manejo más débil del audio de origen no inglés, una detección de turnos inestable y errores de traducción ocasionales en frases sencillas. Para respuestas críticas para el negocio, muchos equipos prefieren un flujo de trabajo de texto revisable como un chatbot de atención al cliente con IA antes que la voz en vivo sin supervisión. Consulta nuestra opinión sobre la IA conversacional para ver dónde encaja cada una.
¿Puedo usar Gemini 3.5 Live Translate para atención al cliente?
Puede ayudar con conversaciones habladas en vivo, como llamadas telefónicas o videorreuniones, pero la mayor parte del soporte ocurre en tickets y chats escritos que necesitan supervisión y precisión. Para eso, una IA para atención al cliente dedicada que redacta y resuelve tickets en más de 80 idiomas, como eesel, suele ser la mejor respuesta que la traducción de voz en vivo.

Share this article

Riellvriany Indriawan

Article by

Riellvriany Indriawan

Riell is a designer and writer at eesel AI with about two years of experience researching CX platforms, AI chatbots, and helpdesk software. She combines her design background with a sharp eye for how these tools actually look and feel in practice — making her comparisons unusually visual and user-focused.

Related Posts

All posts →
Ilustración que contrasta un chatbot de IA respondiendo una pregunta con un agente de IA conectado a Slack, correo electrónico y herramientas de tickets
AI

Agentes de IA vs. chatbots de IA: la diferencia real y cuándo usar cada uno

Agentes de IA vs. chatbots de IA: los chatbots responden preguntas, los agentes realizan acciones y cierran tickets. Aquí está la diferencia real y cuándo recurrir a cada uno.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Ilustración a línea de un agente de soporte hablando con personas en distintos idiomas a través de un bocadillo con forma de globo terráqueo
AI for business

Traducción con IA en tiempo real para empresas: cómo funciona de verdad en 2026

La traducción con IA en tiempo real para empresas explicada: dónde la usan las compañías, cómo gestiona el soporte en cualquier idioma y qué comprobar antes de confiar en ella.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Ilustración del asistente Siri AI de Apple Intelligence integrado con flujos de trabajo de software empresarial
AI

Apple Intelligence para empresas: lo que realmente hace (y no hace) en 2026

Un análisis objetivo de Apple Intelligence para empresas en 2026: el nuevo Siri AI, el framework gratuito para desarrolladores y dónde deja de ser útil para la atención al cliente.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Ilustración de un teléfono ejecutando el nuevo Siri AI conversacional en Apple Intelligence en iOS 27
AI

¿Qué es Apple Intelligence en iOS 27? Una guía directa

Una guía directa sobre Apple Intelligence en iOS 27: el Siri AI reconstruido, la conexión con Google, qué hay realmente de nuevo y qué significa para los equipos de soporte.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Ilustración editorial de Claude Opus 4.8 para uso empresarial
AI

Claude Opus 4.8 para empresas: qué cambia y qué no

Claude Opus 4.8 es el modelo insignia de Anthropic. Una lectura práctica desde la perspectiva del operador: qué significa para su empresa, qué cuesta y dónde se queda corto.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Ilustración editorial de Claude Opus 4.8, el modelo de IA estrella de Anthropic
AI

¿Qué es Claude Opus 4.8? Una mirada objetiva al modelo estrella de Anthropic

Claude Opus 4.8 es el último modelo estrella de Anthropic. Aquí encontrarás qué cambió, cuánto cuesta y qué significa un modelo más inteligente para el soporte al cliente con IA.

Riellvriany IndriawanRiellvriany IndriawanJun 17, 2026
Ilustración de Claude Fable 5 trabajando como un compañero de equipo autónomo de larga duración para un equipo empresarial
AI

Claude Fable 5 para empresas: qué significa realmente para tu equipo el modelo más potente de Anthropic

Una mirada lúcida a Claude Fable 5 para empresas: cuánto cuesta, dónde brilla, dónde falla y cómo ponerlo a trabajar de verdad en la atención al cliente.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Ilustracion de ruido disperso y bloques enmascarados que se resuelven en lineas limpias de texto, con un cronometro que indica velocidad
AI

Modelos de IA basados en difusion explicados: como funcionan y por que de repente son rapidos

Una guia clara sobre los modelos de IA basados en difusion: en que se diferencian de los LLM autorregresivos, por que generan texto 10 veces mas rapido y que significa eso para las empresas.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Ilustración de tokens de texto desordenados que se resuelven en texto limpio y legible, representando el eliminado de ruido en paralelo de DiffusionGemma
AI

¿Qué es DiffusionGemma? El LLM de difusión de pesos abiertos de Google, explicado

DiffusionGemma es el modelo de difusión de texto de pesos abiertos de Google: un Mixture-of-Experts de 26B que escribe bloques enteros de texto en paralelo para una generación hasta 4 veces más rápida.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026

Listo para contratar tu companero de IA?

Configuracion en minutos. Sin tarjeta de credito requerida.

Comienza gratis