
¿Qué es Gemini 3.5 Live Translate?
Gemini 3.5 Live Translate es un modelo de traducción de voz a voz de Google. Hablas en un idioma y responde hablando en otro, casi en tiempo real, sin que tengas que pulsar un botón entre turnos. Google lo describe como «nuestro modelo de audio más reciente, que ofrece traducción de voz a voz casi en tiempo real en más de 70 idiomas».
La parte que hace que la gente preste atención es lo natural que suena. El modelo «genera un habla traducida fluida y de sonido natural que conserva la entonación, el ritmo y el tono de quienes hablan», de modo que la voz traducida sigue subiendo y bajando como la del hablante original en lugar de aplanarse en una lectura robótica. También detecta el idioma por sí mismo, así que no tienes que decirle si la persona al otro lado de la mesa habla español o tagalo.
Una nota sobre el nombre que conviene tener clara, porque despista a la gente: la función «Live translate» de la app de Google Translate en realidad se lanzó allá por agosto de 2025, con una beta basada en auriculares en diciembre de 2025. Lo que cambió en junio de 2026 es el motor por debajo: Google incorporó el nuevo modelo 3.5 Live Translate. Y a pesar de la etiqueta «3.5», la ficha del modelo de DeepMind dice que el modelo se basa en Gemini 3 Pro, un modelo de audio dedicado con una ventana de contexto de audio de 128K tokens, no el nivel Flash más pequeño.
Cómo funciona Gemini 3.5 Live Translate
La mayoría de las apps de traducción que has usado funcionan como una carrera de relevos: convierten tu voz en texto, traducen el texto y luego lo leen en voz alta con otra voz. Eso funciona, pero es la razón por la que las herramientas más antiguas se sienten a trompicones: tienes que terminar de hablar y luego esperar a través de tres traspasos antes de que salga nada.
Gemini 3.5 Live Translate se salta el relevo. Usa audio nativo, lo que significa que un solo modelo toma el sonido en bruto y produce sonido traducido. Como nunca descarta el audio para convertirlo primero en texto, puede conservar el detalle acústico, el tono, el ritmo, el tono de voz, que una canalización de texto descartaría. Las transcripciones son un complemento opcional, no el mecanismo.
El segundo truco es que traduce de forma continua en lugar de turno por turno. En lugar de esperar a una frase completa, «genera voz de forma continua, equilibrando la disyuntiva entre esperar el contexto para mejorar la calidad y traducir de inmediato para mantenerse sincronizado con quien habla». Esa es la diferencia entre una conversación y un walkie-talkie.

Por dentro, para los desarrolladores, funciona sobre la Live API, una conexión WebSocket con estado que transmite audio en ambos sentidos. Activas la traducción enviando una translationConfig con un código de idioma de destino y luego canalizas el audio como PCM mono a 16 kHz en fragmentos de 100 ms. Las sesiones de solo audio están limitadas a 15 minutos a menos que las extiendas, y cada fragmento de audio generado lleva una marca de agua SynthID imperceptible para que más adelante pueda identificarse como creado por IA. Es la misma familia de tecnología de voz de baja latencia que hay detrás del asistente Gemini más amplio, solo que ajustada puramente para la traducción, sin herramientas ni charla adjuntas.
Dónde puedes usarlo de verdad
Google está lanzando 3.5 Live Translate en tres vías separadas, y cuál te importa depende por completo de si eres viajero, equipo o desarrollador.

- Consumidores lo obtienen dentro de la app de Google Translate en Android e iOS. Abres la app, tocas Live translate, eliges tus dos idiomas y empiezas a hablar. En Android también hay un nuevo modo de escucha que transmite la traducción directamente al auricular de tu teléfono, de modo que lo sostienes junto al oído como en una llamada normal.
- Equipos lo obtienen en Google Meet, donde es un gran salto. La traducción de voz de Meet pasa «del límite anterior de solo cinco idiomas» a más de 70, lo que habilita más de 2.000 combinaciones de idiomas en una reunión. Está en vista previa privada primero para clientes empresariales de Workspace.
- Desarrolladores obtienen la Gemini Live API y Google AI Studio en vista previa pública, con el ID de modelo
gemini-3.5-live-translate-preview. La infraestructura de medios en tiempo real suele gestionarla socios como LiveKit, Pipecat y Agora.
Las señales de escala detrás de esto también son reales. Google dice que Grab está probando el modelo para la comunicación entre conductor y viajero entre usuarios que hacen más de 10 millones de llamadas de voz al mes, lo que te indica hacia dónde va esto: integrado dentro de las apps de otras empresas, no solo como un traductor independiente.
Gemini 3.5 Live Translate de un vistazo
| Dimensión | Detalle |
|---|---|
| Modelo | gemini-3.5-live-translate-preview, basado en Gemini 3 Pro |
| Qué hace | Voz a voz, audio de entrada / audio de salida |
| Idiomas | Más de 70 con detección automática |
| Latencia | Unos segundos por detrás de quien habla |
| Estilo | Conserva entonación, ritmo y tono |
| Dónde | App de Google Translate, Google Meet, Live API |
| Disponibilidad | Despliegue para consumidores; vistas previas para desarrolladores + Meet |
| Marca de agua | SynthID en todo el audio |
Cómo es usarlo de verdad
Aquí es donde el marketing y la realidad empiezan a divergir, y vale la pena ser honesto sobre ambos, porque la brecha es toda la historia.
En el lado bueno, cuando funciona, se siente distinto de las herramientas de traducción más antiguas. Un entusiasta resumió el atractivo tras el lanzamiento:
Real time speech to speech translation. Over 70 languages. No waiting. No awkward pauses. No robotic stop and start conversations. Just speak naturally and hear the translation almost instantly.
Pero los mismos hilos están llenos de gente que choca contra muros. La queja más constante es la gestión de turnos: como el modelo traduce de forma continua, a veces no sabe cuándo has parado. Un desarrollador que construye herramientas de interpretación en tiempo real lo expresó sin rodeos:
first the understanding of what is spoken is not very good [...] Second it doesn't have and end sentence tag so you can talk and never hear the end because it doesn't know you finished speaking only after you start speaking again or finish the session. It could be a good AI but needs more work and refining from Google.
También hay un techo de fricción social que es fácil pasar por alto en una demo. Un crítico tecnológico que lo probó en conversaciones reales señaló en LinkedIn que funciona mejor cuando todos en la sala usan la misma herramienta:
Live AI translation sounds perfect until you're actually in a conversation with other people [...] I think it's a bit hard to use in a social scenario unless all participants are using it [...] Multi-person conversations still feel like they're at the edge of progress.
¿Qué tan bueno es, en realidad?
Dos cosas son ciertas a la vez. Las mejoras de traducción más amplias de Google obtienen calidad de texto de vanguardia en el benchmark WMT25, y la salida de voz natural es un claro avance. Pero la traducción de voz en vivo en toda la industria sigue cometiendo errores que la traducción de texto no cometería, y algunos de ellos son graves.
Un ejemplo revelador vino de alguien que probó la traducción de voz en vivo en el mismo ecosistema de Google (Google Meet), quien la comparó en un test A/B contra la app de Translate con una frase de viaje sencilla:
The voices sounded authentic but I was shocked at how inaccurate some of the translations were. Far worse than what even Google Translate is capable of. For example: English speaker: "Are you going to take care of the hotel reservations and flights?" Live translation: "Vas a cuidar de los pescadores y peleas?" ("Are you going to take care of the fishermen and fights?")
La propia documentación de Google también es refrescantemente franca sobre las asperezas. La replicación de voz «puede ser inconsistente», con voces que cambian tras pausas largas o que se atascan durante intercambios rápidos entre varios hablantes, y la detección de idioma «tiene dificultades con acentos marcados, idiomas similares (p. ej., español frente a portugués) o cambios rápidos de idioma». Así que la lectura honesta: brillante para conversaciones informales y tolerantes, arriesgado para cualquier cosa en la que una palabra equivocada te cueste caro. Esa distinción importa mucho en cuanto empiezas a pensar en usarlo para el trabajo.
Traducción de voz en vivo vs. atención al cliente multilingüe
Aquí está el replanteamiento que la mayoría de la cobertura se salta. Gemini 3.5 Live Translate está hecho para conversaciones habladas, en vivo: dos personas hablando, una reunión, una llamada telefónica. Ese es un problema real y útil de resolver. Pero no es la forma de la mayoría de la atención al cliente.
El soporte es en su mayoría escrito y asíncrono: tickets, correos electrónicos, mensajes de chat, preguntas del centro de ayuda, que a menudo llegan durante la noche mientras tu equipo duerme. Un traductor de voz en vivo no ayuda con un correo en alemán que está en tu cola de Zendesk, y nunca querrías que una salida de voz sin supervisión y a veces incorrecta hablara en nombre de tu marca a un cliente que paga. Las habilidades apenas se solapan.

Si el soporte multilingüe es tu verdadero objetivo, la mejor categoría es un agente de IA para atención al cliente que lee tus documentos de ayuda y tickets pasados, redacta respuestas y resuelve lo fácil, en cualquier idioma en que el cliente haya escrito. Ese es un problema de IA conversacional con un humano en el bucle, no uno de audio en tiempo real. También es donde las cuentas de costes tienden a favorecer la deflexión de nivel 1 frente a contratar agentes multilingües, y donde un chatbot de base de conocimiento con IA se gana su sueldo. Si estás sopesando la categoría más amplia, nuestra guía sobre IA para atención al cliente y el resumen de software de atención al cliente con IA son buenas paradas siguientes.
Prueba eesel
Gemini 3.5 Live Translate es la herramienta correcta cuando la conversación ocurre en voz alta, en vivo, en el momento. Cuando la conversación es tu bandeja de entrada de soporte, eesel está hecho para eso: un agente de mesa de ayuda con IA que aprende de tus tickets pasados y documentos de ayuda, redacta y resuelve soporte en más de 80 idiomas listo para usar y se conecta directamente a la mesa de ayuda que ya tienes.
La diferencia es la supervisión y la escala en el trabajo escrito. Un cliente de eesel, Smava, ejecuta un agente totalmente automatizado que gestiona más de 100.000 tickets de soporte en alemán al mes, el tipo de volumen multilingüe y siempre activo que un traductor de voz en vivo nunca estuvo destinado a tocar. Mantienes el control de lo que puede responder y puedes aumentar la autonomía gradualmente.

Si tu problema de «traducción» es en realidad un problema de soporte multilingüe, prueba eesel y comprueba cuánto de tu cola puede gestionar antes de que un humano intervenga.
Preguntas frecuentes
¿Qué es Gemini 3.5 Live Translate?
¿Gemini 3.5 Live Translate es gratis?
¿Cuántos idiomas admite Gemini 3.5 Live Translate?
¿Qué tan preciso es Gemini 3.5 Live Translate?
¿Puedo usar Gemini 3.5 Live Translate para atención al cliente?

Article by
Riellvriany Indriawan
Riell is a designer and writer at eesel AI with about two years of experience researching CX platforms, AI chatbots, and helpdesk software. She combines her design background with a sharp eye for how these tools actually look and feel in practice — making her comparisons unusually visual and user-focused.








