Blog / AI

¿Qué es Gemini 3.5 Live Translate?

Escrito por

Riellvriany Indriawan

Revisado por

Katelin Teen

Última edición June 17, 2026

Verificado por expertos

Dos personas hablando idiomas diferentes con una onda de sonido en vivo que las conecta, ilustrando Gemini 3.5 Live Translate

TL;DR

Gemini 3.5 Live Translate es el modelo de audio de Google para la traducción de voz a voz casi en tiempo real en más de 70 idiomas, anunciado el 9 de junio de 2026. En lugar de esperar a que termines una frase, escucha y habla la traducción de forma continua, quedándose solo unos segundos por detrás de quien habla y conservando su tono y ritmo.

Lo encontrarás en tres lugares: la app gratuita de Google Translate, Google Meet para reuniones en vivo y la Gemini Live API para desarrolladores. Es impresionante para viajar y para conversaciones informales, pero los primeros evaluadores señalan carencias reales de precisión y de gestión de turnos, así que no es un sustituto directo de un intérprete ni, lo que es más importante, de tu cola de soporte. Para el soporte escrito en decenas de idiomas, un agente de IA para atención al cliente revisable encaja mejor que la traducción de voz en vivo.

¿Qué es Gemini 3.5 Live Translate?

Gemini 3.5 Live Translate es un modelo de traducción de voz a voz de Google. Hablas en un idioma y responde hablando en otro, casi en tiempo real, sin que tengas que pulsar un botón entre turnos. Google lo describe como «nuestro modelo de audio más reciente, que ofrece traducción de voz a voz casi en tiempo real en más de 70 idiomas».

La parte que hace que la gente preste atención es lo natural que suena. El modelo «genera un habla traducida fluida y de sonido natural que conserva la entonación, el ritmo y el tono de quienes hablan», de modo que la voz traducida sigue subiendo y bajando como la del hablante original en lugar de aplanarse en una lectura robótica. También detecta el idioma por sí mismo, así que no tienes que decirle si la persona al otro lado de la mesa habla español o tagalo.

Una nota sobre el nombre que conviene tener clara, porque despista a la gente: la función «Live translate» de la app de Google Translate en realidad se lanzó allá por agosto de 2025, con una beta basada en auriculares en diciembre de 2025. Lo que cambió en junio de 2026 es el motor por debajo: Google incorporó el nuevo modelo 3.5 Live Translate. Y a pesar de la etiqueta «3.5», la ficha del modelo de DeepMind dice que el modelo se basa en Gemini 3 Pro, un modelo de audio dedicado con una ventana de contexto de audio de 128K tokens, no el nivel Flash más pequeño.

Página oficial del anuncio de Gemini 3.5 Live Translate de Google, tomada del blog Keyword

Cómo funciona Gemini 3.5 Live Translate

La mayoría de las apps de traducción que has usado funcionan como una carrera de relevos: convierten tu voz en texto, traducen el texto y luego lo leen en voz alta con otra voz. Eso funciona, pero es la razón por la que las herramientas más antiguas se sienten a trompicones: tienes que terminar de hablar y luego esperar a través de tres traspasos antes de que salga nada.

Gemini 3.5 Live Translate se salta el relevo. Usa audio nativo, lo que significa que un solo modelo toma el sonido en bruto y produce sonido traducido. Como nunca descarta el audio para convertirlo primero en texto, puede conservar el detalle acústico, el tono, el ritmo, el tono de voz, que una canalización de texto descartaría. Las transcripciones son un complemento opcional, no el mecanismo.

El segundo truco es que traduce de forma continua en lugar de turno por turno. En lugar de esperar a una frase completa, «genera voz de forma continua, equilibrando la disyuntiva entre esperar el contexto para mejorar la calidad y traducir de inmediato para mantenerse sincronizado con quien habla». Esa es la diferencia entre una conversación y un walkie-talkie.

Cómo Gemini 3.5 Live Translate reemplaza la antigua carrera de relevos de voz a texto, traducción y texto a voz por un único modelo de audio nativo continuo

Por dentro, para los desarrolladores, funciona sobre la Live API, una conexión WebSocket con estado que transmite audio en ambos sentidos. Activas la traducción enviando una translationConfig con un código de idioma de destino y luego canalizas el audio como PCM mono a 16 kHz en fragmentos de 100 ms. Las sesiones de solo audio están limitadas a 15 minutos a menos que las extiendas, y cada fragmento de audio generado lleva una marca de agua SynthID imperceptible para que más adelante pueda identificarse como creado por IA. Es la misma familia de tecnología de voz de baja latencia que hay detrás del asistente Gemini más amplio, solo que ajustada puramente para la traducción, sin herramientas ni charla adjuntas.

Dónde puedes usarlo de verdad

Google está lanzando 3.5 Live Translate en tres vías separadas, y cuál te importa depende por completo de si eres viajero, equipo o desarrollador.

Las tres formas de usar Gemini 3.5 Live Translate: la app de Google Translate para consumidores, Google Meet para equipos y la Live API para desarrolladores

Consumidores lo obtienen dentro de la app de Google Translate en Android e iOS. Abres la app, tocas Live translate, eliges tus dos idiomas y empiezas a hablar. En Android también hay un nuevo modo de escucha que transmite la traducción directamente al auricular de tu teléfono, de modo que lo sostienes junto al oído como en una llamada normal.
Equipos lo obtienen en Google Meet, donde es un gran salto. La traducción de voz de Meet pasa «del límite anterior de solo cinco idiomas» a más de 70, lo que habilita más de 2.000 combinaciones de idiomas en una reunión. Está en vista previa privada primero para clientes empresariales de Workspace.
Desarrolladores obtienen la Gemini Live API y Google AI Studio en vista previa pública, con el ID de modelo gemini-3.5-live-translate-preview. La infraestructura de medios en tiempo real suele gestionarla socios como LiveKit, Pipecat y Agora.

Las señales de escala detrás de esto también son reales. Google dice que Grab está probando el modelo para la comunicación entre conductor y viajero entre usuarios que hacen más de 10 millones de llamadas de voz al mes, lo que te indica hacia dónde va esto: integrado dentro de las apps de otras empresas, no solo como un traductor independiente.

Gemini 3.5 Live Translate de un vistazo

Dimensión	Detalle
Modelo	`gemini-3.5-live-translate-preview`, basado en Gemini 3 Pro
Qué hace	Voz a voz, audio de entrada / audio de salida
Idiomas	Más de 70 con detección automática
Latencia	Unos segundos por detrás de quien habla
Estilo	Conserva entonación, ritmo y tono
Dónde	App de Google Translate, Google Meet, Live API
Disponibilidad	Despliegue para consumidores; vistas previas para desarrolladores + Meet
Marca de agua	SynthID en todo el audio

Cómo es usarlo de verdad

Aquí es donde el marketing y la realidad empiezan a divergir, y vale la pena ser honesto sobre ambos, porque la brecha es toda la historia.

En el lado bueno, cuando funciona, se siente distinto de las herramientas de traducción más antiguas. Un entusiasta resumió el atractivo tras el lanzamiento:

Real time speech to speech translation. Over 70 languages. No waiting. No awkward pauses. No robotic stop and start conversations. Just speak naturally and hear the translation almost instantly.

u/Grewup01 on r/GoogleGemini

Pero los mismos hilos están llenos de gente que choca contra muros. La queja más constante es la gestión de turnos: como el modelo traduce de forma continua, a veces no sabe cuándo has parado. Un desarrollador que construye herramientas de interpretación en tiempo real lo expresó sin rodeos:

first the understanding of what is spoken is not very good [...] Second it doesn't have and end sentence tag so you can talk and never hear the end because it doesn't know you finished speaking only after you start speaking again or finish the session. It could be a good AI but needs more work and refining from Google.

u/nolovefullownership on r/GoogleGemini

También hay un techo de fricción social que es fácil pasar por alto en una demo. Un crítico tecnológico que lo probó en conversaciones reales señaló en LinkedIn que funciona mejor cuando todos en la sala usan la misma herramienta:

Live AI translation sounds perfect until you're actually in a conversation with other people [...] I think it's a bit hard to use in a social scenario unless all participants are using it [...] Multi-person conversations still feel like they're at the edge of progress.

¿Qué tan bueno es, en realidad?

Dos cosas son ciertas a la vez. Las mejoras de traducción más amplias de Google obtienen calidad de texto de vanguardia en el benchmark WMT25, y la salida de voz natural es un claro avance. Pero la traducción de voz en vivo en toda la industria sigue cometiendo errores que la traducción de texto no cometería, y algunos de ellos son graves.

Un ejemplo revelador vino de alguien que probó la traducción de voz en vivo en el mismo ecosistema de Google (Google Meet), quien la comparó en un test A/B contra la app de Translate con una frase de viaje sencilla:

The voices sounded authentic but I was shocked at how inaccurate some of the translations were. Far worse than what even Google Translate is capable of. For example: English speaker: "Are you going to take care of the hotel reservations and flights?" Live translation: "Vas a cuidar de los pescadores y peleas?" ("Are you going to take care of the fishermen and fights?")

u/de_cachondeo on r/TranslationStudies

La propia documentación de Google también es refrescantemente franca sobre las asperezas. La replicación de voz «puede ser inconsistente», con voces que cambian tras pausas largas o que se atascan durante intercambios rápidos entre varios hablantes, y la detección de idioma «tiene dificultades con acentos marcados, idiomas similares (p. ej., español frente a portugués) o cambios rápidos de idioma». Así que la lectura honesta: brillante para conversaciones informales y tolerantes, arriesgado para cualquier cosa en la que una palabra equivocada te cueste caro. Esa distinción importa mucho en cuanto empiezas a pensar en usarlo para el trabajo.

Traducción de voz en vivo vs. atención al cliente multilingüe

Aquí está el replanteamiento que la mayoría de la cobertura se salta. Gemini 3.5 Live Translate está hecho para conversaciones habladas, en vivo: dos personas hablando, una reunión, una llamada telefónica. Ese es un problema real y útil de resolver. Pero no es la forma de la mayoría de la atención al cliente.

El soporte es en su mayoría escrito y asíncrono: tickets, correos electrónicos, mensajes de chat, preguntas del centro de ayuda, que a menudo llegan durante la noche mientras tu equipo duerme. Un traductor de voz en vivo no ayuda con un correo en alemán que está en tu cola de Zendesk, y nunca querrías que una salida de voz sin supervisión y a veces incorrecta hablara en nombre de tu marca a un cliente que paga. Las habilidades apenas se solapan.

La traducción de voz en vivo se adapta a las conversaciones habladas en tiempo real, mientras que la automatización de soporte multilingüe se adapta a tickets y chats escritos en más de 80 idiomas

Si el soporte multilingüe es tu verdadero objetivo, la mejor categoría es un agente de IA para atención al cliente que lee tus documentos de ayuda y tickets pasados, redacta respuestas y resuelve lo fácil, en cualquier idioma en que el cliente haya escrito. Ese es un problema de IA conversacional con un humano en el bucle, no uno de audio en tiempo real. También es donde las cuentas de costes tienden a favorecer la deflexión de nivel 1 frente a contratar agentes multilingües, y donde un chatbot de base de conocimiento con IA se gana su sueldo. Si estás sopesando la categoría más amplia, nuestra guía sobre IA para atención al cliente y el resumen de software de atención al cliente con IA son buenas paradas siguientes.

Prueba eesel

Gemini 3.5 Live Translate es la herramienta correcta cuando la conversación ocurre en voz alta, en vivo, en el momento. Cuando la conversación es tu bandeja de entrada de soporte, eesel está hecho para eso: un agente de mesa de ayuda con IA que aprende de tus tickets pasados y documentos de ayuda, redacta y resuelve soporte en más de 80 idiomas listo para usar y se conecta directamente a la mesa de ayuda que ya tienes.

La diferencia es la supervisión y la escala en el trabajo escrito. Un cliente de eesel, Smava, ejecuta un agente totalmente automatizado que gestiona más de 100.000 tickets de soporte en alemán al mes, el tipo de volumen multilingüe y siempre activo que un traductor de voz en vivo nunca estuvo destinado a tocar. Mantienes el control de lo que puede responder y puedes aumentar la autonomía gradualmente.

Vista general del panel de la mesa de ayuda con IA de eesel, donde un agente de IA redacta y resuelve tickets de soporte en más de 80 idiomas

Si tu problema de «traducción» es en realidad un problema de soporte multilingüe, prueba eesel y comprueba cuánto de tu cola puede gestionar antes de que un humano intervenga.

Preguntas frecuentes

¿Qué es Gemini 3.5 Live Translate?

Gemini 3.5 Live Translate es el modelo de audio de Google para la traducción de voz a voz casi en tiempo real en más de 70 idiomas. Anunciado el 9 de junio de 2026, escucha el audio hablado y devuelve la traducción hablada de forma continua, conservando la entonación y el ritmo de quien habla. Aparece en la app de Google Translate, en Google Meet y a través de la Gemini Live API. Si tu objetivo es el soporte escrito en lugar de la voz en vivo, un agente de IA para atención al cliente encaja mejor.

¿Gemini 3.5 Live Translate es gratis?

Para los consumidores, la función Live translate se está desplegando dentro de la app gratuita de Google Translate en Android e iOS. Para los desarrolladores, funciona a través de la Gemini Live API de pago, que se cobra por uso de tokens en lugar de una tarifa fija. Los equipos que comparan el coste operativo de las funciones de voz frente a la automatización de texto suelen empezar con nuestro desglose sobre el ahorro de costes en soporte al cliente con IA.

¿Cuántos idiomas admite Gemini 3.5 Live Translate?

El modelo detecta y traduce automáticamente en más de 70 idiomas. En Google Meet en concreto, eso es un salto desde un límite anterior de solo cinco idiomas, lo que desbloquea más de 2.000 combinaciones de idiomas en una sola reunión. Para los canales escritos, herramientas como un chatbot de base de conocimiento con IA pueden responder en decenas de idiomas a partir de tu documentación existente.

¿Qué tan preciso es Gemini 3.5 Live Translate?

Es sólido con el habla de sonido natural y el flujo conversacional, pero los primeros evaluadores informan de un manejo más débil del audio de origen no inglés, una detección de turnos inestable y errores de traducción ocasionales en frases sencillas. Para respuestas críticas para el negocio, muchos equipos prefieren un flujo de trabajo de texto revisable como un chatbot de atención al cliente con IA antes que la voz en vivo sin supervisión. Consulta nuestra opinión sobre la IA conversacional para ver dónde encaja cada una.

¿Puedo usar Gemini 3.5 Live Translate para atención al cliente?

Puede ayudar con conversaciones habladas en vivo, como llamadas telefónicas o videorreuniones, pero la mayor parte del soporte ocurre en tickets y chats escritos que necesitan supervisión y precisión. Para eso, una IA para atención al cliente dedicada que redacta y resuelve tickets en más de 80 idiomas, como eesel, suele ser la mejor respuesta que la traducción de voz en vivo.

Contrata a tu companero de IA

Configuracion en minutos. Sin tarjeta de credito.

Prueba gratis Agendar demo

Share this article

Article by

Riellvriany Indriawan

Riell is a designer and writer at eesel AI with about two years of experience researching CX platforms, AI chatbots, and helpdesk software. She combines her design background with a sharp eye for how these tools actually look and feel in practice — making her comparisons unusually visual and user-focused.