
Was ist Gemini 3.5 Live Translate?
Gemini 3.5 Live Translate ist ein Sprache-zu-Sprache-Übersetzungsmodell von Google. Sie sprechen in einer Sprache, und es antwortet gesprochen in einer anderen, nahezu in Echtzeit, ohne dass Sie zwischen den Gesprächsbeiträgen eine Taste drücken müssen. Google beschreibt es als „unser neuestes Audiomodell, das nahezu Echtzeit-Sprache-zu-Sprache-Übersetzung in über 70 Sprachen liefert“.
Was die Leute aufhorchen lässt, ist, wie natürlich es klingt. Das Modell „erzeugt flüssige, natürlich klingende übersetzte Sprache, die Intonation, Tempo und Tonhöhe der Sprecher bewahrt“, sodass die übersetzte Stimme weiterhin so steigt und fällt wie der ursprüngliche Sprecher, statt zu einer monotonen Roboter-Vorlesung zu verflachen. Es erkennt auch die Sprache von selbst, sodass Sie ihm nicht sagen müssen, ob die Person Ihnen gegenüber Spanisch oder Tagalog spricht.
Eine Anmerkung zur Benennung, die man richtig verstehen sollte, weil sie für Verwirrung sorgt: Die Funktion „Live translate“ in der Google-Translate-App startete tatsächlich bereits im August 2025, gefolgt von einer Kopfhörer-basierten Beta im Dezember 2025. Was sich im Juni 2026 änderte, ist der Motor darunter: Google tauschte das neue 3.5-Live-Translate-Modell ein. Und trotz des „3.5“-Labels sagt die Modellkarte von DeepMind, dass das Modell auf Gemini 3 Pro basiert, einem dedizierten Audiomodell mit einem Audio-Kontextfenster von 128K Token, nicht der kleineren Flash-Stufe.
Wie Gemini 3.5 Live Translate funktioniert
Die meisten Übersetzungs-Apps, die Sie verwendet haben, laufen wie ein Staffellauf: Sie wandeln Ihre Sprache in Text um, übersetzen den Text und lesen den Text dann mit einer anderen Stimme wieder vor. Das funktioniert, aber genau deshalb fühlen sich ältere Tools abgehackt an, Sie müssen zu Ende reden und dann durch drei Übergaben warten, bevor überhaupt etwas herauskommt.
Gemini 3.5 Live Translate überspringt den Staffellauf. Es nutzt natives Audio, was bedeutet, dass ein einziges Modell den rohen Klang aufnimmt und übersetzten Klang ausgibt. Weil es das Audio nie wegwirft, um es zuerst in Text umzuwandeln, kann es die akustischen Details festhalten, den Tonfall, das Tempo, die Tonhöhe, die eine Text-Pipeline verwerfen würde. Transkripte sind ein optionales Extra, nicht der Mechanismus.
Der zweite Kniff ist, dass es kontinuierlich statt Beitrag für Beitrag übersetzt. Statt auf einen vollständigen Satz zu warten, „erzeugt es kontinuierlich Sprache und wägt dabei den Kompromiss ab, auf Kontext zu warten, um die Qualität zu verbessern, oder sofort zu übersetzen, um mit dem Sprecher synchron zu bleiben“. Das ist der Unterschied zwischen einem Gespräch und einem Walkie-Talkie.

Unter der Haube läuft es für Entwickler über die Live API, eine zustandsbehaftete WebSocket-Verbindung, die Audio in beide Richtungen streamt. Sie aktivieren die Übersetzung, indem Sie eine translationConfig mit einem Zielsprachencode senden und dann Audio als 16-kHz-Mono-PCM in 100-ms-Blöcken einspeisen. Reine Audio-Sitzungen sind auf 15 Minuten begrenzt, sofern Sie sie nicht verlängern, und jeder erzeugte Audioclip trägt ein unmerkliches SynthID-Wasserzeichen, damit er später als KI-erstellt identifiziert werden kann. Das ist dieselbe Familie von Sprachtechnologie mit geringer Latenz hinter dem umfassenderen Gemini-Assistenten, nur rein auf Übersetzung abgestimmt, ohne angehängte Tools oder Smalltalk.
Wo Sie es tatsächlich nutzen können
Google liefert 3.5 Live Translate auf drei getrennten Schienen aus, und welche für Sie relevant ist, hängt ganz davon ab, ob Sie reisend, ein Team oder ein Entwickler sind.

- Verbraucher erhalten es in der Google-Translate-App auf Android und iOS. Sie öffnen die App, tippen auf Live translate, wählen Ihre zwei Sprachen und fangen an zu reden. Auf Android gibt es außerdem einen neuen Hörmodus, der die Übersetzung direkt an den Hörer Ihres Telefons streamt, sodass Sie es wie bei einem normalen Anruf ans Ohr halten.
- Teams erhalten es in Google Meet, wo es ein großer Sprung ist. Die Sprachübersetzung von Meet geht „vom früheren Limit von nur fünf Sprachen“ auf über 70 und ermöglicht über 2.000 Sprachkombinationen in einem Meeting. Es ist zunächst in der privaten Vorschau für geschäftliche Workspace-Kunden.
- Entwickler erhalten die Gemini Live API und Google AI Studio in der öffentlichen Vorschau, unter der Modell-ID
gemini-3.5-live-translate-preview. Die Echtzeit-Medieninfrastruktur wird üblicherweise von Partnern wie LiveKit, Pipecat und Agora übernommen.
Auch die Größenordnungssignale dahinter sind real. Google sagt, dass Grab das Modell testet für die Kommunikation zwischen Fahrer und Reisendem bei Nutzern, die über 10 Millionen Sprachanrufe pro Monat tätigen, was Ihnen zeigt, wohin die Reise geht: eingebettet in die Apps anderer Unternehmen, nicht nur als eigenständiger Übersetzer.
Gemini 3.5 Live Translate auf einen Blick
| Dimension | Detail |
|---|---|
| Modell | gemini-3.5-live-translate-preview, basiert auf Gemini 3 Pro |
| Was es macht | Sprache zu Sprache, Audio rein / Audio raus |
| Sprachen | Über 70 mit automatischer Erkennung |
| Latenz | Ein paar Sekunden hinter dem Sprecher |
| Stil | Bewahrt Intonation, Tempo, Tonhöhe |
| Wo | Google-Translate-App, Google Meet, Live API |
| Verfügbarkeit | Verbraucher-Rollout; Entwickler- + Meet-Vorschauen |
| Wasserzeichen | SynthID auf allem Audio |
Wie es sich tatsächlich anfühlt, es zu nutzen
Hier beginnen Marketing und Realität auseinanderzulaufen, und es lohnt sich, bei beidem ehrlich zu sein, denn die Lücke ist die ganze Geschichte.
Auf der guten Seite: Wenn es funktioniert, fühlt es sich anders an als ältere Übersetzungstools. Ein Enthusiast brachte den Reiz nach dem Start auf den Punkt:
Real time speech to speech translation. Over 70 languages. No waiting. No awkward pauses. No robotic stop and start conversations. Just speak naturally and hear the translation almost instantly.
Aber dieselben Threads sind voll von Leuten, die an Grenzen stoßen. Die konsistenteste Beschwerde ist der Sprecherwechsel: Weil das Modell kontinuierlich übersetzt, weiß es manchmal nicht, wann Sie aufgehört haben. Ein Entwickler, der Echtzeit-Dolmetscher-Tools baut, formulierte es unverblümt:
first the understanding of what is spoken is not very good [...] Second it doesn't have and end sentence tag so you can talk and never hear the end because it doesn't know you finished speaking only after you start speaking again or finish the session. It could be a good AI but needs more work and refining from Google.
Es gibt auch eine soziale Reibungsgrenze, die in einer Demo leicht zu übersehen ist. Ein Tech-Rezensent, der es in echten Gesprächen testete, merkte auf LinkedIn an, dass es am besten funktioniert, wenn alle im Raum dasselbe Tool verwenden:
Live AI translation sounds perfect until you're actually in a conversation with other people [...] I think it's a bit hard to use in a social scenario unless all participants are using it [...] Multi-person conversations still feel like they're at the edge of progress.
Wie gut ist es wirklich?
Zwei Dinge sind gleichzeitig wahr. Googles umfassendere Übersetzungs-Upgrades erzielen erstklassige Textqualität im WMT25-Benchmark, und die natürliche Sprachausgabe ist ein klarer Fortschritt. Aber Live-Sprach-Übersetzung in der gesamten Branche macht weiterhin Fehler, die eine Textübersetzung nicht machen würde, und einige davon sind schlimm.
Ein aufschlussreiches Beispiel kam von jemandem, der die Live-Sprachübersetzung im selben Google-Ökosystem (Google Meet) testete und sie gegen die einfache Translate-App per A/B-Test verglich bei einem einfachen Reisesatz:
The voices sounded authentic but I was shocked at how inaccurate some of the translations were. Far worse than what even Google Translate is capable of. For example: English speaker: "Are you going to take care of the hotel reservations and flights?" Live translation: "Vas a cuidar de los pescadores y peleas?" ("Are you going to take care of the fishermen and fights?")
Auch Googles eigene Dokumentation ist erfreulich offen über die rauen Kanten. Die Stimmreplikation „kann inkonsistent sein“, wobei Stimmen nach langen Pausen wechseln oder bei schnellen Wortwechseln mehrerer Sprecher hängen bleiben, und die Spracherkennung „hat Schwierigkeiten mit starken Akzenten, ähnlichen Sprachen (z. B. Spanisch vs. Portugiesisch) oder schnellen Sprachwechseln“. Die ehrliche Einschätzung lautet also: brillant für lockere, nachsichtige Gespräche, riskant für alles, wo ein falsches Wort Sie etwas kostet. Diese Unterscheidung ist sehr wichtig, sobald Sie anfangen, an einen Einsatz bei der Arbeit zu denken.
Live-Sprachübersetzung vs. mehrsprachiger Kundenservice
Hier kommt die Neueinordnung, die die meiste Berichterstattung auslässt. Gemini 3.5 Live Translate ist für gesprochene, live geführte Gespräche gebaut, zwei Menschen, die reden, ein Meeting, ein Telefonat. Das ist ein echtes und nützliches Problem, das es zu lösen gilt. Aber es entspricht nicht der Form der meisten Kundenservice-Anliegen.
Support ist größtenteils schriftlich und asynchron: Tickets, E-Mails, Chatnachrichten, Fragen im Help-Center, die oft über Nacht eintreffen, während Ihr Team schläft. Ein Live-Sprachübersetzer hilft nicht bei einer deutschen E-Mail, die in Ihrer Zendesk-Warteschlange liegt, und Sie würden niemals wollen, dass eine unbeaufsichtigte, gelegentlich falsche Sprachausgabe im Namen Ihrer Marke mit einem zahlenden Kunden spricht. Die Fähigkeiten überschneiden sich kaum.

Wenn mehrsprachiger Support Ihr eigentliches Ziel ist, ist die bessere Kategorie ein KI-Agent für den Kundenservice, der Ihre Hilfedokumente und vergangenen Tickets liest, Antworten entwirft und die einfachen Fälle löst, in welcher Sprache der Kunde auch immer geschrieben hat. Das ist ein Conversational-AI-Problem mit einem Menschen in der Schleife, kein Echtzeit-Audio-Problem. Hier neigt auch die Kostenrechnung dazu, Tier-1-Deflection gegenüber der Einstellung mehrsprachiger Agenten zu bevorzugen, und hier verdient ein KI-Wissensdatenbank-Chatbot sein Geld. Wenn Sie die breitere Kategorie abwägen, sind unser Leitfaden zu KI für den Kundenservice und der Überblick über KI-Kundenservice-Software gute nächste Anlaufstellen.
Probieren Sie eesel aus
Gemini 3.5 Live Translate ist das richtige Werkzeug, wenn das Gespräch laut, live und im Moment stattfindet. Wenn das Gespräch Ihr Support-Posteingang ist, ist eesel stattdessen genau dafür gebaut: ein KI-Helpdesk-Agent, der aus Ihren vergangenen Tickets und Hilfedokumenten lernt, Support in über 80 Sprachen sofort einsatzbereit entwirft und löst und sich direkt in den Helpdesk einklinkt, den Sie bereits betreiben.
Der Unterschied liegt in Aufsicht und Skalierung bei schriftlicher Arbeit. Ein eesel-Kunde, Smava, betreibt einen vollautomatisierten Agenten, der über 100.000 deutschsprachige Support-Tickets pro Monat bearbeitet, die Art von rund um die Uhr verfügbarem, mehrsprachigem Volumen, das ein Live-Sprachübersetzer nie anfassen sollte. Sie behalten die Kontrolle darüber, was er beantworten darf, und Sie können die Autonomie schrittweise hochfahren.

Wenn Ihr „Übersetzungsproblem“ in Wirklichkeit ein mehrsprachiges Support-Problem ist, probieren Sie eesel aus und sehen Sie, wie viel von Ihrer Warteschlange es bewältigen kann, bevor ein Mensch überhaupt eingreift.
Häufig gestellte Fragen
Was ist Gemini 3.5 Live Translate?
Ist Gemini 3.5 Live Translate kostenlos nutzbar?
Wie viele Sprachen unterstützt Gemini 3.5 Live Translate?
Wie genau ist Gemini 3.5 Live Translate?
Kann ich Gemini 3.5 Live Translate für den Kundenservice nutzen?

Article by
Riellvriany Indriawan
Riell is a designer and writer at eesel AI with about two years of experience researching CX platforms, AI chatbots, and helpdesk software. She combines her design background with a sharp eye for how these tools actually look and feel in practice — making her comparisons unusually visual and user-focused.








