Blog / AI

Was ist Gemini 3.5 Live Translate?

Geschrieben von

Riellvriany Indriawan

Geprüft von

Katelin Teen

Zuletzt bearbeitet June 17, 2026

Expertengeprüft

Zwei Menschen sprechen verschiedene Sprachen, verbunden durch eine Live-Schallwelle, als Illustration von Gemini 3.5 Live Translate

TL;DR

Gemini 3.5 Live Translate ist Googles Audiomodell für nahezu Echtzeit-Sprache-zu-Sprache-Übersetzung in mehr als 70 Sprachen, vorgestellt am 9. Juni 2026. Statt zu warten, bis Sie einen Satz beendet haben, hört es zu und spricht die Übersetzung kontinuierlich, bleibt dabei nur ein paar Sekunden hinter dem Sprecher und behält dessen Tonfall und Tempo bei.

Sie treffen es an drei Stellen an: in der kostenlosen Google Translate-App, in Google Meet für Live-Meetings und in der Gemini Live API für Entwickler. Es ist beeindruckend für Reisen und lockere Gespräche, aber frühe Tester melden echte Lücken bei Genauigkeit und Sprecherwechseln, sodass es kein einfacher Ersatz für einen Dolmetscher ist oder, wichtiger noch, für Ihre Support-Warteschlange. Für schriftlichen Support in Dutzenden Sprachen passt ein überprüfbarer KI-Agent für den Kundenservice besser als Live-Sprachübersetzung.

Was ist Gemini 3.5 Live Translate?

Gemini 3.5 Live Translate ist ein Sprache-zu-Sprache-Übersetzungsmodell von Google. Sie sprechen in einer Sprache, und es antwortet gesprochen in einer anderen, nahezu in Echtzeit, ohne dass Sie zwischen den Gesprächsbeiträgen eine Taste drücken müssen. Google beschreibt es als „unser neuestes Audiomodell, das nahezu Echtzeit-Sprache-zu-Sprache-Übersetzung in über 70 Sprachen liefert“.

Was die Leute aufhorchen lässt, ist, wie natürlich es klingt. Das Modell „erzeugt flüssige, natürlich klingende übersetzte Sprache, die Intonation, Tempo und Tonhöhe der Sprecher bewahrt“, sodass die übersetzte Stimme weiterhin so steigt und fällt wie der ursprüngliche Sprecher, statt zu einer monotonen Roboter-Vorlesung zu verflachen. Es erkennt auch die Sprache von selbst, sodass Sie ihm nicht sagen müssen, ob die Person Ihnen gegenüber Spanisch oder Tagalog spricht.

Eine Anmerkung zur Benennung, die man richtig verstehen sollte, weil sie für Verwirrung sorgt: Die Funktion „Live translate“ in der Google-Translate-App startete tatsächlich bereits im August 2025, gefolgt von einer Kopfhörer-basierten Beta im Dezember 2025. Was sich im Juni 2026 änderte, ist der Motor darunter: Google tauschte das neue 3.5-Live-Translate-Modell ein. Und trotz des „3.5“-Labels sagt die Modellkarte von DeepMind, dass das Modell auf Gemini 3 Pro basiert, einem dedizierten Audiomodell mit einem Audio-Kontextfenster von 128K Token, nicht der kleineren Flash-Stufe.

Googles offizielle Ankündigungsseite zu Gemini 3.5 Live Translate, entnommen dem Keyword-Blog

Wie Gemini 3.5 Live Translate funktioniert

Die meisten Übersetzungs-Apps, die Sie verwendet haben, laufen wie ein Staffellauf: Sie wandeln Ihre Sprache in Text um, übersetzen den Text und lesen den Text dann mit einer anderen Stimme wieder vor. Das funktioniert, aber genau deshalb fühlen sich ältere Tools abgehackt an, Sie müssen zu Ende reden und dann durch drei Übergaben warten, bevor überhaupt etwas herauskommt.

Gemini 3.5 Live Translate überspringt den Staffellauf. Es nutzt natives Audio, was bedeutet, dass ein einziges Modell den rohen Klang aufnimmt und übersetzten Klang ausgibt. Weil es das Audio nie wegwirft, um es zuerst in Text umzuwandeln, kann es die akustischen Details festhalten, den Tonfall, das Tempo, die Tonhöhe, die eine Text-Pipeline verwerfen würde. Transkripte sind ein optionales Extra, nicht der Mechanismus.

Der zweite Kniff ist, dass es kontinuierlich statt Beitrag für Beitrag übersetzt. Statt auf einen vollständigen Satz zu warten, „erzeugt es kontinuierlich Sprache und wägt dabei den Kompromiss ab, auf Kontext zu warten, um die Qualität zu verbessern, oder sofort zu übersetzen, um mit dem Sprecher synchron zu bleiben“. Das ist der Unterschied zwischen einem Gespräch und einem Walkie-Talkie.

Wie Gemini 3.5 Live Translate den alten Staffellauf aus Sprache-zu-Text, Übersetzung und Text-zu-Sprache durch ein einziges kontinuierliches natives Audiomodell ersetzt

Unter der Haube läuft es für Entwickler über die Live API, eine zustandsbehaftete WebSocket-Verbindung, die Audio in beide Richtungen streamt. Sie aktivieren die Übersetzung, indem Sie eine translationConfig mit einem Zielsprachencode senden und dann Audio als 16-kHz-Mono-PCM in 100-ms-Blöcken einspeisen. Reine Audio-Sitzungen sind auf 15 Minuten begrenzt, sofern Sie sie nicht verlängern, und jeder erzeugte Audioclip trägt ein unmerkliches SynthID-Wasserzeichen, damit er später als KI-erstellt identifiziert werden kann. Das ist dieselbe Familie von Sprachtechnologie mit geringer Latenz hinter dem umfassenderen Gemini-Assistenten, nur rein auf Übersetzung abgestimmt, ohne angehängte Tools oder Smalltalk.

Wo Sie es tatsächlich nutzen können

Google liefert 3.5 Live Translate auf drei getrennten Schienen aus, und welche für Sie relevant ist, hängt ganz davon ab, ob Sie reisend, ein Team oder ein Entwickler sind.

Die drei Wege, Gemini 3.5 Live Translate zu nutzen: die Google-Translate-App für Verbraucher, Google Meet für Teams und die Live API für Entwickler

Verbraucher erhalten es in der Google-Translate-App auf Android und iOS. Sie öffnen die App, tippen auf Live translate, wählen Ihre zwei Sprachen und fangen an zu reden. Auf Android gibt es außerdem einen neuen Hörmodus, der die Übersetzung direkt an den Hörer Ihres Telefons streamt, sodass Sie es wie bei einem normalen Anruf ans Ohr halten.
Teams erhalten es in Google Meet, wo es ein großer Sprung ist. Die Sprachübersetzung von Meet geht „vom früheren Limit von nur fünf Sprachen“ auf über 70 und ermöglicht über 2.000 Sprachkombinationen in einem Meeting. Es ist zunächst in der privaten Vorschau für geschäftliche Workspace-Kunden.
Entwickler erhalten die Gemini Live API und Google AI Studio in der öffentlichen Vorschau, unter der Modell-ID gemini-3.5-live-translate-preview. Die Echtzeit-Medieninfrastruktur wird üblicherweise von Partnern wie LiveKit, Pipecat und Agora übernommen.

Auch die Größenordnungssignale dahinter sind real. Google sagt, dass Grab das Modell testet für die Kommunikation zwischen Fahrer und Reisendem bei Nutzern, die über 10 Millionen Sprachanrufe pro Monat tätigen, was Ihnen zeigt, wohin die Reise geht: eingebettet in die Apps anderer Unternehmen, nicht nur als eigenständiger Übersetzer.

Gemini 3.5 Live Translate auf einen Blick

Dimension	Detail
Modell	`gemini-3.5-live-translate-preview`, basiert auf Gemini 3 Pro
Was es macht	Sprache zu Sprache, Audio rein / Audio raus
Sprachen	Über 70 mit automatischer Erkennung
Latenz	Ein paar Sekunden hinter dem Sprecher
Stil	Bewahrt Intonation, Tempo, Tonhöhe
Wo	Google-Translate-App, Google Meet, Live API
Verfügbarkeit	Verbraucher-Rollout; Entwickler- + Meet-Vorschauen
Wasserzeichen	SynthID auf allem Audio

Wie es sich tatsächlich anfühlt, es zu nutzen

Hier beginnen Marketing und Realität auseinanderzulaufen, und es lohnt sich, bei beidem ehrlich zu sein, denn die Lücke ist die ganze Geschichte.

Auf der guten Seite: Wenn es funktioniert, fühlt es sich anders an als ältere Übersetzungstools. Ein Enthusiast brachte den Reiz nach dem Start auf den Punkt:

Real time speech to speech translation. Over 70 languages. No waiting. No awkward pauses. No robotic stop and start conversations. Just speak naturally and hear the translation almost instantly.

u/Grewup01 on r/GoogleGemini

Aber dieselben Threads sind voll von Leuten, die an Grenzen stoßen. Die konsistenteste Beschwerde ist der Sprecherwechsel: Weil das Modell kontinuierlich übersetzt, weiß es manchmal nicht, wann Sie aufgehört haben. Ein Entwickler, der Echtzeit-Dolmetscher-Tools baut, formulierte es unverblümt:

first the understanding of what is spoken is not very good [...] Second it doesn't have and end sentence tag so you can talk and never hear the end because it doesn't know you finished speaking only after you start speaking again or finish the session. It could be a good AI but needs more work and refining from Google.

u/nolovefullownership on r/GoogleGemini

Es gibt auch eine soziale Reibungsgrenze, die in einer Demo leicht zu übersehen ist. Ein Tech-Rezensent, der es in echten Gesprächen testete, merkte auf LinkedIn an, dass es am besten funktioniert, wenn alle im Raum dasselbe Tool verwenden:

Live AI translation sounds perfect until you're actually in a conversation with other people [...] I think it's a bit hard to use in a social scenario unless all participants are using it [...] Multi-person conversations still feel like they're at the edge of progress.

Wie gut ist es wirklich?

Zwei Dinge sind gleichzeitig wahr. Googles umfassendere Übersetzungs-Upgrades erzielen erstklassige Textqualität im WMT25-Benchmark, und die natürliche Sprachausgabe ist ein klarer Fortschritt. Aber Live-Sprach-Übersetzung in der gesamten Branche macht weiterhin Fehler, die eine Textübersetzung nicht machen würde, und einige davon sind schlimm.

Ein aufschlussreiches Beispiel kam von jemandem, der die Live-Sprachübersetzung im selben Google-Ökosystem (Google Meet) testete und sie gegen die einfache Translate-App per A/B-Test verglich bei einem einfachen Reisesatz:

The voices sounded authentic but I was shocked at how inaccurate some of the translations were. Far worse than what even Google Translate is capable of. For example: English speaker: "Are you going to take care of the hotel reservations and flights?" Live translation: "Vas a cuidar de los pescadores y peleas?" ("Are you going to take care of the fishermen and fights?")

u/de_cachondeo on r/TranslationStudies

Auch Googles eigene Dokumentation ist erfreulich offen über die rauen Kanten. Die Stimmreplikation „kann inkonsistent sein“, wobei Stimmen nach langen Pausen wechseln oder bei schnellen Wortwechseln mehrerer Sprecher hängen bleiben, und die Spracherkennung „hat Schwierigkeiten mit starken Akzenten, ähnlichen Sprachen (z. B. Spanisch vs. Portugiesisch) oder schnellen Sprachwechseln“. Die ehrliche Einschätzung lautet also: brillant für lockere, nachsichtige Gespräche, riskant für alles, wo ein falsches Wort Sie etwas kostet. Diese Unterscheidung ist sehr wichtig, sobald Sie anfangen, an einen Einsatz bei der Arbeit zu denken.

Live-Sprachübersetzung vs. mehrsprachiger Kundenservice

Hier kommt die Neueinordnung, die die meiste Berichterstattung auslässt. Gemini 3.5 Live Translate ist für gesprochene, live geführte Gespräche gebaut, zwei Menschen, die reden, ein Meeting, ein Telefonat. Das ist ein echtes und nützliches Problem, das es zu lösen gilt. Aber es entspricht nicht der Form der meisten Kundenservice-Anliegen.

Support ist größtenteils schriftlich und asynchron: Tickets, E-Mails, Chatnachrichten, Fragen im Help-Center, die oft über Nacht eintreffen, während Ihr Team schläft. Ein Live-Sprachübersetzer hilft nicht bei einer deutschen E-Mail, die in Ihrer Zendesk-Warteschlange liegt, und Sie würden niemals wollen, dass eine unbeaufsichtigte, gelegentlich falsche Sprachausgabe im Namen Ihrer Marke mit einem zahlenden Kunden spricht. Die Fähigkeiten überschneiden sich kaum.

Live-Sprachübersetzung eignet sich für gesprochene Echtzeitgespräche, während mehrsprachige Support-Automatisierung für schriftliche Tickets und Chats in über 80 Sprachen geeignet ist

Wenn mehrsprachiger Support Ihr eigentliches Ziel ist, ist die bessere Kategorie ein KI-Agent für den Kundenservice, der Ihre Hilfedokumente und vergangenen Tickets liest, Antworten entwirft und die einfachen Fälle löst, in welcher Sprache der Kunde auch immer geschrieben hat. Das ist ein Conversational-AI-Problem mit einem Menschen in der Schleife, kein Echtzeit-Audio-Problem. Hier neigt auch die Kostenrechnung dazu, Tier-1-Deflection gegenüber der Einstellung mehrsprachiger Agenten zu bevorzugen, und hier verdient ein KI-Wissensdatenbank-Chatbot sein Geld. Wenn Sie die breitere Kategorie abwägen, sind unser Leitfaden zu KI für den Kundenservice und der Überblick über KI-Kundenservice-Software gute nächste Anlaufstellen.

Probieren Sie eesel aus

Gemini 3.5 Live Translate ist das richtige Werkzeug, wenn das Gespräch laut, live und im Moment stattfindet. Wenn das Gespräch Ihr Support-Posteingang ist, ist eesel stattdessen genau dafür gebaut: ein KI-Helpdesk-Agent, der aus Ihren vergangenen Tickets und Hilfedokumenten lernt, Support in über 80 Sprachen sofort einsatzbereit entwirft und löst und sich direkt in den Helpdesk einklinkt, den Sie bereits betreiben.

Der Unterschied liegt in Aufsicht und Skalierung bei schriftlicher Arbeit. Ein eesel-Kunde, Smava, betreibt einen vollautomatisierten Agenten, der über 100.000 deutschsprachige Support-Tickets pro Monat bearbeitet, die Art von rund um die Uhr verfügbarem, mehrsprachigem Volumen, das ein Live-Sprachübersetzer nie anfassen sollte. Sie behalten die Kontrolle darüber, was er beantworten darf, und Sie können die Autonomie schrittweise hochfahren.

Übersicht des eesel-KI-Helpdesk-Dashboards, in dem ein KI-Agent Support-Tickets in über 80 Sprachen entwirft und löst

Wenn Ihr „Übersetzungsproblem“ in Wirklichkeit ein mehrsprachiges Support-Problem ist, probieren Sie eesel aus und sehen Sie, wie viel von Ihrer Warteschlange es bewältigen kann, bevor ein Mensch überhaupt eingreift.

Häufig gestellte Fragen

Was ist Gemini 3.5 Live Translate?

Gemini 3.5 Live Translate ist Googles Audiomodell für nahezu Echtzeit-Sprache-zu-Sprache-Übersetzung in mehr als 70 Sprachen. Es wurde am 9. Juni 2026 vorgestellt, hört gesprochenem Audio zu und gibt die Übersetzung kontinuierlich gesprochen wieder, wobei Tonfall und Tempo der sprechenden Person erhalten bleiben. Es taucht in der Google-Translate-App, in Google Meet und über die Gemini Live API auf. Wenn Ihr Ziel schriftlicher Support statt Live-Sprache ist, passt ein KI-Agent für den Kundenservice besser.

Ist Gemini 3.5 Live Translate kostenlos nutzbar?

Für Verbraucher wird die Funktion „Live translate“ in der kostenlosen Google-Translate-App auf Android und iOS ausgerollt. Für Entwickler läuft sie über die kostenpflichtige Gemini Live API, die nach Token-Nutzung statt zu einem Pauschalpreis abgerechnet wird. Teams, die die laufenden Kosten von Sprachfunktionen mit Textautomatisierung vergleichen, beginnen oft mit unserer Übersicht zu Kosteneinsparungen beim KI-Kundensupport.

Wie viele Sprachen unterstützt Gemini 3.5 Live Translate?

Das Modell erkennt und übersetzt automatisch in über 70 Sprachen. Speziell in Google Meet ist das ein Sprung von einem früheren Limit von nur fünf Sprachen und ermöglicht über 2.000 Sprachkombinationen in einem einzigen Meeting. Für schriftliche Kanäle können Tools wie ein KI-Wissensdatenbank-Chatbot in Dutzenden Sprachen aus Ihren vorhandenen Dokumenten antworten.

Wie genau ist Gemini 3.5 Live Translate?

Es ist stark bei natürlich klingender Sprache und Gesprächsfluss, aber frühe Tester berichten von schwächerer Verarbeitung nicht-englischer Quellaudios, unzuverlässiger Erkennung von Sprecherwechseln und gelegentlichen Fehlübersetzungen bei einfachen Sätzen. Für geschäftskritische Antworten bevorzugen viele Teams einen überprüfbaren Text-Workflow wie einen KI-Kundenservice-Chatbot gegenüber unbeaufsichtigter Live-Sprache. Lesen Sie unsere Einschätzung zu Conversational AI, um zu sehen, wofür sich jeweils was eignet.

Kann ich Gemini 3.5 Live Translate für den Kundenservice nutzen?

Es kann bei live gesprochenen Gesprächen wie Telefonaten oder Videomeetings helfen, aber der meiste Support findet in schriftlichen Tickets und Chats statt, die Aufsicht und Genauigkeit erfordern. Dafür ist eine dedizierte KI für den Kundenservice, die Tickets in über 80 Sprachen entwirft und löst, wie eesel, in der Regel die bessere Antwort als Live-Sprachübersetzung.

Stellen Sie Ihren KI-Teamkollegen ein

In Minuten eingerichtet. Keine Kreditkarte erforderlich.

Kostenlos testen Demo buchen

Share this article

Article by

Riellvriany Indriawan

Riell is a designer and writer at eesel AI with about two years of experience researching CX platforms, AI chatbots, and helpdesk software. She combines her design background with a sharp eye for how these tools actually look and feel in practice — making her comparisons unusually visual and user-focused.