Was ist Gemini 3.5 Live Translate?

Riellvriany Indriawan
Geschrieben von

Riellvriany Indriawan

Katelin Teen
Geprüft von

Katelin Teen

Zuletzt bearbeitet June 17, 2026

Expertengeprüft
Zwei Menschen sprechen verschiedene Sprachen, verbunden durch eine Live-Schallwelle, als Illustration von Gemini 3.5 Live Translate

Was ist Gemini 3.5 Live Translate?

Gemini 3.5 Live Translate ist ein Sprache-zu-Sprache-Übersetzungsmodell von Google. Sie sprechen in einer Sprache, und es antwortet gesprochen in einer anderen, nahezu in Echtzeit, ohne dass Sie zwischen den Gesprächsbeiträgen eine Taste drücken müssen. Google beschreibt es als „unser neuestes Audiomodell, das nahezu Echtzeit-Sprache-zu-Sprache-Übersetzung in über 70 Sprachen liefert“.

Was die Leute aufhorchen lässt, ist, wie natürlich es klingt. Das Modell „erzeugt flüssige, natürlich klingende übersetzte Sprache, die Intonation, Tempo und Tonhöhe der Sprecher bewahrt“, sodass die übersetzte Stimme weiterhin so steigt und fällt wie der ursprüngliche Sprecher, statt zu einer monotonen Roboter-Vorlesung zu verflachen. Es erkennt auch die Sprache von selbst, sodass Sie ihm nicht sagen müssen, ob die Person Ihnen gegenüber Spanisch oder Tagalog spricht.

Eine Anmerkung zur Benennung, die man richtig verstehen sollte, weil sie für Verwirrung sorgt: Die Funktion „Live translate“ in der Google-Translate-App startete tatsächlich bereits im August 2025, gefolgt von einer Kopfhörer-basierten Beta im Dezember 2025. Was sich im Juni 2026 änderte, ist der Motor darunter: Google tauschte das neue 3.5-Live-Translate-Modell ein. Und trotz des „3.5“-Labels sagt die Modellkarte von DeepMind, dass das Modell auf Gemini 3 Pro basiert, einem dedizierten Audiomodell mit einem Audio-Kontextfenster von 128K Token, nicht der kleineren Flash-Stufe.

Googles offizielle Ankündigungsseite zu Gemini 3.5 Live Translate, entnommen dem Keyword-Blog

Wie Gemini 3.5 Live Translate funktioniert

Die meisten Übersetzungs-Apps, die Sie verwendet haben, laufen wie ein Staffellauf: Sie wandeln Ihre Sprache in Text um, übersetzen den Text und lesen den Text dann mit einer anderen Stimme wieder vor. Das funktioniert, aber genau deshalb fühlen sich ältere Tools abgehackt an, Sie müssen zu Ende reden und dann durch drei Übergaben warten, bevor überhaupt etwas herauskommt.

Gemini 3.5 Live Translate überspringt den Staffellauf. Es nutzt natives Audio, was bedeutet, dass ein einziges Modell den rohen Klang aufnimmt und übersetzten Klang ausgibt. Weil es das Audio nie wegwirft, um es zuerst in Text umzuwandeln, kann es die akustischen Details festhalten, den Tonfall, das Tempo, die Tonhöhe, die eine Text-Pipeline verwerfen würde. Transkripte sind ein optionales Extra, nicht der Mechanismus.

Der zweite Kniff ist, dass es kontinuierlich statt Beitrag für Beitrag übersetzt. Statt auf einen vollständigen Satz zu warten, „erzeugt es kontinuierlich Sprache und wägt dabei den Kompromiss ab, auf Kontext zu warten, um die Qualität zu verbessern, oder sofort zu übersetzen, um mit dem Sprecher synchron zu bleiben“. Das ist der Unterschied zwischen einem Gespräch und einem Walkie-Talkie.

Wie Gemini 3.5 Live Translate den alten Staffellauf aus Sprache-zu-Text, Übersetzung und Text-zu-Sprache durch ein einziges kontinuierliches natives Audiomodell ersetzt
Wie Gemini 3.5 Live Translate den alten Staffellauf aus Sprache-zu-Text, Übersetzung und Text-zu-Sprache durch ein einziges kontinuierliches natives Audiomodell ersetzt

Unter der Haube läuft es für Entwickler über die Live API, eine zustandsbehaftete WebSocket-Verbindung, die Audio in beide Richtungen streamt. Sie aktivieren die Übersetzung, indem Sie eine translationConfig mit einem Zielsprachencode senden und dann Audio als 16-kHz-Mono-PCM in 100-ms-Blöcken einspeisen. Reine Audio-Sitzungen sind auf 15 Minuten begrenzt, sofern Sie sie nicht verlängern, und jeder erzeugte Audioclip trägt ein unmerkliches SynthID-Wasserzeichen, damit er später als KI-erstellt identifiziert werden kann. Das ist dieselbe Familie von Sprachtechnologie mit geringer Latenz hinter dem umfassenderen Gemini-Assistenten, nur rein auf Übersetzung abgestimmt, ohne angehängte Tools oder Smalltalk.

Wo Sie es tatsächlich nutzen können

Google liefert 3.5 Live Translate auf drei getrennten Schienen aus, und welche für Sie relevant ist, hängt ganz davon ab, ob Sie reisend, ein Team oder ein Entwickler sind.

Die drei Wege, Gemini 3.5 Live Translate zu nutzen: die Google-Translate-App für Verbraucher, Google Meet für Teams und die Live API für Entwickler
Die drei Wege, Gemini 3.5 Live Translate zu nutzen: die Google-Translate-App für Verbraucher, Google Meet für Teams und die Live API für Entwickler

Auch die Größenordnungssignale dahinter sind real. Google sagt, dass Grab das Modell testet für die Kommunikation zwischen Fahrer und Reisendem bei Nutzern, die über 10 Millionen Sprachanrufe pro Monat tätigen, was Ihnen zeigt, wohin die Reise geht: eingebettet in die Apps anderer Unternehmen, nicht nur als eigenständiger Übersetzer.

Gemini 3.5 Live Translate auf einen Blick

DimensionDetail
Modellgemini-3.5-live-translate-preview, basiert auf Gemini 3 Pro
Was es machtSprache zu Sprache, Audio rein / Audio raus
SprachenÜber 70 mit automatischer Erkennung
LatenzEin paar Sekunden hinter dem Sprecher
StilBewahrt Intonation, Tempo, Tonhöhe
WoGoogle-Translate-App, Google Meet, Live API
VerfügbarkeitVerbraucher-Rollout; Entwickler- + Meet-Vorschauen
WasserzeichenSynthID auf allem Audio

Wie es sich tatsächlich anfühlt, es zu nutzen

Hier beginnen Marketing und Realität auseinanderzulaufen, und es lohnt sich, bei beidem ehrlich zu sein, denn die Lücke ist die ganze Geschichte.

Auf der guten Seite: Wenn es funktioniert, fühlt es sich anders an als ältere Übersetzungstools. Ein Enthusiast brachte den Reiz nach dem Start auf den Punkt:

Real time speech to speech translation. Over 70 languages. No waiting. No awkward pauses. No robotic stop and start conversations. Just speak naturally and hear the translation almost instantly.

Aber dieselben Threads sind voll von Leuten, die an Grenzen stoßen. Die konsistenteste Beschwerde ist der Sprecherwechsel: Weil das Modell kontinuierlich übersetzt, weiß es manchmal nicht, wann Sie aufgehört haben. Ein Entwickler, der Echtzeit-Dolmetscher-Tools baut, formulierte es unverblümt:

first the understanding of what is spoken is not very good [...] Second it doesn't have and end sentence tag so you can talk and never hear the end because it doesn't know you finished speaking only after you start speaking again or finish the session. It could be a good AI but needs more work and refining from Google.

Es gibt auch eine soziale Reibungsgrenze, die in einer Demo leicht zu übersehen ist. Ein Tech-Rezensent, der es in echten Gesprächen testete, merkte auf LinkedIn an, dass es am besten funktioniert, wenn alle im Raum dasselbe Tool verwenden:

Live AI translation sounds perfect until you're actually in a conversation with other people [...] I think it's a bit hard to use in a social scenario unless all participants are using it [...] Multi-person conversations still feel like they're at the edge of progress.

Wie gut ist es wirklich?

Zwei Dinge sind gleichzeitig wahr. Googles umfassendere Übersetzungs-Upgrades erzielen erstklassige Textqualität im WMT25-Benchmark, und die natürliche Sprachausgabe ist ein klarer Fortschritt. Aber Live-Sprach-Übersetzung in der gesamten Branche macht weiterhin Fehler, die eine Textübersetzung nicht machen würde, und einige davon sind schlimm.

Ein aufschlussreiches Beispiel kam von jemandem, der die Live-Sprachübersetzung im selben Google-Ökosystem (Google Meet) testete und sie gegen die einfache Translate-App per A/B-Test verglich bei einem einfachen Reisesatz:

The voices sounded authentic but I was shocked at how inaccurate some of the translations were. Far worse than what even Google Translate is capable of. For example: English speaker: "Are you going to take care of the hotel reservations and flights?" Live translation: "Vas a cuidar de los pescadores y peleas?" ("Are you going to take care of the fishermen and fights?")

Auch Googles eigene Dokumentation ist erfreulich offen über die rauen Kanten. Die Stimmreplikation „kann inkonsistent sein“, wobei Stimmen nach langen Pausen wechseln oder bei schnellen Wortwechseln mehrerer Sprecher hängen bleiben, und die Spracherkennung „hat Schwierigkeiten mit starken Akzenten, ähnlichen Sprachen (z. B. Spanisch vs. Portugiesisch) oder schnellen Sprachwechseln“. Die ehrliche Einschätzung lautet also: brillant für lockere, nachsichtige Gespräche, riskant für alles, wo ein falsches Wort Sie etwas kostet. Diese Unterscheidung ist sehr wichtig, sobald Sie anfangen, an einen Einsatz bei der Arbeit zu denken.

Live-Sprachübersetzung vs. mehrsprachiger Kundenservice

Hier kommt die Neueinordnung, die die meiste Berichterstattung auslässt. Gemini 3.5 Live Translate ist für gesprochene, live geführte Gespräche gebaut, zwei Menschen, die reden, ein Meeting, ein Telefonat. Das ist ein echtes und nützliches Problem, das es zu lösen gilt. Aber es entspricht nicht der Form der meisten Kundenservice-Anliegen.

Support ist größtenteils schriftlich und asynchron: Tickets, E-Mails, Chatnachrichten, Fragen im Help-Center, die oft über Nacht eintreffen, während Ihr Team schläft. Ein Live-Sprachübersetzer hilft nicht bei einer deutschen E-Mail, die in Ihrer Zendesk-Warteschlange liegt, und Sie würden niemals wollen, dass eine unbeaufsichtigte, gelegentlich falsche Sprachausgabe im Namen Ihrer Marke mit einem zahlenden Kunden spricht. Die Fähigkeiten überschneiden sich kaum.

Live-Sprachübersetzung eignet sich für gesprochene Echtzeitgespräche, während mehrsprachige Support-Automatisierung für schriftliche Tickets und Chats in über 80 Sprachen geeignet ist
Live-Sprachübersetzung eignet sich für gesprochene Echtzeitgespräche, während mehrsprachige Support-Automatisierung für schriftliche Tickets und Chats in über 80 Sprachen geeignet ist

Wenn mehrsprachiger Support Ihr eigentliches Ziel ist, ist die bessere Kategorie ein KI-Agent für den Kundenservice, der Ihre Hilfedokumente und vergangenen Tickets liest, Antworten entwirft und die einfachen Fälle löst, in welcher Sprache der Kunde auch immer geschrieben hat. Das ist ein Conversational-AI-Problem mit einem Menschen in der Schleife, kein Echtzeit-Audio-Problem. Hier neigt auch die Kostenrechnung dazu, Tier-1-Deflection gegenüber der Einstellung mehrsprachiger Agenten zu bevorzugen, und hier verdient ein KI-Wissensdatenbank-Chatbot sein Geld. Wenn Sie die breitere Kategorie abwägen, sind unser Leitfaden zu KI für den Kundenservice und der Überblick über KI-Kundenservice-Software gute nächste Anlaufstellen.

Probieren Sie eesel aus

Gemini 3.5 Live Translate ist das richtige Werkzeug, wenn das Gespräch laut, live und im Moment stattfindet. Wenn das Gespräch Ihr Support-Posteingang ist, ist eesel stattdessen genau dafür gebaut: ein KI-Helpdesk-Agent, der aus Ihren vergangenen Tickets und Hilfedokumenten lernt, Support in über 80 Sprachen sofort einsatzbereit entwirft und löst und sich direkt in den Helpdesk einklinkt, den Sie bereits betreiben.

Der Unterschied liegt in Aufsicht und Skalierung bei schriftlicher Arbeit. Ein eesel-Kunde, Smava, betreibt einen vollautomatisierten Agenten, der über 100.000 deutschsprachige Support-Tickets pro Monat bearbeitet, die Art von rund um die Uhr verfügbarem, mehrsprachigem Volumen, das ein Live-Sprachübersetzer nie anfassen sollte. Sie behalten die Kontrolle darüber, was er beantworten darf, und Sie können die Autonomie schrittweise hochfahren.

Übersicht des eesel-KI-Helpdesk-Dashboards, in dem ein KI-Agent Support-Tickets in über 80 Sprachen entwirft und löst
Übersicht des eesel-KI-Helpdesk-Dashboards, in dem ein KI-Agent Support-Tickets in über 80 Sprachen entwirft und löst

Wenn Ihr „Übersetzungsproblem“ in Wirklichkeit ein mehrsprachiges Support-Problem ist, probieren Sie eesel aus und sehen Sie, wie viel von Ihrer Warteschlange es bewältigen kann, bevor ein Mensch überhaupt eingreift.

Häufig gestellte Fragen

Was ist Gemini 3.5 Live Translate?
Gemini 3.5 Live Translate ist Googles Audiomodell für nahezu Echtzeit-Sprache-zu-Sprache-Übersetzung in mehr als 70 Sprachen. Es wurde am 9. Juni 2026 vorgestellt, hört gesprochenem Audio zu und gibt die Übersetzung kontinuierlich gesprochen wieder, wobei Tonfall und Tempo der sprechenden Person erhalten bleiben. Es taucht in der Google-Translate-App, in Google Meet und über die Gemini Live API auf. Wenn Ihr Ziel schriftlicher Support statt Live-Sprache ist, passt ein KI-Agent für den Kundenservice besser.
Ist Gemini 3.5 Live Translate kostenlos nutzbar?
Für Verbraucher wird die Funktion „Live translate“ in der kostenlosen Google-Translate-App auf Android und iOS ausgerollt. Für Entwickler läuft sie über die kostenpflichtige Gemini Live API, die nach Token-Nutzung statt zu einem Pauschalpreis abgerechnet wird. Teams, die die laufenden Kosten von Sprachfunktionen mit Textautomatisierung vergleichen, beginnen oft mit unserer Übersicht zu Kosteneinsparungen beim KI-Kundensupport.
Wie viele Sprachen unterstützt Gemini 3.5 Live Translate?
Das Modell erkennt und übersetzt automatisch in über 70 Sprachen. Speziell in Google Meet ist das ein Sprung von einem früheren Limit von nur fünf Sprachen und ermöglicht über 2.000 Sprachkombinationen in einem einzigen Meeting. Für schriftliche Kanäle können Tools wie ein KI-Wissensdatenbank-Chatbot in Dutzenden Sprachen aus Ihren vorhandenen Dokumenten antworten.
Wie genau ist Gemini 3.5 Live Translate?
Es ist stark bei natürlich klingender Sprache und Gesprächsfluss, aber frühe Tester berichten von schwächerer Verarbeitung nicht-englischer Quellaudios, unzuverlässiger Erkennung von Sprecherwechseln und gelegentlichen Fehlübersetzungen bei einfachen Sätzen. Für geschäftskritische Antworten bevorzugen viele Teams einen überprüfbaren Text-Workflow wie einen KI-Kundenservice-Chatbot gegenüber unbeaufsichtigter Live-Sprache. Lesen Sie unsere Einschätzung zu Conversational AI, um zu sehen, wofür sich jeweils was eignet.
Kann ich Gemini 3.5 Live Translate für den Kundenservice nutzen?
Es kann bei live gesprochenen Gesprächen wie Telefonaten oder Videomeetings helfen, aber der meiste Support findet in schriftlichen Tickets und Chats statt, die Aufsicht und Genauigkeit erfordern. Dafür ist eine dedizierte KI für den Kundenservice, die Tickets in über 80 Sprachen entwirft und löst, wie eesel, in der Regel die bessere Antwort als Live-Sprachübersetzung.

Share this article

Riellvriany Indriawan

Article by

Riellvriany Indriawan

Riell is a designer and writer at eesel AI with about two years of experience researching CX platforms, AI chatbots, and helpdesk software. She combines her design background with a sharp eye for how these tools actually look and feel in practice — making her comparisons unusually visual and user-focused.

Related Posts

All posts →
Illustration, die einen KI-Chatbot beim Beantworten einer Frage einem KI-Agenten gegenüberstellt, der mit Slack, E-Mail und Ticketing-Tools verbunden ist
AI

KI-Agenten vs. KI-Chatbots: der echte Unterschied und wann man was einsetzt

KI-Agenten vs. KI-Chatbots: Chatbots beantworten Fragen, Agenten handeln und schließen Tickets. Hier ist der echte Unterschied und wann Sie zu welchem greifen sollten.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Strichzeichnung eines Support-Mitarbeiters, der über eine Globus-Sprechblase mit Menschen in verschiedenen Sprachen spricht
AI for business

KI-Echtzeitübersetzung für Unternehmen: wie sie 2026 wirklich funktioniert

KI-Echtzeitübersetzung für Unternehmen erklärt: wo Firmen sie einsetzen, wie sie Support in jeder Sprache abwickelt und worauf Sie achten sollten, bevor Sie ihr vertrauen.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Illustration des Apple Intelligence Siri-Assistenten in Verbindung mit Business-Software-Workflows
AI

Apple Intelligence für Unternehmen: Was es 2026 wirklich leistet (und was nicht)

Ein nüchterner Blick auf Apple Intelligence für Unternehmen in 2026: die neue Siri AI, das kostenlose Entwickler-Framework und wo es für den Kundensupport nicht mehr ausreicht.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Illustration eines Telefons, das den neuen konversationsbasierten Siri AI in Apple Intelligence unter iOS 27 ausführt
AI

Was ist Apple Intelligence in iOS 27? Ein verständlicher Leitfaden

Ein verständlicher Leitfaden zu Apple Intelligence in iOS 27: der neu aufgebaute Siri AI, die Google-Verbindung, was wirklich neu ist und was das für Support-Teams bedeutet.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Redaktionelle Illustration von Claude Opus 4.8 für den Unternehmenseinsatz
AI

Claude Opus 4.8 für Unternehmen: Was sich ändert – und was nicht

Claude Opus 4.8 ist Anthropics Flaggschiff-Modell. Eine praxisnahe Einschätzung aus Betreibersicht: Was das für Ihr Unternehmen bedeutet, was es kostet und wo die Grenzen liegen.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Redaktionelle Illustration von Claude Opus 4.8, Anthropics Flaggschiff-KI-Modell
AI

Was ist Claude Opus 4.8? Ein nüchterner Blick auf Anthropics Flaggschiff-Modell

Claude Opus 4.8 ist Anthropics neuestes Flaggschiff-Modell. Hier erfahren Sie, was sich geändert hat, was es kostet und was ein intelligenteres Modell für den KI-Kundensupport bedeutet.

Riellvriany IndriawanRiellvriany IndriawanJun 17, 2026
Illustration von Claude Fable 5 als langlaufender autonomer Mitarbeiter für ein Unternehmensteam
AI

Claude Fable 5 für Unternehmen: Was Anthropics leistungsstärkstes Modell wirklich für Ihr Team bedeutet

Ein nüchterner Blick auf Claude Fable 5 für Unternehmen: was es kostet, wo es glänzt, wo es Probleme macht und wie Sie es im Kundensupport tatsächlich einsetzen.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Illustration von verstreutem Rauschen und maskierten Blöcken, die sich zu sauberen Textzeilen auflösen, mit einer Stoppuhr als Symbol für Geschwindigkeit
AI

Diffusionsbasierte KI-Modelle erklärt: wie sie funktionieren und warum sie plötzlich so schnell sind

Ein verständlicher Leitfaden zu diffusionsbasierten KI-Modellen: wie sie sich von autoregressiven LLMs unterscheiden, warum sie Text 10x schneller erzeugen und was das für Unternehmen bedeutet.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Eine nicht-technische Person beschreibt eine App-Idee, während die KI Software-Bausteine zusammensetzt
AI

Vibe Coding für Nicht-Entwickler: was es wirklich ist und wie man es sicher nutzt

Ein verständlicher Leitfaden zum Vibe Coding für Nicht-Entwickler: was es bedeutet, welche Tools man nutzt, wo es scheitert und was man gefahrlos selbst bauen kann.

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026

Bereit, Ihren KI-Teamkollegen einzustellen?

In Minuten eingerichtet. Keine Kreditkarte erforderlich.

Kostenlos starten