
Gemini 3.5 Live Translateとは?
Gemini 3.5 Live Translateは、Googleの音声対音声翻訳モデルです。あなたがある言語で話すと、ほぼリアルタイムで、別の言語で話し返します。発言の合間にボタンを押す必要はありません。Googleはこれを「70以上の言語でほぼリアルタイムの音声対音声翻訳を実現する、私たちの最新の音声モデル」と説明しています。
人々が思わず注目してしまうのは、その自然な聞こえ方です。このモデルは「話者の抑揚、ペース、声の高さを保った、なめらかで自然に聞こえる翻訳音声を生成する」ので、翻訳された声はロボットのような棒読みに平板化することなく、元の話者のように抑揚を持って上下します。さらに言語を自動的に検出するので、テーブルの向かいの相手がスペイン語を話しているのかタガログ語を話しているのかを伝える必要はありません。
きちんと整理しておくとよい名称についての注意が1つあります。人々を混乱させるからです。Google翻訳アプリの「Live translate」機能は、実は2025年8月にさかのぼってローンチされており、2025年12月にはヘッドフォンベースのベータ版が続きました。2026年6月に変わったのは、その下のエンジンです。Googleが新しい3.5 Live Translateモデルに入れ替えたのです。そして「3.5」という呼称にもかかわらず、DeepMindのモデルカードは、このモデルがGemini 3 Proに基づいていると述べています。これは128Kトークンの音声コンテキストウィンドウを備えた専用の音声モデルであり、より小さなFlashティアではありません。
Gemini 3.5 Live Translateの仕組み
あなたが使ったことのあるたいていの翻訳アプリは、リレー競争のように動きます。あなたの音声をテキストに変換し、テキストを翻訳し、それから別の声でテキストを読み上げます。これでも機能はしますが、古いツールが途切れ途切れに感じられる理由でもあります。あなたは話し終え、それから何かが出てくるまで3つの受け渡しを待たなければなりません。
Gemini 3.5 Live Translateはリレーを省きます。ネイティブ音声を使い、つまり単一のモデルが生の音を取り込み、翻訳された音を生み出します。音声をまずテキストに変換するために捨ててしまうことが決してないため、テキストパイプラインなら捨ててしまうであろう音響的なディテール、つまり口調、ペース、声の高さを保持できます。書き起こしは任意の追加機能であり、仕組みそのものではありません。
2つ目の工夫は、1ターンずつではなく連続して翻訳することです。完全な文を待つのではなく、「品質を高めるために文脈を待つことと、話者と同期し続けるためにすぐに翻訳することとのトレードオフをバランスさせながら、連続して音声を生成する」のです。これが、会話とトランシーバーの違いです。

開発者向けの内部では、Live API上で動作します。これは音声を双方向にストリーミングする、ステートフルなWebSocket接続です。ターゲット言語コードを指定したtranslationConfigを送ることで翻訳を有効にし、それから100msのチャンクの16kHzモノラルPCMとして音声を流し込みます。音声のみのセッションは、延長しない限り15分に制限されており、生成された音声のクリップにはすべて、あとでAI生成と識別できるよう知覚できないSynthIDの透かしが付いています。これは、より広範なGeminiアシスタントの背後にあるのと同じ系統の低遅延音声技術で、ただツールや雑談を付けずに翻訳だけに純粋にチューニングされたものです。
実際にどこで使えるのか
Googleは3.5 Live Translateを3つの別々のトラックで提供しており、どれがあなたにとって重要かは、あなたが旅行者なのか、チームなのか、ビルダーなのかに完全に左右されます。

- 一般ユーザーは、AndroidとiOSのGoogle翻訳アプリ内でこれを利用できます。アプリを開き、Live translateをタップし、2つの言語を選んで、話し始めます。Androidには、翻訳を電話の受話口に直接ストリーミングする新しいリスニングモードもあり、普通の通話のように耳に当てて使えます。
- チームは、Google Meetでこれを利用でき、ここでは大きな飛躍です。Meetの音声翻訳は「これまでのわずか5言語という上限」から70以上に拡大し、1回の会議で2,000を超える言語の組み合わせを可能にします。まずはビジネス向けWorkspaceの顧客向けにプライベートプレビューで提供されます。
- 開発者は、Gemini Live APIとGoogle AI Studioをパブリックプレビューで、モデルID
gemini-3.5-live-translate-previewのもとで利用できます。リアルタイムのメディア配信は通常、LiveKit、Pipecat、Agoraのようなパートナーが担当します。
その背後にあるスケールのシグナルも本物です。Googleによると、Grabがこのモデルをテストしています。月に1,000万回を超える音声通話を行うユーザー間での、ドライバーと旅行者のコミュニケーションのためです。これは、これがどこへ向かっているのかを示しています。単独の翻訳機としてではなく、他社のアプリの中に組み込まれていく、ということです。
Gemini 3.5 Live Translate 一覧
| 項目 | 詳細 |
|---|---|
| モデル | gemini-3.5-live-translate-preview、Gemini 3 Proに基づく |
| 何をするか | 音声対音声、音声入力/音声出力 |
| 言語 | 自動検出で70以上 |
| 遅延 | 話者から数秒遅れ |
| スタイル | 抑揚、ペース、声の高さを保つ |
| 場所 | Google翻訳アプリ、Google Meet、Live API |
| 提供状況 | 一般ユーザー向けに順次提供。開発者+Meetはプレビュー |
| 透かし | すべての音声にSynthID |
実際に使ってみた感触
ここで、マーケティングと現実が分かれ始めます。そして、その両方について正直であることには価値があります。なぜなら、そのギャップこそが物語のすべてだからです。
良い面としては、うまく動くとき、それは古い翻訳ツールとは違う感触です。ある熱心なユーザーは、ローンチ後にその魅力をこうまとめました。
Real time speech to speech translation. Over 70 languages. No waiting. No awkward pauses. No robotic stop and start conversations. Just speak naturally and hear the translation almost instantly.
しかし、同じスレッドは、壁にぶつかった人々でいっぱいです。最も一貫した不満は話者交代です。モデルが連続して翻訳するため、あなたがいつ話し終えたのかが分からないことがあるのです。リアルタイム通訳ツールを構築する開発者は、率直にこう述べました。
first the understanding of what is spoken is not very good [...] Second it doesn't have and end sentence tag so you can talk and never hear the end because it doesn't know you finished speaking only after you start speaking again or finish the session. It could be a good AI but needs more work and refining from Google.
デモでは見落としがちな、社会的な摩擦の天井もあります。実際の会話でこれをテストしたあるテックレビュアーは、部屋にいる全員が同じツールを使っているときに最もうまくいくとLinkedInで指摘しました。
Live AI translation sounds perfect until you're actually in a conversation with other people [...] I think it's a bit hard to use in a social scenario unless all participants are using it [...] Multi-person conversations still feel like they're at the edge of progress.
本当のところ、どれくらい良いのか?
2つのことが同時に真です。Googleのより広範な翻訳のアップグレードは、WMT25ベンチマークで最先端のテキスト品質を打ち出しており、自然な音声出力は明確な進歩です。しかし、業界全体でライブ音声翻訳は、テキスト翻訳ならしないであろう間違いを依然として犯しており、その一部はひどいものです。
示唆に富む例が、同じGoogleのエコシステム(Google Meet)でライブ音声翻訳をテストした人から寄せられました。その人は、単純な旅行用の文で、それを通常のTranslateアプリとA/Bで比較しました。
The voices sounded authentic but I was shocked at how inaccurate some of the translations were. Far worse than what even Google Translate is capable of. For example: English speaker: "Are you going to take care of the hotel reservations and flights?" Live translation: "Vas a cuidar de los pescadores y peleas?" ("Are you going to take care of the fishermen and fights?")
Google自身のドキュメントも、粗削りな点について気持ちいいほど率直です。音声の再現は「一貫しないことがある」とされ、長い沈黙のあとで声が変わったり、複数話者の急速なやり取りの中で詰まったりします。また、言語検出は「強いアクセント、似た言語(例:スペイン語とポルトガル語)、急速な言語の切り替えに苦労する」とされています。つまり正直な読み解きはこうです。気軽で寛容な会話には見事だが、間違った1語があなたに代償をもたらすようなものには危険だ、と。この区別は、仕事での利用を考え始めた途端に大きな意味を持ちます。
ライブ音声翻訳 vs 多言語カスタマーサポート
ここに、ほとんどの報道が飛ばしている捉え直しがあります。Gemini 3.5 Live Translateは、話された、ライブの会話のために作られています。2人が話す、会議、電話です。それは実際に存在し、解決する価値のある問題です。しかし、それはたいていのカスタマーサポートの形ではありません。
サポートの大半は文章で、非同期です。チケット、メール、チャットメッセージ、ヘルプセンターの質問であり、しばしばあなたのチームが眠っている夜のあいだに届きます。ライブ音声翻訳機は、あなたのZendeskのキューに積まれたドイツ語のメールには役立ちませんし、監視のない、ときに間違える音声出力が、料金を払う顧客に対してあなたのブランドを代弁して話すことなど、あなたは決して望まないでしょう。スキルはほとんど重なりません。

多言語のサポートが本当の目的なら、より良いカテゴリーは、あなたのヘルプドキュメントと過去のチケットを読み、返信を下書きし、簡単なものを解決するカスタマーサービス向けのAIエージェントです。顧客がどの言語で書いてきても対応します。それは、人間が関与する会話型AIの問題であり、リアルタイム音声の問題ではありません。また、ここはコストの計算が、多言語エージェントを雇うよりもティア1のディフレクションを有利にしがちな場所でもあり、AIナレッジベースチャットボットがその働きに見合う場所でもあります。より広いカテゴリーを比較検討しているなら、カスタマーサービス向けAIに関する私たちのガイドと、AIカスタマーサービスソフトウェアの概説が、次に立ち寄るのに良い場所です。
eeselを試す
Gemini 3.5 Live Translateは、会話が声に出して、ライブで、その瞬間に起きているときには、ふさわしいツールです。会話があなたのサポート受信トレイのときは、代わりにeeselがそのために作られています。過去のチケットとヘルプドキュメントから学び、最初から80以上の言語でサポートを下書きして解決し、あなたがすでに運用しているヘルプデスクに直接つながるAIヘルプデスクエージェントです。
違いは、文章作業における監視とスケールです。あるeeselの顧客であるSmavaは、月に10万件を超えるドイツ語のサポートチケットを処理する完全自動化されたエージェントを運用しています。これは、ライブ音声翻訳機が決して触れるように作られていなかった種類の、常時稼働の多言語ボリュームです。何に答えてよいかをあなたが管理し続け、自律性を段階的に引き上げていけます。

あなたの「翻訳」の問題が、実は多言語サポートの問題なのであれば、eeselを試して、人間が一歩踏み出す前に、キューのどれだけを処理できるかを確かめてみてください。
よくある質問
Gemini 3.5 Live Translateとは何ですか?
Gemini 3.5 Live Translateは無料で使えますか?
Gemini 3.5 Live Translateは何言語に対応していますか?
Gemini 3.5 Live Translateの精度はどのくらいですか?
Gemini 3.5 Live Translateをカスタマーサポートに使えますか?

Article by
Riellvriany Indriawan
Riell is a designer and writer at eesel AI with about two years of experience researching CX platforms, AI chatbots, and helpdesk software. She combines her design background with a sharp eye for how these tools actually look and feel in practice — making her comparisons unusually visual and user-focused.








