ブログ / AI

Gemini 3.5 Live Translateとは?

執筆者

Riellvriany Indriawan

レビュー者

Katelin Teen

最終更新 June 17, 2026

専門家による検証済み

異なる言語を話す2人を、ライブの音波がつなぐ様子。Gemini 3.5 Live Translateを表すイラスト

TL;DR

Gemini 3.5 Live Translateは、70以上の言語にわたるほぼリアルタイムの音声対音声翻訳のためのGoogleの音声モデルです。2026年6月9日に発表されました。あなたが文を言い終えるのを待つのではなく、連続して聞き取り、翻訳を話します。話者からほんの数秒遅れるだけで、その口調とペースを保ちます。

これには3つの場所で出会えます。無料のGoogle翻訳アプリ、ライブ会議向けのGoogle Meet、そして開発者向けのGemini Live APIです。旅行や気軽な会話には目を見張るものがありますが、初期のテスターは精度や話者交代に関する実際のギャップを指摘しており、通訳者の、そしてさらに重要なことに、あなたのサポートキューの、そのまま使える代替にはなりません。数十の言語での文章サポートには、確認可能なカスタマーサービス向けのAIエージェントのほうが、ライブ音声翻訳よりも適しています。

Gemini 3.5 Live Translateとは?

Gemini 3.5 Live Translateは、Googleの音声対音声翻訳モデルです。あなたがある言語で話すと、ほぼリアルタイムで、別の言語で話し返します。発言の合間にボタンを押す必要はありません。Googleはこれを「70以上の言語でほぼリアルタイムの音声対音声翻訳を実現する、私たちの最新の音声モデル」と説明しています。

人々が思わず注目してしまうのは、その自然な聞こえ方です。このモデルは「話者の抑揚、ペース、声の高さを保った、なめらかで自然に聞こえる翻訳音声を生成する」ので、翻訳された声はロボットのような棒読みに平板化することなく、元の話者のように抑揚を持って上下します。さらに言語を自動的に検出するので、テーブルの向かいの相手がスペイン語を話しているのかタガログ語を話しているのかを伝える必要はありません。

きちんと整理しておくとよい名称についての注意が1つあります。人々を混乱させるからです。Google翻訳アプリの「Live translate」機能は、実は2025年8月にさかのぼってローンチされており、2025年12月にはヘッドフォンベースのベータ版が続きました。2026年6月に変わったのは、その下のエンジンです。Googleが新しい3.5 Live Translateモデルに入れ替えたのです。そして「3.5」という呼称にもかかわらず、DeepMindのモデルカードは、このモデルがGemini 3 Proに基づいていると述べています。これは128Kトークンの音声コンテキストウィンドウを備えた専用の音声モデルであり、より小さなFlashティアではありません。

Googleの公式Gemini 3.5 Live Translate発表ページ。Keywordブログより引用

Gemini 3.5 Live Translateの仕組み

あなたが使ったことのあるたいていの翻訳アプリは、リレー競争のように動きます。あなたの音声をテキストに変換し、テキストを翻訳し、それから別の声でテキストを読み上げます。これでも機能はしますが、古いツールが途切れ途切れに感じられる理由でもあります。あなたは話し終え、それから何かが出てくるまで3つの受け渡しを待たなければなりません。

Gemini 3.5 Live Translateはリレーを省きます。ネイティブ音声を使い、つまり単一のモデルが生の音を取り込み、翻訳された音を生み出します。音声をまずテキストに変換するために捨ててしまうことが決してないため、テキストパイプラインなら捨ててしまうであろう音響的なディテール、つまり口調、ペース、声の高さを保持できます。書き起こしは任意の追加機能であり、仕組みそのものではありません。

2つ目の工夫は、1ターンずつではなく連続して翻訳することです。完全な文を待つのではなく、「品質を高めるために文脈を待つことと、話者と同期し続けるためにすぐに翻訳することとのトレードオフをバランスさせながら、連続して音声を生成する」のです。これが、会話とトランシーバーの違いです。

Gemini 3.5 Live Translateが、従来の音声対テキスト・翻訳・テキスト対音声というリレーを、1つの連続したネイティブ音声モデルに置き換える仕組み

開発者向けの内部では、Live API上で動作します。これは音声を双方向にストリーミングする、ステートフルなWebSocket接続です。ターゲット言語コードを指定したtranslationConfigを送ることで翻訳を有効にし、それから100msのチャンクの16kHzモノラルPCMとして音声を流し込みます。音声のみのセッションは、延長しない限り15分に制限されており、生成された音声のクリップにはすべて、あとでAI生成と識別できるよう知覚できないSynthIDの透かしが付いています。これは、より広範なGeminiアシスタントの背後にあるのと同じ系統の低遅延音声技術で、ただツールや雑談を付けずに翻訳だけに純粋にチューニングされたものです。

実際にどこで使えるのか

Googleは3.5 Live Translateを3つの別々のトラックで提供しており、どれがあなたにとって重要かは、あなたが旅行者なのか、チームなのか、ビルダーなのかに完全に左右されます。

Gemini 3.5 Live Translateを使う3つの方法:一般ユーザー向けのGoogle翻訳アプリ、チーム向けのGoogle Meet、開発者向けのLive API

一般ユーザーは、AndroidとiOSのGoogle翻訳アプリ内でこれを利用できます。アプリを開き、Live translateをタップし、2つの言語を選んで、話し始めます。Androidには、翻訳を電話の受話口に直接ストリーミングする新しいリスニングモードもあり、普通の通話のように耳に当てて使えます。
チームは、Google Meetでこれを利用でき、ここでは大きな飛躍です。Meetの音声翻訳は「これまでのわずか5言語という上限」から70以上に拡大し、1回の会議で2,000を超える言語の組み合わせを可能にします。まずはビジネス向けWorkspaceの顧客向けにプライベートプレビューで提供されます。
開発者は、Gemini Live APIとGoogle AI Studioをパブリックプレビューで、モデルID gemini-3.5-live-translate-preview のもとで利用できます。リアルタイムのメディア配信は通常、LiveKit、Pipecat、Agoraのようなパートナーが担当します。

その背後にあるスケールのシグナルも本物です。Googleによると、Grabがこのモデルをテストしています。月に1,000万回を超える音声通話を行うユーザー間での、ドライバーと旅行者のコミュニケーションのためです。これは、これがどこへ向かっているのかを示しています。単独の翻訳機としてではなく、他社のアプリの中に組み込まれていく、ということです。

Gemini 3.5 Live Translate 一覧

項目	詳細
モデル	`gemini-3.5-live-translate-preview`、Gemini 3 Proに基づく
何をするか	音声対音声、音声入力/音声出力
言語	自動検出で70以上
遅延	話者から数秒遅れ
スタイル	抑揚、ペース、声の高さを保つ
場所	Google翻訳アプリ、Google Meet、Live API
提供状況	一般ユーザー向けに順次提供。開発者+Meetはプレビュー
透かし	すべての音声にSynthID

実際に使ってみた感触

ここで、マーケティングと現実が分かれ始めます。そして、その両方について正直であることには価値があります。なぜなら、そのギャップこそが物語のすべてだからです。

良い面としては、うまく動くとき、それは古い翻訳ツールとは違う感触です。ある熱心なユーザーは、ローンチ後にその魅力をこうまとめました。

Real time speech to speech translation. Over 70 languages. No waiting. No awkward pauses. No robotic stop and start conversations. Just speak naturally and hear the translation almost instantly.

u/Grewup01 on r/GoogleGemini

しかし、同じスレッドは、壁にぶつかった人々でいっぱいです。最も一貫した不満は話者交代です。モデルが連続して翻訳するため、あなたがいつ話し終えたのかが分からないことがあるのです。リアルタイム通訳ツールを構築する開発者は、率直にこう述べました。

first the understanding of what is spoken is not very good [...] Second it doesn't have and end sentence tag so you can talk and never hear the end because it doesn't know you finished speaking only after you start speaking again or finish the session. It could be a good AI but needs more work and refining from Google.

u/nolovefullownership on r/GoogleGemini

デモでは見落としがちな、社会的な摩擦の天井もあります。実際の会話でこれをテストしたあるテックレビュアーは、部屋にいる全員が同じツールを使っているときに最もうまくいくとLinkedInで指摘しました。

Live AI translation sounds perfect until you're actually in a conversation with other people [...] I think it's a bit hard to use in a social scenario unless all participants are using it [...] Multi-person conversations still feel like they're at the edge of progress.

本当のところ、どれくらい良いのか?

2つのことが同時に真です。Googleのより広範な翻訳のアップグレードは、WMT25ベンチマークで最先端のテキスト品質を打ち出しており、自然な音声出力は明確な進歩です。しかし、業界全体でライブ音声翻訳は、テキスト翻訳ならしないであろう間違いを依然として犯しており、その一部はひどいものです。

示唆に富む例が、同じGoogleのエコシステム(Google Meet)でライブ音声翻訳をテストした人から寄せられました。その人は、単純な旅行用の文で、それを通常のTranslateアプリとA/Bで比較しました。

The voices sounded authentic but I was shocked at how inaccurate some of the translations were. Far worse than what even Google Translate is capable of. For example: English speaker: "Are you going to take care of the hotel reservations and flights?" Live translation: "Vas a cuidar de los pescadores y peleas?" ("Are you going to take care of the fishermen and fights?")

u/de_cachondeo on r/TranslationStudies

Google自身のドキュメントも、粗削りな点について気持ちいいほど率直です。音声の再現は「一貫しないことがある」とされ、長い沈黙のあとで声が変わったり、複数話者の急速なやり取りの中で詰まったりします。また、言語検出は「強いアクセント、似た言語(例:スペイン語とポルトガル語)、急速な言語の切り替えに苦労する」とされています。つまり正直な読み解きはこうです。気軽で寛容な会話には見事だが、間違った1語があなたに代償をもたらすようなものには危険だ、と。この区別は、仕事での利用を考え始めた途端に大きな意味を持ちます。

ライブ音声翻訳 vs 多言語カスタマーサポート

ここに、ほとんどの報道が飛ばしている捉え直しがあります。Gemini 3.5 Live Translateは、話された、ライブの会話のために作られています。2人が話す、会議、電話です。それは実際に存在し、解決する価値のある問題です。しかし、それはたいていのカスタマーサポートの形ではありません。

サポートの大半は文章で、非同期です。チケット、メール、チャットメッセージ、ヘルプセンターの質問であり、しばしばあなたのチームが眠っている夜のあいだに届きます。ライブ音声翻訳機は、あなたのZendeskのキューに積まれたドイツ語のメールには役立ちませんし、監視のない、ときに間違える音声出力が、料金を払う顧客に対してあなたのブランドを代弁して話すことなど、あなたは決して望まないでしょう。スキルはほとんど重なりません。

ライブ音声翻訳はリアルタイムの話される会話に適し、多言語サポートの自動化は80以上の言語にわたる文章のチケットとチャットに適している

多言語のサポートが本当の目的なら、より良いカテゴリーは、あなたのヘルプドキュメントと過去のチケットを読み、返信を下書きし、簡単なものを解決するカスタマーサービス向けのAIエージェントです。顧客がどの言語で書いてきても対応します。それは、人間が関与する会話型AIの問題であり、リアルタイム音声の問題ではありません。また、ここはコストの計算が、多言語エージェントを雇うよりもティア1のディフレクションを有利にしがちな場所でもあり、AIナレッジベースチャットボットがその働きに見合う場所でもあります。より広いカテゴリーを比較検討しているなら、カスタマーサービス向けAIに関する私たちのガイドと、AIカスタマーサービスソフトウェアの概説が、次に立ち寄るのに良い場所です。

eeselを試す

Gemini 3.5 Live Translateは、会話が声に出して、ライブで、その瞬間に起きているときには、ふさわしいツールです。会話があなたのサポート受信トレイのときは、代わりにeeselがそのために作られています。過去のチケットとヘルプドキュメントから学び、最初から80以上の言語でサポートを下書きして解決し、あなたがすでに運用しているヘルプデスクに直接つながるAIヘルプデスクエージェントです。

違いは、文章作業における監視とスケールです。あるeeselの顧客であるSmavaは、月に10万件を超えるドイツ語のサポートチケットを処理する完全自動化されたエージェントを運用しています。これは、ライブ音声翻訳機が決して触れるように作られていなかった種類の、常時稼働の多言語ボリュームです。何に答えてよいかをあなたが管理し続け、自律性を段階的に引き上げていけます。

eesel AIヘルプデスクのダッシュボード概要。AIエージェントが80以上の言語でサポートチケットを下書きして解決する様子

あなたの「翻訳」の問題が、実は多言語サポートの問題なのであれば、eeselを試して、人間が一歩踏み出す前に、キューのどれだけを処理できるかを確かめてみてください。

よくある質問

Gemini 3.5 Live Translateとは何ですか?

Gemini 3.5 Live Translateは、70以上の言語にわたるほぼリアルタイムの音声対音声翻訳のためのGoogleの音声モデルです。2026年6月9日に発表され、話された音声を聞き取り、話者の抑揚とペースを保ちながら、翻訳を連続して話し返します。Google翻訳アプリ、Google Meet、そしてGemini Live APIを通じて利用できます。目的がライブ音声ではなく文章でのサポートであれば、カスタマーサービス向けのAIエージェントのほうが適しています。

Gemini 3.5 Live Translateは無料で使えますか?

一般ユーザー向けには、Live translate機能がAndroidとiOSの無料のGoogle翻訳アプリ内で順次提供されています。開発者向けには、有料のGemini Live APIを通じて動作し、定額制ではなくトークン使用量で課金されます。音声機能とテキスト自動化の運用コストを比較するチームは、まずAIカスタマーサポートのコスト削減に関する解説から始めることが多いです。

Gemini 3.5 Live Translateは何言語に対応していますか?

このモデルは70以上の言語を自動的に検出して翻訳します。とりわけGoogle Meetでは、これまでわずか5言語という上限からの飛躍であり、1回の会議で2,000を超える言語の組み合わせを可能にします。文章でのチャネル向けには、AIナレッジベースチャットボットのようなツールが、既存のドキュメントをもとに数十の言語で回答できます。

Gemini 3.5 Live Translateの精度はどのくらいですか?

自然に聞こえる発話と会話の流れには強みがありますが、初期のテスターからは、英語以外のソース音声の処理が弱いこと、話者交代の検出が不安定なこと、単純な文での誤訳がときどき起きることが報告されています。ビジネス上重要な返信については、多くのチームが、監視のないライブ音声よりもAIカスタマーサービスチャットボットのような確認可能なテキストワークフローを好みます。それぞれがどこに適しているかについては、会話型AIに関する私たちの見解をご覧ください。

Gemini 3.5 Live Translateをカスタマーサポートに使えますか?

電話やビデオ会議のような、ライブで話される会話には役立ちますが、サポートの大半は監視と正確さを必要とする文章でのチケットやチャットで発生します。そのためには、80以上の言語でチケットを下書きして解決するeeselのような専用のカスタマーサービス向けAIのほうが、ライブ音声翻訳よりも通常は適した答えです。

AIチームメイトを採用しよう

数分でセットアップ。クレジットカード不要。

無料で試すデモを予約

Share this article

Article by

Riellvriany Indriawan

Riell is a designer and writer at eesel AI with about two years of experience researching CX platforms, AI chatbots, and helpdesk software. She combines her design background with a sharp eye for how these tools actually look and feel in practice — making her comparisons unusually visual and user-focused.