Gemini 3.5 Live Translateとは?

Riellvriany Indriawan
執筆者

Riellvriany Indriawan

Katelin Teen
レビュー者

Katelin Teen

最終更新 June 17, 2026

専門家による検証済み
異なる言語を話す2人を、ライブの音波がつなぐ様子。Gemini 3.5 Live Translateを表すイラスト

Gemini 3.5 Live Translateとは?

Gemini 3.5 Live Translateは、Googleの音声対音声翻訳モデルです。あなたがある言語で話すと、ほぼリアルタイムで、別の言語で話し返します。発言の合間にボタンを押す必要はありません。Googleはこれを「70以上の言語でほぼリアルタイムの音声対音声翻訳を実現する、私たちの最新の音声モデル」と説明しています。

人々が思わず注目してしまうのは、その自然な聞こえ方です。このモデルは「話者の抑揚、ペース、声の高さを保った、なめらかで自然に聞こえる翻訳音声を生成する」ので、翻訳された声はロボットのような棒読みに平板化することなく、元の話者のように抑揚を持って上下します。さらに言語を自動的に検出するので、テーブルの向かいの相手がスペイン語を話しているのかタガログ語を話しているのかを伝える必要はありません。

きちんと整理しておくとよい名称についての注意が1つあります。人々を混乱させるからです。Google翻訳アプリの「Live translate」機能は、実は2025年8月にさかのぼってローンチされており2025年12月にはヘッドフォンベースのベータ版が続きました。2026年6月に変わったのは、その下のエンジンです。Googleが新しい3.5 Live Translateモデルに入れ替えたのです。そして「3.5」という呼称にもかかわらず、DeepMindのモデルカードは、このモデルがGemini 3 Proに基づいていると述べています。これは128Kトークンの音声コンテキストウィンドウを備えた専用の音声モデルであり、より小さなFlashティアではありません。

Googleの公式Gemini 3.5 Live Translate発表ページ。Keywordブログより引用

Gemini 3.5 Live Translateの仕組み

あなたが使ったことのあるたいていの翻訳アプリは、リレー競争のように動きます。あなたの音声をテキストに変換し、テキストを翻訳し、それから別の声でテキストを読み上げます。これでも機能はしますが、古いツールが途切れ途切れに感じられる理由でもあります。あなたは話し終え、それから何かが出てくるまで3つの受け渡しを待たなければなりません。

Gemini 3.5 Live Translateはリレーを省きます。ネイティブ音声を使い、つまり単一のモデルが生の音を取り込み、翻訳された音を生み出します。音声をまずテキストに変換するために捨ててしまうことが決してないため、テキストパイプラインなら捨ててしまうであろう音響的なディテール、つまり口調、ペース、声の高さを保持できます。書き起こしは任意の追加機能であり、仕組みそのものではありません。

2つ目の工夫は、1ターンずつではなく連続して翻訳することです。完全な文を待つのではなく、「品質を高めるために文脈を待つことと、話者と同期し続けるためにすぐに翻訳することとのトレードオフをバランスさせながら、連続して音声を生成する」のです。これが、会話とトランシーバーの違いです。

Gemini 3.5 Live Translateが、従来の音声対テキスト・翻訳・テキスト対音声というリレーを、1つの連続したネイティブ音声モデルに置き換える仕組み
Gemini 3.5 Live Translateが、従来の音声対テキスト・翻訳・テキスト対音声というリレーを、1つの連続したネイティブ音声モデルに置き換える仕組み

開発者向けの内部では、Live API上で動作します。これは音声を双方向にストリーミングする、ステートフルなWebSocket接続です。ターゲット言語コードを指定したtranslationConfigを送ることで翻訳を有効にし、それから100msのチャンクの16kHzモノラルPCMとして音声を流し込みます。音声のみのセッションは、延長しない限り15分に制限されており、生成された音声のクリップにはすべて、あとでAI生成と識別できるよう知覚できないSynthIDの透かしが付いています。これは、より広範なGeminiアシスタントの背後にあるのと同じ系統の低遅延音声技術で、ただツールや雑談を付けずに翻訳だけに純粋にチューニングされたものです。

実際にどこで使えるのか

Googleは3.5 Live Translateを3つの別々のトラックで提供しており、どれがあなたにとって重要かは、あなたが旅行者なのか、チームなのか、ビルダーなのかに完全に左右されます。

Gemini 3.5 Live Translateを使う3つの方法:一般ユーザー向けのGoogle翻訳アプリ、チーム向けのGoogle Meet、開発者向けのLive API
Gemini 3.5 Live Translateを使う3つの方法:一般ユーザー向けのGoogle翻訳アプリ、チーム向けのGoogle Meet、開発者向けのLive API

その背後にあるスケールのシグナルも本物です。Googleによると、Grabがこのモデルをテストしています。月に1,000万回を超える音声通話を行うユーザー間での、ドライバーと旅行者のコミュニケーションのためです。これは、これがどこへ向かっているのかを示しています。単独の翻訳機としてではなく、他社のアプリの中に組み込まれていく、ということです。

Gemini 3.5 Live Translate 一覧

項目詳細
モデルgemini-3.5-live-translate-previewGemini 3 Proに基づく
何をするか音声対音声、音声入力/音声出力
言語自動検出で70以上
遅延話者から数秒遅れ
スタイル抑揚、ペース、声の高さを保つ
場所Google翻訳アプリGoogle MeetLive API
提供状況一般ユーザー向けに順次提供。開発者+Meetはプレビュー
透かしすべての音声にSynthID

実際に使ってみた感触

ここで、マーケティングと現実が分かれ始めます。そして、その両方について正直であることには価値があります。なぜなら、そのギャップこそが物語のすべてだからです。

良い面としては、うまく動くとき、それは古い翻訳ツールとは違う感触です。ある熱心なユーザーは、ローンチ後にその魅力をこうまとめました。

Real time speech to speech translation. Over 70 languages. No waiting. No awkward pauses. No robotic stop and start conversations. Just speak naturally and hear the translation almost instantly.

しかし、同じスレッドは、壁にぶつかった人々でいっぱいです。最も一貫した不満は話者交代です。モデルが連続して翻訳するため、あなたがいつ話し終えたのかが分からないことがあるのです。リアルタイム通訳ツールを構築する開発者は、率直にこう述べました。

first the understanding of what is spoken is not very good [...] Second it doesn't have and end sentence tag so you can talk and never hear the end because it doesn't know you finished speaking only after you start speaking again or finish the session. It could be a good AI but needs more work and refining from Google.

デモでは見落としがちな、社会的な摩擦の天井もあります。実際の会話でこれをテストしたあるテックレビュアーは、部屋にいる全員が同じツールを使っているときに最もうまくいくとLinkedInで指摘しました

Live AI translation sounds perfect until you're actually in a conversation with other people [...] I think it's a bit hard to use in a social scenario unless all participants are using it [...] Multi-person conversations still feel like they're at the edge of progress.

本当のところ、どれくらい良いのか?

2つのことが同時に真です。Googleのより広範な翻訳のアップグレードは、WMT25ベンチマークで最先端のテキスト品質を打ち出しており、自然な音声出力は明確な進歩です。しかし、業界全体でライブ音声翻訳は、テキスト翻訳ならしないであろう間違いを依然として犯しており、その一部はひどいものです。

示唆に富む例が、同じGoogleのエコシステム(Google Meet)でライブ音声翻訳をテストした人から寄せられました。その人は、単純な旅行用の文で、それを通常のTranslateアプリとA/Bで比較しました

The voices sounded authentic but I was shocked at how inaccurate some of the translations were. Far worse than what even Google Translate is capable of. For example: English speaker: "Are you going to take care of the hotel reservations and flights?" Live translation: "Vas a cuidar de los pescadores y peleas?" ("Are you going to take care of the fishermen and fights?")

Google自身のドキュメントも、粗削りな点について気持ちいいほど率直です。音声の再現は「一貫しないことがある」とされ、長い沈黙のあとで声が変わったり、複数話者の急速なやり取りの中で詰まったりします。また、言語検出は「強いアクセント、似た言語(例:スペイン語とポルトガル語)、急速な言語の切り替えに苦労する」とされています。つまり正直な読み解きはこうです。気軽で寛容な会話には見事だが、間違った1語があなたに代償をもたらすようなものには危険だ、と。この区別は、仕事での利用を考え始めた途端に大きな意味を持ちます。

ライブ音声翻訳 vs 多言語カスタマーサポート

ここに、ほとんどの報道が飛ばしている捉え直しがあります。Gemini 3.5 Live Translateは、話された、ライブの会話のために作られています。2人が話す、会議、電話です。それは実際に存在し、解決する価値のある問題です。しかし、それはたいていのカスタマーサポートの形ではありません。

サポートの大半は文章で、非同期です。チケット、メール、チャットメッセージ、ヘルプセンターの質問であり、しばしばあなたのチームが眠っている夜のあいだに届きます。ライブ音声翻訳機は、あなたのZendeskのキューに積まれたドイツ語のメールには役立ちませんし、監視のない、ときに間違える音声出力が、料金を払う顧客に対してあなたのブランドを代弁して話すことなど、あなたは決して望まないでしょう。スキルはほとんど重なりません。

ライブ音声翻訳はリアルタイムの話される会話に適し、多言語サポートの自動化は80以上の言語にわたる文章のチケットとチャットに適している
ライブ音声翻訳はリアルタイムの話される会話に適し、多言語サポートの自動化は80以上の言語にわたる文章のチケットとチャットに適している

多言語のサポートが本当の目的なら、より良いカテゴリーは、あなたのヘルプドキュメントと過去のチケットを読み、返信を下書きし、簡単なものを解決するカスタマーサービス向けのAIエージェントです。顧客がどの言語で書いてきても対応します。それは、人間が関与する会話型AIの問題であり、リアルタイム音声の問題ではありません。また、ここはコストの計算が、多言語エージェントを雇うよりもティア1のディフレクションを有利にしがちな場所でもあり、AIナレッジベースチャットボットがその働きに見合う場所でもあります。より広いカテゴリーを比較検討しているなら、カスタマーサービス向けAIに関する私たちのガイドと、AIカスタマーサービスソフトウェアの概説が、次に立ち寄るのに良い場所です。

eeselを試す

Gemini 3.5 Live Translateは、会話が声に出して、ライブで、その瞬間に起きているときには、ふさわしいツールです。会話があなたのサポート受信トレイのときは、代わりにeeselがそのために作られています。過去のチケットとヘルプドキュメントから学び、最初から80以上の言語でサポートを下書きして解決し、あなたがすでに運用しているヘルプデスクに直接つながるAIヘルプデスクエージェントです。

違いは、文章作業における監視とスケールです。あるeeselの顧客であるSmavaは、月に10万件を超えるドイツ語のサポートチケットを処理する完全自動化されたエージェントを運用しています。これは、ライブ音声翻訳機が決して触れるように作られていなかった種類の、常時稼働の多言語ボリュームです。何に答えてよいかをあなたが管理し続け、自律性を段階的に引き上げていけます。

eesel AIヘルプデスクのダッシュボード概要。AIエージェントが80以上の言語でサポートチケットを下書きして解決する様子
eesel AIヘルプデスクのダッシュボード概要。AIエージェントが80以上の言語でサポートチケットを下書きして解決する様子

あなたの「翻訳」の問題が、実は多言語サポートの問題なのであれば、eeselを試して、人間が一歩踏み出す前に、キューのどれだけを処理できるかを確かめてみてください。

よくある質問

Gemini 3.5 Live Translateとは何ですか?
Gemini 3.5 Live Translateは、70以上の言語にわたるほぼリアルタイムの音声対音声翻訳のためのGoogleの音声モデルです。2026年6月9日に発表され、話された音声を聞き取り、話者の抑揚とペースを保ちながら、翻訳を連続して話し返します。Google翻訳アプリ、Google Meet、そしてGemini Live APIを通じて利用できます。目的がライブ音声ではなく文章でのサポートであれば、カスタマーサービス向けのAIエージェントのほうが適しています。
Gemini 3.5 Live Translateは無料で使えますか?
一般ユーザー向けには、Live translate機能がAndroidとiOSの無料のGoogle翻訳アプリ内で順次提供されています。開発者向けには、有料のGemini Live APIを通じて動作し、定額制ではなくトークン使用量で課金されます。音声機能とテキスト自動化の運用コストを比較するチームは、まずAIカスタマーサポートのコスト削減に関する解説から始めることが多いです。
Gemini 3.5 Live Translateは何言語に対応していますか?
このモデルは70以上の言語を自動的に検出して翻訳します。とりわけGoogle Meetでは、これまでわずか5言語という上限からの飛躍であり、1回の会議で2,000を超える言語の組み合わせを可能にします。文章でのチャネル向けには、AIナレッジベースチャットボットのようなツールが、既存のドキュメントをもとに数十の言語で回答できます。
Gemini 3.5 Live Translateの精度はどのくらいですか?
自然に聞こえる発話と会話の流れには強みがありますが、初期のテスターからは、英語以外のソース音声の処理が弱いこと、話者交代の検出が不安定なこと、単純な文での誤訳がときどき起きることが報告されています。ビジネス上重要な返信については、多くのチームが、監視のないライブ音声よりもAIカスタマーサービスチャットボットのような確認可能なテキストワークフローを好みます。それぞれがどこに適しているかについては、会話型AIに関する私たちの見解をご覧ください。
Gemini 3.5 Live Translateをカスタマーサポートに使えますか?
電話やビデオ会議のような、ライブで話される会話には役立ちますが、サポートの大半は監視と正確さを必要とする文章でのチケットやチャットで発生します。そのためには、80以上の言語でチケットを下書きして解決するeeselのような専用のカスタマーサービス向けAIのほうが、ライブ音声翻訳よりも通常は適した答えです。

Share this article

Riellvriany Indriawan

Article by

Riellvriany Indriawan

Riell is a designer and writer at eesel AI with about two years of experience researching CX platforms, AI chatbots, and helpdesk software. She combines her design background with a sharp eye for how these tools actually look and feel in practice — making her comparisons unusually visual and user-focused.

Related Posts

All posts →
質問に答えるAIチャットボットと、Slack・メール・チケットツールに接続されたAIエージェントを対比したイラスト
AI

AIエージェント vs AIチャットボット:本当の違いと、どちらをいつ使うべきか

AIエージェント vs AIチャットボット:チャットボットは質問に答え、エージェントは行動してチケットを解決します。本当の違いと、どちらをいつ使うべきかを解説します。

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
地球儀の吹き出しを通じて、さまざまな言語の人々と話すサポート担当者を描いた線画イラスト
AI for business

ビジネス向けAIリアルタイム翻訳:2026年に実際どう機能するのか

ビジネス向けAIリアルタイム翻訳をわかりやすく解説:企業がどこで使い、あらゆる言語のサポートをどう処理し、信頼する前に何を確認すべきか。

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Apple IntelligenceのSiri AIアシスタントがビジネスソフトウェアのワークフローと連携するイラスト
AI

ビジネス向けApple Intelligence:2026年に実際にできること(できないこと)

2026年のビジネス向けApple Intelligenceを冷静に分析:新しいSiri AI、無料の開発者フレームワーク、そしてカスタマーサポートには不十分な理由。

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
iOS 27のApple IntelligenceでSiri AIの会話インターフェースを表示するスマートフォンのイラスト
AI

iOS 27のApple Intelligenceとは?わかりやすいガイド

iOS 27のApple Intelligenceを解説:再構築されたSiri AI、Googleとの連携、本当に新しいこと、そしてサポートチームにとっての意味。

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Claude Opus 4.8のビジネス活用に関する編集イラスト
AI

Claude Opus 4.8のビジネス活用:変わること、変わらないこと

Claude Opus 4.8はAnthropicのフラグシップモデルです。オペレーターの視点からの実践的な考察:ビジネスへの意味、コスト、そして限界を解説します。

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
AnthropicのフラッグシップAIモデル、Claude Opus 4.8の編集イラスト
AI

Claude Opus 4.8とは?Anthropicの主力モデルを冷静に見る

Claude Opus 4.8はAnthropicの最新主力モデルです。何が変わったのか、コストはどのくらいか、そしてより賢いモデルがAIカスタマーサポートにとって何を意味するかを解説します。

Riellvriany IndriawanRiellvriany IndriawanJun 17, 2026
ビジネスチームのために長時間稼働する自律的なチームメイトとして働くClaude Fable 5のイラスト
AI

ビジネス向けClaude Fable 5:Anthropic最強モデルがあなたのチームにとって実際に何を意味するのか

ビジネス向けClaude Fable 5を冷静に見る:いくらかかるのか、どこで輝くのか、どこでつまずくのか、そしてカスタマーサポートで実際にどう活用するのか。

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
散らばったノイズとマスクされたブロックが、整然としたテキストの行へと解像していくイラスト。速度を示すストップウォッチを添えて
AI

拡散ベースのAIモデルを解説:仕組みと、なぜ突然これほど高速になったのか

拡散ベースのAIモデルをわかりやすく解説するガイド。自己回帰型LLMとの違い、なぜテキスト生成が10倍速いのか、そしてそれがビジネスに何を意味するのかを説明します。

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
ばらばらのテキストトークンが整った読みやすいテキストへと収束する様子のイラスト。DiffusionGemmaの並列ノイズ除去を表現
AI

DiffusionGemmaとは?Googleのオープンウェイト拡散LLMを解説

DiffusionGemmaはGoogleのオープンウェイトのテキスト拡散モデルです。テキストのブロック全体を並列に書き出す26BのMixture-of-Expertsで、生成が最大4倍高速になります。

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026

AIチームメイトを採用する準備はできましたか?

数分でセットアップ。クレジットカード不要。

無料で始める