Gemma 4とは?GoogleのオープンAIモデルファミリーを解説

Alicia Kirana Utomo
執筆者

Alicia Kirana Utomo

Katelin Teen
レビュー者

Katelin Teen

最終更新 June 19, 2026

専門家による検証済み
ラップトップとローカルサーバーで動作するGoogleのオープンウェイトAIモデルファミリー、Gemma 4のイラスト

Gemma 4とは正確には何か?

私はeeselでAIエージェントを構築しており、ここ数年でオープンモデルが「試してみると楽しい」から「有料顧客の前に出せるほど優秀」になっていく過程を観察してきました。毎日ライブのサポートキューでエージェントを稼働させており、あるお客様であるSmavaは自動エージェントで月間10万件以上のドイツ語チケットを処理しています。Googleが新しいオープンモデルをリリースするたびに、一つの視点から読みます:人間の監視なしに顧客に回答させて本当に信頼できるか?

Gemma 4はオープンモデルとしてこの問いに対する最も興味深い答えです。

簡単に言えば、GemmaはGoogle DeepMindのオープンモデルラインで、クローズドなGeminiモデルの小さくてダウンロード可能な親戚です。Gemma 4はGoogleのローンチポストによると「パラメータあたりの知能を最大化するためにGemini 3と同じ世界クラスの研究と技術から構築されています」。キーワードはオープンウェイトです:Googleは実際のモデルファイルを公開しているため、ネットワークからAPIコールを一切出さずに自分のラップトップ、サーバー、スマートフォンで実行できます。

また、マルチモーダルでもあります。すべてのモデルがテキストと画像入力を処理し、小さいモデルはネイティブオーディオを追加し、モデルカードでは2025年1月のトレーニングカットオフと140以上の言語サポートが示されています。RAG対LLMの解説記事を読んだ方には:Gemma 4はその絵の「LLM」部分、自分の知識に向けるリーズニングエンジンです。

5つのサイズとどれが自分に合うか

Gemma 4は1つのモデルではなく5つあり、実行される場所ごとに分類されています。これは他の何より先に理解する価値のある部分です。なぜなら間違ったサイズを選ぶのが私が見てきた最もよくある失敗だからです。

スマートフォンから1GPUサーバーまで、各Gemma 4サイズが動作するハードウェアのマッピング
スマートフォンから1GPUサーバーまで、各Gemma 4サイズが動作するハードウェアのマッピング

モデルカードから直接抜粋したスペック付きのラインアップです:

モデル有効パラメータコンテキストモダリティ動作環境
E2B2.3B(埋め込みで5.1B)128Kテキスト、画像、音声スマートフォン、Raspberry Pi、エッジ
E4B4.5B(埋め込みで8B)128Kテキスト、画像、音声ハイエンドスマートフォン、IoT
12B Unified11.95B256Kテキスト、画像、音声ラップトップ(~16GB)
26B A4B (MoE)25.2B合計、3.8Bアクティブ256Kテキスト、画像ワークステーション、低レイテンシ重視
31B Dense30.7B256Kテキスト、画像80GB H100×1、最高品質

E2BとE4Bの「E」は有効パラメータを意味します。これらのモデルはPer-Layer Embeddingsと呼ばれるトリックを使ってメモリフットプリントを小さく保つことで、スマートフォンがほぼゼロレイテンシでオフライン動作できます。GoogleはPixelチームとQualcomm、MediaTekと共同開発したため、デモではなく実際のモバイルシリコン向けに最適化されています。

12B Unifiedは新参者で、2026年6月3日に追加されました。「ラップトップ対応」の選択肢であり、Googleが初めてネイティブ音声入力を備えた中型モデルです。31B Denseは純粋な品質の旗艦で、すべてのファインチューニングのベースとなっています。

中間の26Bがグループの中で最も巧みな設計です。独自のセクションに値します。

26Bモデルが20倍大きいモデルに匹敵できる理由

26BはMixture-of-Experts(MoE)モデルで、これを理解することがGemma 4の重要性を把握する最善の方法です。

通常の「密な」モデルは処理するすべてのトークンですべてのパラメータを起動します。MoEモデルはパラメータを多くの小さな「エキスパート」に分割し、各トークンに対して実際に必要な少数のみをオンにします。その仕組みは次の通りです:

Mixture-of-Expertsモデルが各トークンを少数のエキスパートにルーティングし、アクティブパラメータを低く保つ仕組み
Mixture-of-Expertsモデルが各トークンを少数のエキスパートにルーティングし、アクティブパラメータを低く保つ仕組み

Gemma 4の26Bは25.2Bの総パラメータを持ちますが、128のエキスパートのうち8つと1つの共有エキスパートを経由してトークンあたり3.8Bのみがアクティブです。実際の結果:4Bの密なモデルとほぼ同じ速度で動作しながら、31Bに近い品質で回答します。(注意点:ルーティングのために25.2B全パラメータをメモリにロードする必要があるため、MoEは計算量を節約しますがRAMは節約しません。)

なぜ重要か?「より賢い」が「より大きく遅い」を意味するという古い前提を打ち破るからです。GoogleのパフォーマンスとサイズのグラフでGemma 4の中型モデルがどこに位置するかを見てください:

Googleの発表で示された、遥かに大きいモデルを超えてパフォーマンス対サイズの最前線に立つGemma 4の31Bと26B
Googleの発表で示された、遥かに大きいモデルを超えてパフォーマンス対サイズの最前線に立つGemma 4の31Bと26B
Arena.aiのチャットアリーナにおけるオープンモデルのパフォーマンス対サイズ、Google DeepMindが公開

31BはArena AIのテキストリーダーボードでオープンモデル3位、26B MoEは6位で、だからこそGoogleは「Gemma 4は20倍のサイズのモデルを凌駕する」と主張できます。サポートチームにとってのポイントはリーダーボードの順位ではなく、その品質が自分たちが所有するハードウェアに収まるということです。

「オープンウェイト」の本当の意味(そしてライセンスが変わった理由)

「オープン」は曖昧に使われることが多いため、正確にします。なぜならここがGemma 4の最大の転換点だからです。

以前のGemmaモデルはカスタムの「Gemma利用規約」の下でリリースされていました。Gemma 4は標準のApache 2.0ライセンスに切り替えました。Googleの言葉によれば「商業的に許容的」であり、「データ、インフラ、モデルへの完全なコントロール」を付与します。Hugging FaceのCEOであるClément Delangueはこの動きを「大きなマイルストーン」と呼びました。

このライセンスが実践的に意味する違いは次の通りです:

クローズドAPIモデルは顧客データをベンダーのサーバーに送信するのに対し、オープンウェイトモデルは自社インフラ内に留める
クローズドAPIモデルは顧客データをベンダーのサーバーに送信するのに対し、オープンウェイトモデルは自社インフラ内に留める

クローズドAPIモデルでは、処理するすべての顧客メッセージがベンダーのサーバーに送信されます。Apache 2.0のオープンウェイトモデルでは、自社インフラ内(オンプレミスまたは自社クラウド)ですべてを実行でき、データが外に出ることはありません。規制産業にいる人にとって、このデータ保管のコントロールがオープンモデルを気にする唯一の理由です。オープンソースのチケットシステムオープンソースのチャットボットプラットフォームを選ぶ理由と同じです。

スケールアップのために、GoogleはGemma 4をVertex AI、Cloud Run、GKEで提供しており、Ollama、llama.cpp、vLLM、LM Studioなどセルフホスターがすでに使っているツールと初日から動作します。

ベンチマークとGemma 4が本当に輝く場所

次に数字です。Googleは命令調整済みのGemma 4モデルを前世代のGemma 3 27Bと比較した完全なベンチマーク表を公開しています:

MMMLU、AIME、GPQA、LiveCodeBench、エージェント型ツール使用にわたるGemma 4ベンチマーク表、Gemma 3 27Bとの比較
MMMLU、AIME、GPQA、LiveCodeBench、エージェント型ツール使用にわたるGemma 4ベンチマーク表、Gemma 3 27Bとの比較
命令調整済みベンチマーク結果、Googleのgemma 4資料に公開

私が注目する行はエージェント型ツール使用です。タスクを完了するためにモデルが実際にツールを呼び出せるかテストするτ2-benchリテールベンチマークで、31BモデルはGemma 3の6.6%に対して86.4%を達成しています。これは段階的な改善ではなく、世代を超えた飛躍です。そしてこれがチャットボットを実際に仕事ができる何かに変える能力です。

クローズドな巨人に対しても健闘しています。Arena Eloでは、31Bの1452は15〜35倍のパラメータを持つモデルのすぐ後ろに位置します:

Arena Eloバーチャート:Glm 5、Kimi k2.5、Qwen 3.5などの遥かに大きいモデルの隣に並ぶGemma 4 31B(1452)
Arena Eloバーチャート:Glm 5、Kimi k2.5、Qwen 3.5などの遥かに大きいモデルの隣に並ぶGemma 4 31B(1452)
パラメータ数に対するArena Eloスコア、Hugging Face経由

アーキテクチャ的に興味深い注記はSebastian Raschkaの分析にあり、Gemma 4はGemma 3から内部的に「ほぼ変わっていない」ため、飛躍は「おそらくトレーニングセットとレシピによるもの」とのことです。つまりGoogleはより良いデータで、新しいアーキテクチャではなくこの飛躍を達成したということで、静かに印象的な成果です。

実際に動かすとどうか

ベンチマークは一つのことです。実際にGemma 4を毎日動かしている人たちは何と言っているか?ローカルモデルコミュニティで調べました。そこに率直な意見があるからです。

称賛は一貫しています:高速で、メモリを食わず、冗長ではありません。

「M4Maxで超高速、そのスピードの割に驚くほど賢い。メモリをボロボロにしない。Qwenみたいに何時間も推論して(トークン予算を全部使い切って)なんてしない...openclaw、hermes、claude codeなどに最適。ローカルでこのモデルが大好き。今の定番モデル。」— u/styles01、r/LocalLLaMA

「何時間も推論しない」というポイントが繰り返し出てきます。マルチモーダルのユースケースで26Bと31Bを動かしているセルフホスターは実際の数字を示し、31Bで約149トークン/秒、26Bで88トークン/秒を報告し、「ベンチマークは大きなモデルと比べてどれほど冗長でないかを本当に捉えていない」と付け加えています。

しかしここに正直な限界があります。これが生のGemma 4をライブキューに無監督で置かない理由です:

「コーディング以外のすべてにおいてはるかに優れていることは同意する。[...] しかし、ウェイトやkvキャッシュがネイティブ以外の量子化だと大きく劣化する。」— u/fragment_me、r/LocalLLM

コミュニティの評価をまとめると:Gemma 4はウェイト以上の性能を発揮する優れたチャット・指示追従モデルで、2つの注意点があります。コーディングとエージェント型ワークフローは弱点で、ネイティブ量子化以外で実行すると顕著に劣化します。仕事に選ぶ前に知っておくべきことです。

カスタマーサポートへの意味

ここからサポートチームを運営する誰にとっても実践的になります。Gemma 4のようなオープンモデルは素晴らしい材料です。単独ではサポートエージェントではありません。

生のモデルは返金ポリシーを知らず、過去のチケットを参照できず、ヘルプデスクに接続されていません。監督なしに顧客の前に置くと、何年もかけて対策してきた失敗パターンが正確に起こります:自信に満ちた口調で静かに間違った回答をするボットです。モデルはエンジンで、実際の製品はその周りのすべて、知識、安全なルーティング、ツールへの接続、そして本番稼働前にテストする能力です。

この差こそが私たちのようなプラットフォームが存在する理由です。オープンウェイトの動きはモデル層のコントロールを与えますが、ほとんどのサポートチームはML Opsチームにもなりたくはありません。ほとんどの人にとって最善の答えは、インフラを自分で構築せずにデータコントロールと学習の利点を得ることです。それがモデルとAIカスタマーサービスプラットフォームの間に私が引く線です。

AIサポートのためにeeselを試す

Gemma 4について読んで「条件は自分次第でAIにチケットに答えてほしい」と考えたなら、それはeeselが解決するために作られた問題です。

eeselのAIヘルプデスクエージェントはすでに使っているツール(Zendesk、Freshdesk、Gorgias、Slack、その他100以上)に接続し、初日から過去のチケットとヘルプドキュメントから学習するので、長年の履歴が即座に知識になります。冒頭の「信頼できるか?」という問いに直接対応する部分:顧客が一人も見る前に、何千件もの過去のチケットに対してエージェントをシミュレートして、どのように回答したかを正確に確認できます。Gridwiseが最初の月にティア1リクエストの73%を解決できたのはそのためです。

接続されたサポートツールとチケットアクティビティを表示するeeselのAIヘルプデスクダッシュボード
接続されたサポートツールとチケットアクティビティを表示するeeselのAIヘルプデスクダッシュボード

使用量ベースで1チケットあたり$0.40から、席料なしで、クレジットカード不要で$50の無料使用量から始められます。エンジンとなるモデルがGemma 4であろうと何であろうと、本当に欲しいのはキューで信頼できるエージェントです。eeselを試してどう対応するか確認してください。

よくある質問

Gemma 4とは何ですか?
Gemma 4はGoogle DeepMindのオープンウェイトAIモデルファミリーで、2026年4月2日にリリースされました。APIのみのモデルとは異なり、実際の重みをダウンロードして自分のハードウェアで実行します。スマートフォンから1つのGPUサーバーまで対応しています。5つのサイズがあり、推論とエージェント型ワークフロー向けに設計されています。
Gemma 4は無料で使えますか?
重みは無料でダウンロードでき、ライセンスはApache 2.0(商用利用可能)なので、トークンあたりのライセンス料はかかりません。コストは実行するインフラのみです。これはほとんどのLLMの料金体系から大きく変わります。
Gemma 4のモデルサイズは?
5つあります:スマートフォンとエッジデバイス向けのE2BとE4B、ラップトップ向けの12B Unifiedモデル、低レイテンシに特化した26B Mixture-of-Expertsモデル、そして旗艦の31B Denseモデルです。各モデルの完全なスペックはモデルカードに記載されています。
Gemma 4はラップトップやスマートフォンで動きますか?
はい。E2BとE4BモデルはスマートフォンやRaspberry Piなどのデバイスで完全オフライン動作し、12B UnifiedモデルはメモリGB16GBのラップトップに収まるよう設計されています。r/LocalLLAMAのセルフホスターは、64GBのMacで26Bが高速動作すると報告しています
Gemma 4はカスタマーサポートに適していますか?
オープンモデルは強力な基盤を提供しますが、本番サポートエージェントには生の重み以上のものが必要です。チケットから学習し、安全にルーティングし、ヘルプデスクに接続する必要があります。eeselのAIヘルプデスクエージェントのようなプラットフォームがその層を担当することで、インフラ構築なしでセルフホスティングのコントロールが得られます。チームがAIでサポートコストを削減する方法をご覧ください。

Share this article

Alicia Kirana Utomo

Article by

Alicia Kirana Utomo

Kira is a writer at eesel AI with a Computer Science background and over a year of hands-on experience evaluating AI-powered customer service tools. She focuses on breaking down how helpdesk platforms and AI agents actually work so that support teams can make better buying decisions.

Related Posts

All posts →
2人の顧客間のB2B SaaS会話を処理するAIサポートチームメイトのイラスト
AI

B2B SaaS向けAIサポート:2026年に実際に機能するもの

B2B SaaSのチケットは技術的で、アカウント固有で、リスクが高い。AIサポートが実際にどう機能するか、何が失敗するか、安全に導入する方法を解説します。

Riellvriany IndriawanRiellvriany IndriawanJun 19, 2026
Claude Opus 4.8のビジネス活用に関する編集イラスト
AI

Claude Opus 4.8のビジネス活用:変わること、変わらないこと

Claude Opus 4.8はAnthropicのフラグシップモデルです。オペレーターの視点からの実践的な考察:ビジネスへの意味、コスト、そして限界を解説します。

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
ばらばらのテキストトークンが整った読みやすいテキストへと収束する様子のイラスト。DiffusionGemmaの並列ノイズ除去を表現
AI

DiffusionGemmaとは?Googleのオープンウェイト拡散LLMを解説

DiffusionGemmaはGoogleのオープンウェイトのテキスト拡散モデルです。テキストのブロック全体を並列に書き出す26BのMixture-of-Expertsで、生成が最大4倍高速になります。

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
生産性向上のためのGoogleドキュメントアプリ完全ガイド(2025年)
Google Docs AI

生産性向上のためのGoogleドキュメントアプリ完全ガイド(2025年)

Google ドキュメントのアドオンは、執筆、図表、ワークフローに役立ちますが、真の飛躍は、eeselのようなAIツールによって、ドキュメントをより賢く自動化することができる点にあります。

Kenneth PanganKenneth PanganSep 15, 2025
コーディングセッションからダッシュボードアーティファクトを共有可能なリンクとして公開するイラスト
AI

Claude Codeアーティファクトとは?2026年版わかりやすいガイド

Claude Codeアーティファクトは、コーディングセッションをライブで共有可能なWebページに変換します。その概要、仕組み、チャットアーティファクトとの違いを解説します。

Alicia Kirana UtomoAlicia Kirana UtomoJun 21, 2026
Palmier、AI生成がタイムラインに組み込まれたAIネイティブの動画エディタ
AI

Palmierとは?AIエージェントが編集できるAI動画エディタ

PalmierはMacネイティブのAI動画エディタで、生成機能がタイムラインに直接組み込まれており、Claudeなどのエージェントがカットを直接編集できます。実際にできることを解説します。

Rama Adi NugrahaRama Adi NugrahaJun 19, 2026
OpenAI Codexの無料アクセスを解説するヒーローバナー。ターミナルとコードエディタのモチーフ付き
AI

OpenAI Codexの無料アクセス解説:$0で実際に何が使えるか

OpenAI Codexは無料ですか?ChatGPT Freeアカウントでサインインすれば、はい無料です。無料プランで実際に使えること、制限の壁がどこにあるか、制限内容を詳しく解説します。

Alicia Kirana UtomoAlicia Kirana UtomoJun 18, 2026
Apple IntelligenceのSiri AIアシスタントがビジネスソフトウェアのワークフローと連携するイラスト
AI

ビジネス向けApple Intelligence:2026年に実際にできること(できないこと)

2026年のビジネス向けApple Intelligenceを冷静に分析:新しいSiri AI、無料の開発者フレームワーク、そしてカスタマーサポートには不十分な理由。

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
iOS 27のApple IntelligenceでSiri AIの会話インターフェースを表示するスマートフォンのイラスト
AI

iOS 27のApple Intelligenceとは?わかりやすいガイド

iOS 27のApple Intelligenceを解説:再構築されたSiri AI、Googleとの連携、本当に新しいこと、そしてサポートチームにとっての意味。

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026

AIチームメイトを採用する準備はできましたか?

数分でセットアップ。クレジットカード不要。

無料で始める