拡散ベースのAIモデルを解説:仕組みと、なぜ突然これほど高速になったのか

Alicia Kirana Utomo
執筆者

Alicia Kirana Utomo

Katelin Teen
レビュー者

Katelin Teen

最終更新 June 17, 2026

専門家による検証済み
散らばったノイズとマスクされたブロックが、整然としたテキストの行へと解像していくイラスト。速度を示すストップウォッチを添えて

拡散ベースのAIモデルとは何か?

拡散モデルは、段階的なノイズ付加プロセスを逆転させることでデータを構築する方法を学ぶ生成モデルです。この発想は物理学に由来します。実データにランダムなノイズを少しずつ加えていく一連のステップを定義し、そのプロセスを逆転させてノイズからサンプルを再構成するようネットワークを訓練します。基礎となる研究はSohl-Dickstein et al. (2015)と、2020年のノイズ除去拡散確率モデル(denoising diffusion probabilistic models)に関する論文です。

これには二つの半分があります。**順方向プロセス(forward process)**では、実際の画像を取り、それが完全な砂嵐(ノイズ)になるまで、少しずつガウスノイズを何度も加えていきます。この部分には学習は必要ありません。その唯一の役割は訓練ペアを作り出すことです。**逆方向プロセス(reverse process)**では、ニューラルネットワークが一度に1ステップ分のノイズを取り消す方法を学習します。生成時にはランダムなノイズから出発し、ネットワークを繰り返し実行し、各パスでもう少しずつ取り除いていき、一貫した結果が現れるまで続けます

これをすんなり腑に落とす直感はこうです。氷の彫刻が溶けて水たまりになる様子を撮影し、そのフィルムを逆再生することを想像してください。形のない水たまりから出発し、フレームごとに彫刻へと再び凍らせていくのです。モデルは各ステップでキャンバス全体を扱うため、進めながら前の間違いを修正し続けることができます。

これは、現代のほとんどの画像・動画・音声生成を支える技術です。拡散はSora、Midjourney、Riffusionの背後にありDALL-E 2ImagenStable Diffusionも同様です。共通の筋道は、いずれもノイズから出発し、あなたのプロンプトに導かれながら結果へと反復的にノイズ除去していくという点です。

自己回帰型LLMはどのようにテキストを生成するのか

拡散がテキストにとってなぜ大きな意味を持つのかを理解するには、対比が必要です。あなたが使ったことのあるほぼすべての大規模言語モデル(LLM)は、ChatGPTClaudeGemini、Llamaを含め、**自己回帰型(autoregressive)**モデルです。それはテキストを左から右へ、一度に1トークンずつ生成し、トークンはそれより前のすべてが存在するまで生成できません

その設計からは二つの帰結が生まれ、どちらも比較において重要です。

利点は、可変長の出力が簡単なことです。モデルは完了したらシーケンス終了トークンを出すだけです。その柔軟性は、自己回帰がテキストで支配的であり続けてきた理由の一つです。

拡散言語モデルはどのように違った形でテキストを生成するのか

拡散言語モデル(dLLM)は、画像のレシピをテキストに移植します。ノイズからピクセルを作る代わりに、マスクからトークンを作るのです。Google DeepMindはこれを率直に説明しています。テキストを直接予測するのではなく、モデルはノイズを段階的に洗練して出力を生成する方法を学ぶため、解に素早く反復し、生成中に誤りを訂正できる、と。

拡散言語モデルがテキストを書く仕組み:すべてがマスクされたプレースホルダーから出発し、確信のある単語を確定させ、残りを並列で洗練し、最終的な回答にたどり着く
拡散言語モデルがテキストを書く仕組み:すべてがマスクされたプレースホルダーから出発し、確信のある単語を確定させ、残りを並列で洗練し、最終的な回答にたどり着く

テキストにおける主流の手法は**マスク拡散(masked diffusion)**です。8Bのオープン拡散モデルであるLLaDAでは、順方向プロセスがトークンをマスクし、逆方向プロセスがトランスフォーマーの「マスク予測器」を使ってマスクされたトークンを一度にすべて埋め、完全にマスクされた状態から完全に書かれた状態への拡散をシミュレートします。それ以前の系統であるDiffusion-LMは、代わりに単語ベクトル上の連続拡散を使いました。

目玉となる違いは**並列デコーディング(parallel decoding)**です。dLLMはトークンを一度に1つずつではなく並列で生成し、基盤となるトランスフォーマーは複数のトークンを同時に変更して回答を全体的に改善できます。定式化が非自己回帰的であるため、**任意順序生成(any-order generation)**も可能になります。モデルはシーケンス内のどこであれ確信のある単語を先に確定させ、それから残りを埋めることができます。

最も明快な説明の一つは、実はHacker Newsの開発者から出てきたもので、「拡散がトランスフォーマーを置き換える」という混乱を断ち切るものでした。

「名前に反して、拡散LMは画像拡散とはほとんど関係がなく、BERTや古き良きマスク言語モデリングにずっと近い……ゼロから何かを生成するには、まずモデルにすべての[MASK]を与えることから始める……10ステップでシーケンス全体を生成し終えているだろう。」nvtop、Hacker NewsでのGemini Diffusionの議論より

その並列・双方向の見方は、拡散モデルがなぜギャップの側のコンテキストを見られるのかの理由でもあります。例えばLLaDAは、左から右へのモデルをつまずかせる反転の呪いを克服し、反転詩の補完タスクでGPT-4oを上回ります

自己回帰型 vs 拡散型:核心的な違い

この記事から一つの絵だけ覚えるなら、これにしてください。自己回帰型モデルはリレー競走のように文を組み立て、各単語が次へとバトンを渡します。拡散型モデルはポラロイド写真を現像するように文を組み立て、画像全体が一度に浮かび上がり、パスごとに鮮明になっていきます。

自己回帰型生成(単語が順番に一つずつ生成される)と拡散型生成(シーケンス全体が並列で洗練される)の比較
自己回帰型生成(単語が順番に一つずつ生成される)と拡散型生成(シーケンス全体が並列で洗練される)の比較

買い手が実際に気にする観点で、この二つがどう比較されるかは次のとおりです。

観点自己回帰型(GPT、Claude、Gemini)拡散型(Mercury、Gemini Diffusion)
生成順序左から右へ、一度に1トークンシーケンス全体を並列で、任意順序
速度数十〜約200トークン/秒約1,000〜1,500トークン/秒
前のトークンを修正できるか?いいえ、一度出たら固定はい、ノイズ除去パスをまたいで可能
編集とインフィリングぎこちない(追記のみ)自然(両側を条件にできる)
難しい推論現状では強い後れを取る、特にフロンティア規模で
長いコンテキストより効率的(KVキャッシュを再利用)より弱い(パスごとにアテンションを再計算)
出力長可変、柔軟しばしば固定長ブロック
エコシステムの成熟度5年分のツール群初期段階、急速に進展中

対称性に注目してください。拡散の勝ち点(速度、修正、インフィリング)も負け点(推論の深さ、長いコンテキスト、成熟度)も、いずれも同じ根本原因に遡れます。シーケンス全体を並列で扱うことが、それを高速かつ編集可能にする一方で、長いコンテキストと段階的な推論をより難しくしているのです。

速度の見返りと、その落とし穴

速度の数字は本当に目を見張るもので、すべてがマーケティングというわけではありません。開発者でありLLMブロガーのSimon Willisonは、Gemini Diffusionのウェイトリストを通過して試しました。

「では鍵となる特徴は速度だ。ウェイトリストを通過して、たった今試してみたが、いやはや、彼らが速いと言っているのは冗談ではない。」Simon Willison、Gemini Diffusionの第一印象

いくつかのモデル間でスループットがどう比較されるかを、文脈として自己回帰型のベースラインとともに示します。

モデル種類スループット(トークン/秒)出典
Gemini Diffusion拡散型約1,479(オーバーヘッド除く)ベンダー
Mercury 2 (Inception)拡散型約1,196ピークArtificial Analysis
Mercury Coder Mini拡散型1,109ベンダー、AAが裏付け
Gemini 2.0 Flash-Lite自己回帰型約201Inceptionによる
Claude 4.5 Haiku自己回帰型約89Inceptionによる
GPT-5 Mini自己回帰型約71Inceptionによる

ここで正直に押さえておくべきことが二つあります。第一に、ほとんどのスループットの数字はNVIDIA H100上で測定され、その多くはベンダーの主張です。Artificial Analysisが主要な独立した出典であり、Mercuryの速度は裏付けたものの、品質はまだ裏付けていません。第二に、速度の優位性は本物ですが条件付きです。高品質な生成には通常、多くのノイズ除去ステップが必要で、安易にステップを削ると品質が急激に低下しますので、速度は慎重に使う必要があります。

そして品質のギャップは依然として目に見えており、特に難しいタスクでそうです。Gemini Diffusionは、いくつかのコードと数学のベンチマークでは先行しているにもかかわらず、Flash-Liteに対してGPQA Diamondで40.4%対56.5%、Global MMLUで69.1%対79.0%というスコアです。本番のエージェントスタックに携わるエンジニアの率直な見解は引用する価値があります。歴史的な問題を直接名指ししているからです。

「[初期の拡散LMは]壊れた時計が速いのと同じ意味で速かった——間違った答えにどれだけ速くたどり着けても意味がない。」vainkop、「Mercury 2 and the End of Autoregressive Monopoly」

今日のチームへの彼の評価は慎重です。これは「自分のエージェントスタックを今すぐ書き直せ」という瞬間ではなく、「注意深く追い、素早く動く準備をしておけ」という瞬間だ、というものです。

先頭を走るモデルたち

この分野は、研究上の物珍しさから出荷可能な製品へと急速に移行しました。資金調達のシグナルは大きく鳴り響いています。StanfordのStefano Ermonによって設立されたInception Labsは、2025年11月に5,000万ドルを調達しました。その戦略的な顔ぶれにはNvidia、MicrosoftのM12、Databricks、Snowflakeが含まれ、さらにエンジェルのAndrew NgとAndrej Karpathyも名を連ねています。インフラのプレイヤーが賭けるとき、彼らはその速度が提供可能だと考えているのです。

モデル提供元ステータス際立つ点
Mercury / Mercury 2Inception LabsAPI稼働中、100万トークンあたり$0.25 / $0.75初の商用拡散LLM;約1,196トークン/秒
Gemini DiffusionGoogle DeepMind実験的、ウェイトリスト約Gemini 2.0 Flash-Liteの品質を数倍の速度で
DiffusionGemmaGoogle DeepMindオープンウェイト(Apache 2.0)、2026年6月26Bのmixture-of-experts;1,000トークン/秒超、品質はGemma 4以下
LLaDA 8BML-GSAI(研究)オープンウェイトMMLU 65.9、ほぼLlama3 8Bに匹敵
Dream 7BHKU NLP + Huaweiオープンウェイト計画タスクで圧倒(数独 81.0 対 Qwenの21.0)

名前が紛らわしいほど似ているので、手短に明確化しておきます。「Gemini Diffusion」(クローズド、ウェイトリスト)と「DiffusionGemma」(オープンウェイト)は、Googleの二つの異なるリリースです。前者はGoogle I/O 2025で披露された実験的なホスト型モデルで、後者は2026年6月10日にApache 2.0でリリースされたダウンロード可能な26Bモデルで、256トークンのブロックを並列でノイズ除去して生成し、公開されたすべてのベンチマークで標準的なGemma 4を下回っています。品質と引き換えの速度を、オープンに取引しているわけです。

これらすべてに共通するパターンは、小規模・中規模では品質ギャップを縮める10倍超のスループット優位性(LLaDAはほぼLlama3 8Bに匹敵、Mercuryはコードで競争力あり)ですが、フロンティアでは依然として現れます。今日の主要なユースケースはコード生成と、並列デコーディングの速度が積み重なる低レイテンシのエージェント的ループです。

なぜ拡散ベースのAIモデルはビジネスにとって重要なのか

モデルを製品の中に組み込むと、速度はもはや見栄えだけの指標ではなくなります。最も明快な捉え方は本番運用の経験から来ています。自己回帰型システムでは、レイテンシはチェーンの中で積み重なります

言語モデルが中心に座り、回答品質を決める各層に囲まれている:知識と検索、ガードレールとエスカレーション、ヘルプデスク連携、テストと監視
言語モデルが中心に座り、回答品質を決める各層に囲まれている:知識と検索、ガードレールとエスカレーション、ヘルプデスク連携、テストと監視

あるエンジニアが説明したように、モデルを3回呼び出す(推論、計画、実行)単一のエージェントステップは、3回の逐次パスです。それをいくつか連鎖させると7〜8秒に達し、それは「リアルタイムのエージェントではなく、遅いバッチジョブだ」ということになります。ステップごとの生成が速くなれば、より深いAIエージェントのチェーンが手の届くものになります。同じ記事は、チームが現在SLAを守るためにチェーンの深さを3〜5ステップに抑えていると指摘しています。拡散速度の推論があれば、10ステップのチェーンが実現可能に見え始めます。

速度が報われる具体的な場面をいくつか挙げます。

  • リアルタイムチャットとコパイロット。 そのエンジニアの言葉を借りれば、サブ秒の応答は、SaaS製品のアシスタント層にとって「採用されるか見放されるかの違い」です。
  • 大量バッチテキスト。 要約、分類、再フォーマット、翻訳はスループット律速で並列化可能であり、まさに拡散が輝く領域です。
  • コーディングアシスタント。 拡散のインフィリングの性質はコード編集に適しており、ブロックの先頭と末尾を同じパスで生成し、途中を編集できます。

そしてコストの問題があります。同じハードウェア上でより速く生成できるということは、トークンあたりの推論コストが下がることを意味します。そしてInceptionの共同創業者は、このアプローチは「転送されたメモリ単位あたりより多くの計算を行う」と主張しており、これが古いハードウェアでAI推論コストを削減する新たな方法を開くとしています。1日に数十万件のエージェント呼び出しを実行するチームにとって、これは積み重なります。Mercury 2の公開価格である入力100万トークンあたり$0.25、出力100万トークンあたり$0.75は本当に安価です。

しかし、ここがほとんどの報道が飛ばしている部分です。ほとんどの本番アプリにとって、自己回帰型モデルは依然としてデフォルトであり、それには正当な理由があります。それらは長いコンテキストをより効率的に扱い、より深く推論し(拡散はトークンあたりの仕事が少ないため、「考える」余地が少ない)、5年分のツールを背後に持っています。現実的な一手は置き換えではなくルーティングです。単純で高頻度のステップ(検索、整形、分類)は高速な拡散モデルに送り、深い推論にはフロンティアの自己回帰型モデルを取っておくのです。それをAIエージェント対人間エージェントのコストの経済性と比べれば、その魅力は明らかです。安価な仕事を、より多く安価にこなすのです。

AIカスタマーサポートにとって何を意味するのか

カスタマーサポートは、一見すると完璧な拡散のユースケースに見えます。ライブチャットとAIサポートエージェントは、まさに1秒対数秒の差が、体験を反応が良いと感じさせるか、もたついていると感じさせるかを決める、低レイテンシでユーザー向けのシナリオです。より速いモデルは、AIチャットボットでのよりキビキビした応答を意味するはずです。

根拠づけられた会話を表示するeesel AIチャットインターフェース
根拠づけられた会話を表示するeesel AIチャットインターフェース

じっくり考える価値のある捉え直しはこうです。サポートチームにとって、モデルのアーキテクチャは、それを取り巻くオーケストレーションよりはるかに重要度が低いのです。実際のサポートの回答は、ゼロから生成されることはほとんどありません。それはあなたのナレッジベース、チケット履歴、ポリシー文書に基づいて根拠づけられた回答です。これは、拡散の弱点である長いコンテキストの扱いを、サポートのユースケースのまさに進路上に置きます。そしてそれは、検索の品質、知識の新しさ、ガードレールが、最終トークンが左から右に出されたか並列で出されたかよりも、はるかに回答を左右することを意味します。

ありていに言えば、古い知識や弱いエスカレーションルールにつながった高速なモデルは、間違った回答をより速く生み出すだけです。壊れた時計の問題を、サポートに当てはめたものです。これはまた、AIチャットボットの問題が、なぜそれほど基盤モデルに起因することが少なく、根拠づけ、テスト、そして実際に追跡すべき指標に起因することがそれほど多いのかの理由でもあります。

そこで本当に役立つアドバイスは、モデルに依存しない姿勢を保つことです。それが来年のより速い拡散モデルであれ、より賢い自己回帰型モデルであれ、基盤となるモデルがあなたの足元で改善していけるような層を選びましょう。拡散から最も恩恵を受けるチームは、まず堅固なオーケストレーションの上に構築し、モデルを差し替え可能な部品として扱ったチームです。

eeselを試す

これこそ、eesel AIが構築されている方法そのものです。一つのモデルアーキテクチャに賭けるのではなく、eeselはオーケストレーション層です。初日からあなたの過去のチケット、ヘルプドキュメント、ツールから学習し、その後、あなたがすでに使っているヘルプデスク全体で返信を下書きし、トリアージし、エスカレーションします。確信度ベースのルーティングにより、確信度の低い回答は本番公開されず下書きのままに留まります。

eesel AIヘルプデスクダッシュボードの概要
eesel AIヘルプデスクダッシュボードの概要

このトピックにとって重要な差別化要因は、シミュレーションモードです。これはあなたの過去のチケットに対してエージェントを実行するので、本番公開前にカバレッジを確認し、ギャップを修正できます。これこそ、高速なモデルが自信満々に間違った回答を出荷するのを止める方法です。100以上の連携と80以上の言語にわたって動作するので、来年どのモデルが最速・最賢になろうと、あなたのサポート環境は機能し続けます。クレジットカード不要でeeselを無料で試すことができます。

よくある質問

拡散ベースのAIモデルとは、簡単に言うと何ですか?
拡散ベースのAIモデルは、ランダムなノイズ(またはマスクされたプレースホルダー)から出発し、それを段階的に洗練して完成した結果へと仕上げることで出力を生成します。これはStable Diffusionのような画像ツールの背後にある技術であり、より最近では、シーケンス全体を並列でノイズ除去してテキストを書く拡散言語モデルの基盤にもなっています。より広い入門は、サポートチーム向け生成AIの概説をご覧ください。
拡散言語モデルは、GPTやClaudeのような自己回帰型LLMとどう違うのですか?
ChatGPTClaudeのような自己回帰型LLMは、テキストを左から右へ、一度に1トークンずつ生成し、各トークンはそれより前のすべてが揃うのを待ちます。拡散言語モデルは、数回のノイズ除去パスにわたって多数のトークンを同時に洗練するため、はるかに高速であり、前の単語を修正することもできます。トレードオフは、現時点では難しい推論や長いコンテキストのタスクで後れを取っている点です。
拡散ベースのAIモデルは、通常のLLMより実際に速いのですか?
生のスループットに関しては、はい。独立したテストでは、InceptionのMercury 2はおよそ毎秒1,196トークンを記録し、速度最適化された自己回帰型モデルの毎秒数十から数百トークンと比べて大きく上回りました。注意点は、速度の優位性は長く並列化できる出力で最大になり、ごく短い回答では小さくなることです。速度がAIカスタマーサービスの指標にどう影響するかをご覧ください。
自社のビジネスは拡散言語モデルに切り替えるべきですか?
ほとんどの本番アプリにとっては、まだその時期ではありません。自己回帰型モデルは依然として推論の深さ、長いコンテキスト、エコシステムの成熟度で先行しています。賢明な一手はルーティングです。高頻度でレイテンシに敏感なステップは高速な拡散モデルに送り、深い推論には自己回帰型モデルを残します。特にカスタマーサポートでは、モデルそのものより、その周りのAIヘルプデスクエージェントのオーケストレーションの方が重要です。
AIカスタマーサポートにとって、モデルのアーキテクチャは重要ですか?
思っているほどではありません。サポートの回答は、ナレッジベース、チケット履歴、ポリシーに基づいて根拠づけられた回答なので、トークンが並列で出力されたかどうかよりも、検索(リトリーバル)、ガードレール、連携が品質を左右します。古い知識につながった高速なモデルは、間違った回答をより速く生み出すだけです。eesel AIのようなツールは、基盤となるモデルに関わらず、そのオーケストレーション層に注力しています。

Share this article

Alicia Kirana Utomo

Article by

Alicia Kirana Utomo

Kira is a writer at eesel AI with a Computer Science background and over a year of hands-on experience evaluating AI-powered customer service tools. She focuses on breaking down how helpdesk platforms and AI agents actually work so that support teams can make better buying decisions.

Related Posts

All posts →
ばらばらのテキストトークンが整った読みやすいテキストへと収束する様子のイラスト。DiffusionGemmaの並列ノイズ除去を表現
AI

DiffusionGemmaとは?Googleのオープンウェイト拡散LLMを解説

DiffusionGemmaはGoogleのオープンウェイトのテキスト拡散モデルです。テキストのブロック全体を並列に書き出す26BのMixture-of-Expertsで、生成が最大4倍高速になります。

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Apple IntelligenceのSiri AIアシスタントがビジネスソフトウェアのワークフローと連携するイラスト
AI

ビジネス向けApple Intelligence:2026年に実際にできること(できないこと)

2026年のビジネス向けApple Intelligenceを冷静に分析:新しいSiri AI、無料の開発者フレームワーク、そしてカスタマーサポートには不十分な理由。

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
iOS 27のApple IntelligenceでSiri AIの会話インターフェースを表示するスマートフォンのイラスト
AI

iOS 27のApple Intelligenceとは?わかりやすいガイド

iOS 27のApple Intelligenceを解説:再構築されたSiri AI、Googleとの連携、本当に新しいこと、そしてサポートチームにとっての意味。

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Claude Opus 4.8のビジネス活用に関する編集イラスト
AI

Claude Opus 4.8のビジネス活用:変わること、変わらないこと

Claude Opus 4.8はAnthropicのフラグシップモデルです。オペレーターの視点からの実践的な考察:ビジネスへの意味、コスト、そして限界を解説します。

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
AnthropicのフラッグシップAIモデル、Claude Opus 4.8の編集イラスト
AI

Claude Opus 4.8とは?Anthropicの主力モデルを冷静に見る

Claude Opus 4.8はAnthropicの最新主力モデルです。何が変わったのか、コストはどのくらいか、そしてより賢いモデルがAIカスタマーサポートにとって何を意味するかを解説します。

Riellvriany IndriawanRiellvriany IndriawanJun 17, 2026
質問に答えるAIチャットボットと、Slack・メール・チケットツールに接続されたAIエージェントを対比したイラスト
AI

AIエージェント vs AIチャットボット:本当の違いと、どちらをいつ使うべきか

AIエージェント vs AIチャットボット:チャットボットは質問に答え、エージェントは行動してチケットを解決します。本当の違いと、どちらをいつ使うべきかを解説します。

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
ビジネスチームのために長時間稼働する自律的なチームメイトとして働くClaude Fable 5のイラスト
AI

ビジネス向けClaude Fable 5:Anthropic最強モデルがあなたのチームにとって実際に何を意味するのか

ビジネス向けClaude Fable 5を冷静に見る:いくらかかるのか、どこで輝くのか、どこでつまずくのか、そしてカスタマーサポートで実際にどう活用するのか。

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
異なる言語を話す2人を、ライブの音波がつなぐ様子。Gemini 3.5 Live Translateを表すイラスト
AI

Gemini 3.5 Live Translateとは?

Gemini 3.5 Live Translateは、70以上の言語に対応したGoogleのリアルタイム音声対音声翻訳モデルです。何ができ、どう機能し、どこに適しているのかを解説します。

Riellvriany IndriawanRiellvriany IndriawanJun 17, 2026
技術者ではない人がアプリのアイデアを説明し、AIがソフトウェアの構成要素を組み立てている様子
AI

非エンジニアのためのバイブコーディング:実際にどういうもので、安全に使うには

非エンジニア向けのバイブコーディングをわかりやすく解説するガイド。その意味、使うべきツール、どこで破綻するか、そして自分で安全に作れるものを紹介します。

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026

AIチームメイトを採用する準備はできましたか?

数分でセットアップ。クレジットカード不要。

無料で始める