Zendesk AIエージェントの混同行列の使い方:完全ガイド

Stevia Putri

Stanley Nicholas
Last edited 2026 2月 26
Expert Verified
AIエージェントが顧客のインテントを誤って分類し続けると、ユーザーをイライラさせるだけではありません。解決時間の長期化、不必要なエスカレーション、顧客満足度の低下など、問題が連鎖的に発生します。Zendesk AIエージェントの混同行列は、AIがどこで混乱しているかを正確に理解し、それを修正するための診断ツールです。
このガイドでは、混同行列の読み方、AIのパフォーマンスについてそれが示すことの解釈、インテント認識を改善するための具体的な手順について説明します。自動化率の低さをトラブルシューティングしている場合でも、すでにパフォーマンスを発揮しているAIエージェントを微調整している場合でも、混同行列は必要な可視性を提供します。

Zendesk AIエージェントの混同行列とは何ですか?
混同行列は、AIエージェントが顧客のインテントをどれだけ認識しているかを示す可視化ツールです。AIが予測した内容と顧客が実際に意図した内容を比較し、結果を色分けされたグリッドとして表示します。
定義と目的
機械学習の用語では、混同行列は分類アルゴリズムのパフォーマンスを可視化するテーブルです。Zendesk AIエージェントの場合、特にインテント認識を追跡します。顧客がメッセージを送信したとき、AIはどのインテントに一致すると考えたか、そしてそれは正しかったか?
この行列は、誤分類のパターンを特定するのに役立ちます。払い戻しについて問い合わせている顧客が、注文状況の問い合わせとして頻繁に分類されている場合、行列はこの重複を明確に示します。この可視性は、インテントの精度が自動化率に直接影響するため、不可欠です。AIがインテントを誤って識別すると、間違った応答を送信するか、人間の担当者にデフォルトで引き継ぎます。
主要なコンポーネント
混同行列は、次のグリッドとして表示されます。
- X軸(水平): 実際のインテント(顧客が意図した内容)
- Y軸(垂直): 予測されたインテント(AIが考えた内容)
- 色の濃さ: 予測が発生した頻度(セルが濃いほど、一致する頻度が高い)
AIが正常に機能している場合は、左上から右下に向かって暗い対角線が表示されます。これは、予測されたインテントが実際のインテントと一貫して一致していることを意味します。この対角線から外れた暗いセルは、混乱を示しています。AIは、一致させるべき別のインテントと一致しています。

混同行列を使用するための前提条件
混同行列にアクセスするには、次のものが必要です。
- Zendesk AIエージェント - Advancedアドオン: 混同行列は、標準のSuiteティアに含まれるEssentialプランではなく、Advanced AIアドオンでのみ利用可能です。価格については、Zendeskの営業にお問い合わせください。
- 表現ベースのAIエージェント: 混同行列は、トレーニングされたインテントと表現を使用する表現ベース(レガシー)AIエージェントに適用されます。生成AIエージェントは動作が異なります。
- トレーニングセンターへのアクセス: AIエージェント - Advancedセクションにアクセスするには、適切な権限が必要です。
- インテントの基本的な理解: インテントとは何か、表現がAIにそれを認識させる方法を知っておく必要があります。
Essential AIエージェントプランをご利用の場合は、これらの高度なトレーニングおよび診断機能にアクセスするためにアップグレードする必要があります。
混同行列へのアクセス方法と読み方
ステップ1:混同行列に移動します
混同行列にアクセスするには、AIエージェント - Advanced → トレーニングセンター → 混同行列に移動します。インターフェースは、AIエージェント用に最後に生成された行列をロードします。

行列は毎週火曜日の夜(太平洋時間)に自動的に生成されますが、トレーニングデータに大幅な変更を加えた場合は、手動で再トレーニングをトリガーすることもできます。
ステップ2:グリッドを解釈します
まず、全体的なパターンを見てください。
- 強い対角線は、インテントが明確に定義されており、AIがそれらを正確に認識していることを意味します。
- 対角線から外れた暗いセルは、インテントがAIを混乱させている場所を示しています。たとえば、「払い戻しリクエスト」(実際)が「注文状況」(予測)と一致するセルが暗い場合、払い戻しを求めている顧客は、注文状況の問い合わせとして誤って分類されています。
- 明るいセルまたは空のセルは、インテント間の明確な区別、またはその組み合わせのトラフィックが少ないことを示しています。
色のスケールが重要です。わずかに対角線から外れたセルは、監視する価値のある時折の混乱を示している可能性があります。ひどく暗くなった対角線から外れたセルは、すぐに注意が必要な重大な問題を示しています。
ステップ3:問題のリストを確認します
行列の下に、問題のリストタブがあります。これは、問題を重大度別に優先順位付けします。
- 優先度が高い: 互いに頻繁に混乱し、パフォーマンスに大きな影響を与えるインテント
- 優先度が中程度: 特定の顧客セグメントに影響を与える可能性のある中程度の混乱
- 優先度が低い: 軽微な重複またはエッジケース
高度なフィルターを使用して、調査する特定のインテントペアを絞り込みます。これは、特定のインテントに問題があることがわかっている場合に役立ちます。

混同行列を使用してAIを最適化する方法
ステップ4:問題のあるインテントを特定します
対角線から外れた暗いセルをクリックして、それら2つのインテント間の混乱に関する詳細を表示します。システムは以下を表示します。
- 混乱を引き起こしている表現の数
- 誤って分類されたメッセージの具体的な例
- これらの予測に関連付けられた信頼度スコア
問題のリストの優先度の高い問題が開始点です。これらは、改善のための最大の機会を表しています。
ステップ5:表現を管理します
問題を解決 → 表現を管理をクリックして、混乱を引き起こしている特定のトレーニングフレーズを表示します。ここから、次のことができます。
- 表現を移動: 誤って分類されている場合は、あるインテントから別のインテントに表現をドラッグします
- 表現を削除: あいまいなフレーズまたは関連性のなくなったフレーズを削除します
- 新しい表現を追加: より明確な例を追加して、インテントを強化します
インターフェースは、複数のインテントに表示される表現を強調表示します。これらは、クリーンアップの主要なターゲットです。

ステップ6:インテント構造を決定します
問題が表現ではなく、インテント構造自体である場合があります。次のアクションを検討してください。
- インテントをマージ: 2つのインテントが常に互いに混乱し、同様の目的を果たす場合は、それらを組み合わせることで精度が向上する可能性があります。たとえば、「送料」と「配送時間」は、単一の「配送に関する質問」インテントとしてより適切に機能する可能性があります。
- トレーニングデータを追加: インテントがまばらすぎる場合、AIは学習する例がありません。20〜30の多様な表現を追加します。
- 新しいインテントを作成: 1つのインテントが多すぎるシナリオをカバーしている場合は、それを分割すると混乱を軽減できます。「アカウントの問題」は、「パスワードのリセット」、「プロファイルの更新」、「アカウントの閉鎖」になる可能性があります。
- 分離を維持: インテントがいくつかの重複にもかかわらず、本当に異なる顧客ニーズに対応する場合は、それらを区別したまま、境界を明確にするために表現を調整します。
ステップ7:モデルを再トレーニングします
変更を加えた後、次の2つのオプションがあります。
- 自動生成を待ちます: 行列は、更新されたトレーニングデータを使用して、毎週火曜日の夜に再生成されます。
- 手動での再トレーニング: 変更に関するより迅速なフィードバックが必要な場合は、すぐに再トレーニングをトリガーします。
次の行列の生成を監視して、変更によって混乱が軽減されたことを確認します。複雑なインテントの重複を完全に解決するには、数回の反復が必要になる場合があります。
信頼度閾値との関係を理解する
混同行列と信頼度閾値は連携して、AIの動作を決定します。行列はインテントが互いにどこで混乱しているかを示し、閾値はAIが応答する前にどれだけ確信する必要があるかを決定します。
インテントの混乱が信頼度に与える影響
2つのインテントに重複する表現がある場合、両方のAIの信頼度スコアは低くなります。類似性を認識しますが、どのインテントが適用されるかを明確に区別できません。これが、問題のあるインテントの信頼度スコアが50〜60%前後で推移する可能性がある理由です。
精度とカバレッジのトレードオフ
信頼度閾値の設定は、トレードオフを生み出します。
| 閾値範囲 | 結果 | 最適 |
|---|---|---|
| 70〜85% | 高い精度、低い自動化率 | 規制された業界、複雑な製品 |
| 60%(デフォルト) | バランスの取れたアプローチ | ほとんどの一般的なユースケース |
| 40〜55% | より高い自動化、いくつかの誤分類のリスク | 簡単なFAQ、寛容なフロー |
高い閾値は、AIが非常に確信している場合にのみ応答することを意味し、エラーを減らしますが、不必要に人間の担当者にデフォルトで引き継ぐ可能性があります。低い閾値は自動化を向上させますが、より多くの誤った応答のリスクがあります。
行列を使用して閾値を設定する
混同行列を確認して、明確な分離があるインテントと問題のある重複があるインテントを特定します。強力な対角線パフォーマンス(明確な区別)を持つインテントの場合は、より低い閾値を使用できます。行列に混乱が見られるインテントの場合は、トレーニングの問題を解決するまで、より高い閾値を検討してください。
Zendeskは、回答率80%を基準としてターゲットにすることをお勧めします。回答率が大幅に低い場合、混同行列は、閾値の調整またはインテントの最適化のどちらが適切なソリューションであるかを特定するのに役立ちます。
一般的な問題とトラブルシューティング
デフォルトの返信が多すぎる
顧客が頻繁に「わかりません」またはデフォルトのエスカレーション応答を受け取る場合は、次の2つのパスがあります。
- 閾値を下げる: これにより、AIが応答を試みる意欲が高まりますが、行列で明確な対角線パフォーマンスを示すインテントに対してのみこれを行います。
- トレーニングを改善する: 信頼度スコアの低いインテントに表現を追加します。混同行列は、注意が必要なインテントを示します。
頻繁な誤ったインテントのトリガー
AIが間違ったインテントをトリガーし続ける場合:
- 閾値を上げる: AIに応答する前に、より確信するように強制します。
- 行列を確認する: 混乱を引き起こしている特定のインテントペアを見つけて、重複する表現をクリーンアップします。
一貫性のない信頼度スコア
同じクエリが異なる時間に異なる信頼度スコアを取得する場合:
- インテントの重複を確認する: 行列は、複数のインテントが同じ表現を競合しているかどうかを示します。
- トレーニングデータのバランスを確認する: 単一のインテントがトレーニングデータを支配していないことを確認します。
- 同様の表現を探す: 複数のインテントに適用できるフレーズは、一貫性のないスコアリングを作成します。
継続的な最適化のためのベストプラクティス
混同行列を通常のワークフローの一部にします。
- 毎週のレビュー: 火曜日の夜の生成後、毎週水曜日の朝に新しい行列を確認します。
- 解決済みの問題を追跡する: 問題のリストで問題を解決済みとしてマークし、クリーンなワークスペースを維持します。
- インテントの粒度を調整する: 過度に具体的なインテントを作成しすぎないようにします。可能な場合は、関連するトピックをグループ化します。
- 変更を文書化する: 変更した内容と結果に関するメモを保持します。これは、実際にはどの調整がパフォーマンスを向上させたかを特定するのに役立ちます。
- 継続的な改善を目指す: 小さく、定期的な最適化は、時折の大規模なオーバーホールよりも優れています。
補完的なアプローチ:eesel AIを使用してライブになる前にテストする
Zendeskの混同行列は、展開後に最適化するのに役立ちますが、顧客がそれらを見る前に問題をキャッチすることに価値があります。そこで、別のアプローチが役立ちます。
eesel AIを使用すると、ライブになる前に、過去のチケットに対してAI構成をシミュレートできます。毎週のレポートを通じて混乱のパターンを発見する代わりに、セットアップ中に潜在的な問題を確認できます。過去の会話をAIがどのように処理したかをテストし、顧客とのやり取りの前に調整できます。
重要な違いはタイミングです。
- Zendeskのアプローチ: 展開後の毎週の混同行列レポートを使用した事後的な最適化
- eesel AIのアプローチ: 展開前のシミュレーションと予測
eesel AIは、すべてのソース(ヘルプセンター、過去のチケット、Confluence、Googleドキュメント、Notion)からの知識を統合し、そもそも混乱を引き起こす手動のインテントトレーニングを削減します。AIは、表現を最初から構築するのではなく、既存のドキュメントと解決済みの会話から学習します。

新しいAIエージェントをセットアップする場合、または移行を検討している場合は、起動前に構成をテストすることで、展開後の最適化の数週間を節約できます。
今日のZendesk AIエージェントの精度を向上させる
混同行列は、AIエージェントが顧客のリクエストを実際にどのように理解しているかを知るための窓口です。定期的に確認し、表面化する問題に対処することで、インテント認識と自動化率を着実に向上させることができます。
重要なポイント:
- 行列内の対角線から外れた暗いセルは、最適化の機会を示しています
- 問題のリストは、問題を重大度別に優先順位付けします
- 表現の管理は、混乱を修正するための主要なツールです
- 閾値の調整は、トレーニングの改善に取り組んでいる間、すぐに軽減できます
- 毎週のレビューは、リアクティブな消火活動ではなく、継続的な改善につながります
今週、優先度の最も高い問題から始めましょう。インテントの明確さをわずかに改善するだけでも、自動化率と顧客満足度に測定可能な影響を与える可能性があります。
よくある質問
この記事を共有

Article by
Stevia Putri
Stevia Putri is a marketing generalist at eesel AI, where she helps turn powerful AI tools into stories that resonate. She’s driven by curiosity, clarity, and the human side of technology.


