Zendesk AIエージェントのインテント信頼度閾値:完全ガイド

Stevia Putri
Written by

Stevia Putri

Reviewed by

Stanley Nicholas

Last edited 2026 2月 26

Expert Verified

Zendesk AIエージェントのインテント信頼度閾値:完全ガイドのバナー画像

Zendesk AIエージェントが正確に応答するようにするには、適切なデータでトレーニングするだけでは不十分です。AIが顧客の問い合わせに応答するかどうかを判断する際に、AIがどれだけ慎重または積極的に行動するかを決定する単一の設定があります。その設定が、インテント信頼度閾値です。

クラブの用心棒のようなものだと考えてください。閾値を高く設定すると、最も明白な一致のみが通過します(高精度ですが、多くの顧客が拒否されます)。閾値を低く設定すると、ほとんどすべての人が入場できます(高カバレッジですが、いくつかの誤った回答が紛れ込みます)。適切なバランスを見つけることは、自動化率、顧客満足度、およびサポートコストに直接影響します。

このガイドでは、Zendesk AIエージェントのインテント信頼度閾値がどのように機能するか、デフォルトの60%が実際に何を意味するのか、そして特定のニーズに合わせてそれを調整する方法について説明します。

Zendesk AIエージェントのインテント信頼度閾値とは何ですか?

信頼度閾値は、0〜100のパーセンテージであり、インテントベースの応答をトリガーする前に、AIエージェントがどれだけ確信する必要があるかを指示します。顧客がメッセージを送信すると、ZendeskのAIは、トレーニングしたすべてのインテントと照合してメッセージを比較し、潜在的な一致ごとに信頼度スコアを計算します。

次に何が起こるかは次のとおりです。

  • 閾値より上: AIは一致したインテントをトリガーし、関連する返信を送信し、構成されたアクションを実行します。
  • 閾値より下: AIは代わりにデフォルトの返信を送信します(通常は人間のエージェントにエスカレーションするか、明確化を求めます)。

Zendeskは、デフォルトの信頼度閾値を60%に設定します。ドキュメントには、ほとんどのユーザーが50%から70%の間の適切な場所を見つけると記載されていますが、理想的な設定は、トレーニングの質、会話のデザイン、およびビジネスの優先順位によって異なります。

AIエージェントの設定パネルのナビゲーション。一般、言語、詳細設定などのオプションが表示されています。
AIエージェントの設定パネルのナビゲーション。一般、言語、詳細設定などのオプションが表示されています。

この設定は、設定 > 一般 > 信頼度閾値にあります。実際には2つの閾値があることに注意してください。1つはインテント認識用(「デフォルトメッセージの信頼度閾値」)、もう1つは言語検出用です。インテント閾値は、自動化の精度を最適化する際にほとんどの管理者が焦点を当てるものです。

精度とカバレッジのトレードオフ

信頼度閾値を調整することは、基本的に、精度とカバレッジという2つの競合する目標の間で選択することです。

**より高い閾値(70〜85%)**は、AIが顧客のインテントについて非常に確信している場合にのみ応答することを意味します。これにより、誤った回答が少なくなりますが、より多くのクエリがデフォルトの返信または人間のエージェントにルーティングされることも意味します。間違った回答がコストのかかる場合(規制された業界、複雑な請求の問題、または高リスクのテクニカルサポートなど)は、慎重になるのが理にかなっています。

**より低い閾値(40〜55%)**を使用すると、AIはより多くのクエリに応答を試み、自動化率が向上します。トレードオフは、誤分類のリスクが高くなることです。「返品」について尋ねる顧客が、誤って「払い戻し」インテントをトリガーし、間違った方向に進む可能性があります。これは、会話フローが寛容な場合、または誤った回答のコストが低い場合(簡単なFAQスタイルのサポートなど)に効果的です。

Zendeskは、この選択について考えるための簡単なフレームワークを提供しています。100件の受信メッセージを想像してみてください。

混合結果のシナリオデフォルトの返信シナリオ
50件の不正解 + 50件の正解100件のデフォルトの返信
40件の不正解 + 60件の正解100件のデフォルトの返信
30件の不正解 + 70件の正解100件のデフォルトの返信
20件の不正解 + 80件の正解100件のデフォルトの返信

どちらの列がより良く見えますか?答えは、それらの「不正解」が実際にどのようなものかにかかっています。会話のデザインに迅速な回復パス(「返品についてお尋ねになっているようですね。よろしいですか?」)が含まれている場合、ある程度の誤分類は許容できます。誤った回答が顧客をイライラさせるループに陥らせる場合は、より保守的になる必要があります。

信頼度閾値設定による精度とカバレッジのバランス
信頼度閾値設定による精度とカバレッジのバランス

適切なZendesk AIエージェントのインテント信頼度閾値を選択する方法

普遍的な「最適な」閾値はありませんが、特定の状況に最適な閾値はあります。それを見つける方法は次のとおりです。

60%から始めて、データに基づいて調整します。 Zendeskのデフォルトは恣意的ではありません。これは、数千のデプロイメントにわたる集計パフォーマンスに基づいています。そこから始めて、会話ログと混同行列を使用して、精度の問題(誤った回答が多すぎる)または再現率の問題(デフォルトの返信が多すぎる)があるかどうかを特定します。

次の場合には、閾値を上げることを検討してください。

  • 間違った情報が責任を生み出す規制された業界にいる場合
  • 製品が複雑で、顧客が誤った回答に不満を感じる場合
  • 会話フローに誤分類に対する適切な回復パスがない場合
  • AIエージェントが新しく、まだ顧客の言語を学習している場合

次の場合には、閾値を下げることを検討してください。

  • 会話のデザインが柔軟で、誤分類から回復できる場合
  • 徹底的なインテントトレーニングを実施し、混同行列に最小限の重複が表示される場合
  • 誤った回答が簡単に修正できる、リスクの低いクエリを処理している場合
  • エスカレーションを処理するのに十分な人間のエージェントの能力がある場合

ニュアンスのある制御には、条件付きブロックを使用します。 すべてに1つの閾値を設定するのではなく、Zendeskの条件付きロジックを使用して、実際の信頼度スコアに基づいて異なる返信を送信できます。たとえば、信頼度の高い一致(80%以上)は完全な自動応答を取得し、中程度の信頼度の一致(60〜79%)は「質問に答えられましたか?」チェック付きの応答を取得し、信頼度の低い一致はすぐにエスカレーションします。

重要なのは、閾値戦略をビジネス成果に結び付けることです。誤った回答は、顧客満足度とエージェントの時間においてどのようなコストがかかりますか?デフォルトの返信を送信することは、自動化の可能性においてどのようなコストがかかりますか?閾値は、これらの計算を反映する必要があります。

信頼度閾値の問題のトラブルシューティング

AIエージェントが期待どおりに機能しない場合、信頼度閾値が原因であることがよくあります。一般的な問題を診断して修正する方法を次に示します。

問題:デフォルトの返信が多すぎる

顧客がフォールバック応答(「よくわかりません」またはエージェントへのエスカレーション)に頻繁に遭遇する場合は、次の2つのオプションがあります。

  1. より多くのクエリをキャプチャするために、信頼度閾値を下げます
  2. AIが顧客の言語のより多くのバリエーションを認識できるように、インテントトレーニングを改善します

通常、2番目のオプションの方が長期的には優れています。会話ログでパターンを確認してください。顧客はトレーニングしていないフレーズを使用していますか?存在するはずのインテントはありますか?パフォーマンスの低いインテントに20〜30個の新しい式を追加すると、閾値に触れることなく問題が修正されることがよくあります。

問題:頻繁に不正確なインテントトリガー

顧客が間違った会話フローに送信されている場合は、反対の課題があります。

  1. より選択的になるために、信頼度閾値を上げます
  2. 混同行列を使用して、重複するインテントを特定します

混同行列は、どのインテントが互いに間違われているかを示す視覚的なグリッドです。対角線から外れた暗いセルは、2つのインテント間の混乱を示しています。「注文状況」と「配送に関するお問い合わせ」が頻繁に混同される場合は、それらを1つのインテントにマージするか、それぞれにさらに特徴的なトレーニング式を追加する必要があります。

インテント認識の精度と重複パターンを表示する混同行列の視覚化。y軸には、「テストゲートウェイ」や「注文状況」などの特定のインテントがラベル付けされています。
インテント認識の精度と重複パターンを表示する混同行列の視覚化。y軸には、「テストゲートウェイ」や「注文状況」などの特定のインテントがラベル付けされています。

問題:一貫性のない信頼度スコア

同じクエリが異なる時間に異なる信頼度スコアを取得することがあります。これは通常、次のことを示しています。

  • インテントの重複(AIはどのインテントが正しいかを本当に判断できません)
  • 1つ以上の競合するインテントに対するトレーニングデータが不十分
  • インテント間で類似しすぎる式

インテントの健全性指標を確認してください。Zendeskは、これをインテントに認識されたメッセージの平均信頼度として計算します。インテントの健全性が低い場合は、より多くの、またはより良いトレーニング式が必要です。全体的なパフォーマンスが低いのにインテントの健全性が高い場合は、閾値がトレーニングの質と一致していない可能性があります。

閾値の変更の影響の測定

信頼度閾値を調整する前に、ベースラインメトリックを確立します。変更後、影響を測定します。追跡する内容は次のとおりです。

解決率: AIエージェントが人的介入なしで解決する会話の割合はどれくらいですか?これがあなたの北極星メトリックです。閾値が高すぎると、この数値が低下します(エスカレーションが多すぎる)。閾値が低すぎると、数値が低下する可能性もあります(誤った回答により作業が増えます)。

エスカレーション率: 会話の何パーセントが人間のエージェントに引き渡されますか?特定のトピックが問題を引き起こしているかどうかを確認するために、インテント別にこれを追跡します。

顧客満足度(CSAT): 顧客はAIが処理した会話に満足していますか?閾値が低すぎると、多くの場合、最初にここに表示され、不満を感じた顧客がインタラクションを低く評価します。

会話ログ分析: 毎週会話のサンプルを確認します。結果を、正しいインテント+役立つ回答、正しいインテント+役に立たない回答、間違ったインテント、またはトリガーされたデフォルトの返信として分類します。この定性的なデータは、定量的な傾向を説明します。

信頼度スコアの分布: 会話全体の信頼度スコアの広がりを確認します。理想的には、二峰性の分布が必要です。多くの高信頼度の一致(80%以上)と多くの低信頼度の一致しない一致(40%未満)があり、中間は少なくなります。ほとんどのスコアが閾値の周りに集中している場合は、小さな閾値の変更が大きな影響を与える曖昧なゾーンにいます。

閾値の変更をテストする場合は、徐々に(一度に5〜10%)調整し、各変更を少なくとも1週間実行して、十分なデータを収集します。変更した内容とその理由を文書化して、結果が悪化した場合はロールバックできるようにします。

AI信頼度閾値の最適化時に追跡する主要な指標
AI信頼度閾値の最適化時に追跡する主要な指標

補完的なアプローチ:eesel AIを使用した閾値のテスト

Zendeskで信頼度閾値を最適化する際の課題は次のとおりです。ライブの顧客で実験を行っています。閾値を調整するたびに、潜在的に誤った回答により多くのクエリが送信されるか、AIが処理できたはずの会話がより多くエスカレートされます。どちらの結果にも実際のコストがかかります。

この問題を解決するためにeesel AIを構築しました。ライブの顧客でテストする代わりに、まず実際の過去のチケットでテストできます。

仕組みは次のとおりです。eesel AIをZendeskヘルプデスクとナレッジソース(ヘルプセンターの記事、過去のチケット、マクロ、ConfluenceやGoogleドキュメントなどの外部ドキュメント)に接続します。AIエージェントが実際の顧客と話す前に、数千件の過去のチケットに対して実行します。解決率の明確な予測を取得し、どのクエリがトリップするかを特定し、構成に対する信頼を構築します。

このシミュレーションアプローチは、Zendeskのライブ環境を補完します。ライブになる前にeesel AIを使用してインテント構造と閾値設定を検証し、Zendeskの混同行列と会話ログを使用して継続的に改善します。

また、ナレッジに対する異なるアプローチを採用しています。Zendeskはインテントベースのトレーニングに焦点を当てていますが、既存のすべてのナレッジソースから自動的に学習します。これにより、広範な手動インテントトレーニングの必要性が軽減され、閾値の決定がより簡単になります。

当社の価格はフラットレート(解決ごとの料金はかかりません)であるため、自動化を拡大する際に予算を予測できます。サポートチームにAIを導入することを検討している場合は、ネイティブのZendeskオプションとeesel AIの比較方法を理解する価値があります。

AI信頼度閾値の最適化のための継続的な改善サイクル
AI信頼度閾値の最適化のための継続的な改善サイクル

Zendesk AIエージェントのインテント信頼度閾値の最適化

信頼度閾値は、AIエージェントの動作を制御するための最も強力なレバーの1つですが、「設定して忘れる」構成ではありません。トレーニングデータが改善され、ビジネスニーズが進化するにつれて、継続的な注意が必要です。

短いバージョンを次に示します。Zendeskのデフォルトである60%から始めます。会話ログと混同行列を毎週監視します。誤った回答が多すぎる場合は、閾値を上げるか、インテントトレーニングを改善します。デフォルトの返信が多すぎる場合は、閾値を下げるか、パフォーマンスの低いインテントにさらに式を追加します。

閾値は単独で存在するものではないことを忘れないでください。これは、インテントをトレーニングし、混同行列を確認し、閾値を調整し、結果を測定し、繰り返すという継続的な改善サイクルの一部です。これを継続的なプロセスとして扱うチームは、一度構成して次に進むチームよりも一貫して優れたパフォーマンスを発揮します。

このプロセスのリスクを軽減し、ライブの顧客に影響を与える前に構成をテストする場合は、eesel AIをチームに招待してください。当社のシミュレーションモードでは、過去のデータを使用してアプローチを検証できるため、自信を持ってライブに移行できます。

よくある質問

デフォルトの閾値は60%です。Zendeskは、数千のデプロイメントにわたる集計パフォーマンスデータに基づいてこれを選択しました。これは、ほとんどのユースケースで許容できる精度を維持しながら、妥当な自動化カバレッジを提供するバランスの取れた出発点を示しています。最も成功したデプロイメントは、トレーニングの質とビジネス要件に応じて、最終的には50%から70%の間に落ち着きます。
閾値が高すぎる場合は、AIが自動応答を試みることはめったになく、過剰なデフォルトの返信と人間のエージェントへのエスカレーションが発生します。低すぎる場合は、頻繁に不正確なインテントトリガーが発生し、顧客が間違った会話フローに送られ、顧客満足度スコアが低下します。会話ログを毎週確認して、どちらのパターンが自分の状況に一致するかを特定してください。
Zendeskはインテント認識に単一のグローバル閾値を使用しますが、confidence_scoreパラメータを持つ条件付きブロックを使用して、ニュアンスのある制御を実現できます。これにより、信頼度範囲に基づいて異なる返信タイプを送信できます。たとえば、信頼度の高い一致は完全な自動化を取得し、中程度の信頼度の一致は確認チェック付きの応答を取得し、信頼度の低い一致はすぐにエスカレーションします。
混同行列は、どのインテントが互いに間違われているかを示し、信頼度スコアが一貫していない理由を特定するのに役立ちます。2つのインテントがAIを頻繁に混乱させる場合、高いスコアになるはずの式は、AIがそれらを区別できないため、低いスコアになります。最初にトレーニングを改善するか、同様のインテントをマージしてインテントの重複を修正し、次に閾値を調整します。
解決率(人的介入なしで解決された会話の割合)、エスカレーション率(エージェントに引き渡された割合)、AIが処理した会話の顧客満足度スコア、および会話ログ全体の信頼度スコアの分布を追跡します。閾値を徐々に(一度に5〜10%)調整し、各変更を少なくとも1週間実行して、意味のあるデータを収集します。
Zendeskは、閾値テスト用のネイティブシミュレーションモードを提供していません。ただし、eesel AIなどのツールは、ライブになる前に過去のチケットに対してAI構成をテストできるシミュレーション機能を提供します。これにより、顧客体験を危険にさらすことなく、解決率を予測し、潜在的な問題を特定できます。

この記事を共有

Stevia undefined

Article by

Stevia Putri

Stevia Putri is a marketing generalist at eesel AI, where she helps turn powerful AI tools into stories that resonate. She’s driven by curiosity, clarity, and the human side of technology.