カスタマーサポートにおけるAI幻覚を防ぐ方法

Q: カスタマーサポートにおけるAI幻覚の原因は何ですか？

サポートの幻覚のほとんどは、モデル自体ではなく根拠付けに起因します。質問が ナレッジベース と一致しない、ドキュメントの記述が広すぎる（「すべてのモデルに対応」）、ドキュメントが古いまたは矛盾している、あるいはエージェントがどんな状況でも役立つように見せるよう設定されているなどが原因です。根拠付けを修正すれば、でたらめな回答のほとんどはなくなります。その仕組みは、チームが初期段階で直面する 一般的なAIチャットボットの問題 と似ています。

Q: AIサポートエージェントが回答を作り上げないようにするにはどうすればよいですか？

自社のドキュメントと過去のチケットにスコープを絞り、すべての回答がソースを引用するよう 検索ステップ を強制し、低信頼度の質問が推測ではなく人間に転送されるように信頼度しきい値を設定します。eeselはこの3つすべてを組み合わせており、数分で ナレッジベースでトレーニング できます。

Q: 信頼度ベースのルーティングだけで幻覚を防ぐのに十分ですか？

これは最大の効果をもたらしますが、スコープを絞った知識と引用と組み合わせることで最も効果を発揮します。 信頼度しきい値 により、エージェントが回答、下書き作成、または転送するかを決定し、不確かな回答が顧客に届くことはありません。残りの部分には、きれいな 人間への引き継ぎ を組み合わせましょう。

執筆者

Riellvriany Indriawan

レビュー者

Katelin Teen

最終更新 June 18, 2026

専門家による検証済み

信頼できる知識の範囲内で動作し、信頼度チェックとソース引用を行うAIサポートエージェント

TL;DR

サポートAIは、何もないところから自信を持って回答するときに幻覚を起こします。発送していない国への配送を顧客に伝えたり、サポートしたことのない車種を確認したり、ポリシーにないはずの返金を約束したりします。解決策はほぼ「より優れたモデル」ではありません。根拠付けとガードレールです。

4つの対策がほとんどの作業をこなします。エージェントを自社のドキュメントと過去チケットに限定すること、すべての回答にソースの引用を強制すること、不確かな回答が顧客ではなく人間に転送されるよう信頼度でルーティングすること、そして本番稼働前に実際の過去チケットに対してシミュレーションを行うことです。サポートキューで十分な時間を過ごしてきた私が断言できます。最も怖いボットは「わかりません」と言うものではなく、間違っているのに確信を持って聞こえるものです。この記事では、後者を自分のセットアップから排除する方法を説明します。

AIには間違ったことを言うよりも何も言わないほうがいい

私はeeselのサポートチームで働いており、日常的にAIの返信を読んでいます。私たちのものと、顧客が逃げようとしているツールから転送してくれるものです。眠れなくなるのは、つまずいて確認の質問をするエージェントではありません。きれいで自信に満ちた、完全に間違った回答を作り上げ、誰かが確認する前に送信するエージェントです。

1つの例が忘れられません。デンマークのB2B車両テレマティクスチームがZendeskを使用して月数百件から数千件にスケールしていたとき、彼らのボットがデータベースに全くない車種について「はい、お客様の車種に対応しています」と顧客に伝え続けていると教えてくれました。なぜか？彼らのナレッジベースに「すべてのモデルに対応」と書かれた親切な一行があったのです。AIはそれを信じました。嘘をついていたのではなく、マーケティング向けに書かれたドキュメントを繰り返していただけです。実際の質問に答える自律エージェントのためのものではありませんでした。彼ら自身の初期の言葉：「試行錯誤」。

サポートにおける幻覚とはそういうものです。モデルが暴走することはほとんどありません。モデルがセットアップのギャップを忠実に繰り返しているのです。何年もの間、何千もの実際のチケットを通じてAIエージェントをライブサポートキューに配置してきましたが、私が追跡したほぼすべての間違った回答には、退屈で修正可能な根本原因があります。そこから始めましょう。

サポート幻覚の原因：ナレッジベースとの不一致、広すぎるドキュメント行、古いまたは矛盾したドキュメント、過度に有望なトーンのすべてが、自信に満ちた間違った回答につながる

サポート幻覚がチャットボット幻覚よりもコストがかかる理由

一般的なチャットボットが何かを作り上げると、肩をすくめて再プロンプトします。サポートエージェントがそれをすると、顧客はそれに基づいて行動します。約束していない配送日を待ちます。存在しない機能のセットアップ手順に従います。規制された業務ではリスクが急速に高まります。あるリーガルテック企業の共同創業者は、役立つことと静かに法律的なアドバイスを与えることの間には細い線があるため、何も間違えられないと語りました。

同じ恐れを公開レビューで見ることができます。G2でAIサポートエージェントをレビューしたSalesforceビジネスアナリストは、データ品質版をはっきりと述べています。

「Content Versionファイル（Knowledge Articles）が2021年以降更新されていない場合、AIエージェントは自信を持って顧客に古い情報を提供します。」
Muhammad O.、Salesforceビジネスアナリスト、G2でAgentforce Serviceをレビュー

同じツールファミリーの別のレビュアーによる、根拠なしバージョン：

「さらに、幻覚が本当にひどいです。トレーニングをしておらず、一般的なモデルで動作しているため、時々私たちのものではない情報を提供します。」
Arjun G.、Salesforceアソシエイトコンサルタント、G2でSalesforce Agentforceをレビュー

どちらのレビューも反対の端から同じポイントに到達しています。エージェントは許可されている読み取り内容と、強制的に読まされるかどうかと同じくらい真実です。それがゲームのすべてです。これをどのようにロックダウンするかを説明します。

サポートAIの幻覚を止める5つのゲート

1つの設定というよりも、質問が顧客に届く前に通過する一連のゲートとして考えてください。各ゲートは異なる失敗モードをキャッチし、5つすべてを通過したものが、実際に自律的に送信できる回答です。

ゲート1：知識のスコープを絞り、さらに絞る

最初の最大の効果は、エージェントが読むことを許可されているものです。サポートAIは、自社のヘルプセンター、過去の解決済みチケット、社内ナレッジベースという自分自身のグランドトゥルースから回答する必要があります。それ以外のものには、ギャップを埋めるための「一般的な知識」にフォールバックすることを許可した瞬間に、推測する許可を与えたことになります。

退屈なドキュメント衛生が重要なのもここです。「すべてのモデルに対応」という行は、AIが愚かだからではなく、エージェントが真実として扱うソースに座っている自信に満ちた限定されていない発言だから、起こるのを待っている幻覚です。ナレッジベースでAIをトレーニングするとき、ドキュメントを指し示すだけでなく、それらのドキュメントを見知らぬ人に逐語的に繰り返すことが安全かどうかを監査しています。

eeselは初日から過去のチケット、ヘルプドキュメント、チームワークフローから学習するため、何年もの解決済み会話が、エージェントが発明する代わりに頼れる知識になります。既存のナレッジソースとヘルプデスクに直接接続されるため、エージェントはチームがすでに信頼している同じ記事を読んでいます。

eeselヘルプデスクダッシュボードがヘルプセンター、マクロ、過去チケットをナレッジソースとして同期

トピックが本当にカバーされていない場合、正しい動作はそのように言うか引き継ぐことであり、即興ではありません。良いエージェントは、推測で覆い隠すのではなく、不足している記事を書けるように、繰り返しぶつかるギャップにフラグを立てるべきです。これがAIナレッジベースチャットボットの価値の半分です。ドキュメントがまだカバーしていないことを教えてくれます。

ゲート2：すべての回答に引用を強制する

引用は幻覚のトリップワイヤーです。エージェントが回答の出所となる特定のドキュメントを指し示す必要がある場合、2つの良いことが起こります。人間のレビュアーがワンクリックで確認でき、引用するソースがない場合、エージェントは全く回答できません。ソースなし、自信ある返信なし。

先ほど述べたリーガルテックの共同創業者が快適に感じたのは、ソーシング上の正確なガードレールを設定でき、エージェントが常に透明な引用を示していたからです。彼らにとってそれはオプションではなく、AIをオンにすることができた原因でした。内部的には、検索拡張セットアップの目的がこれです。回答は取得されたパッセージから組み立てられ、パッセージはそれとともに移動します。

評価しているツールのクイックガットチェック：ソースが添付された回答を見せてもらうよう頼んでください。ベンダーが特定の返信がどこから来たかを示せない場合、チームも示せませんし、顧客も示せません。

ゲート3：信頼度でルーティングする（これが最も重要）

この記事から1つだけやるとしたら、これをやってください。信頼度しきい値により、エージェントは確信のある質問に答え、他のすべてはそのままにできます。高信頼度なら回答して送信します。中程度なら人間が承認するための下書きを作成します。低信頼度ならチケットに触れず、人間に転送します。

信頼度ベースのルーティング：チケットに信頼度スコアが付与され、高信頼度の回答は自動送信、中程度はエージェントの下書き、低信頼度は人間に転送

これは、私が読み返した中で最も記憶に残る営業電話で出てきました。GorgiasとShopifyを使用して月約7,000チケットを処理するDTCサプリメントブランドのCXリーダーが、取引はまさにこれにかかっていると教えてくれました。彼の言葉を大まかに言うと：AIは質問の100%に答えることはないが、試みて単に「申し訳ありませんが、わかりません」と返答するだけなら、7,000チケット全てをチェックして回答が良かったかどうか確認できないから、意味がない。自信のあるチケットだけ処理し、残りは放置するAIが必要でした。それが1つの不満な文章でまとめられた幻覚防止の全論点です。

信頼度ルーティングは、AIエージェントとルールベースのチャットボットの違いも生み出します。エージェントは知らないときを知っています。eeselはこれをすぐに使えるように提供し、完全に監督された状態から始め、信頼を築くにつれて簡単なチケットタイプに自律性を付与していきます。ほとんどのヘルプデスクはこの何らかのバージョンを公開しています。Zendeskを使用している場合は、インテント信頼度しきい値とエージェントが使用するフォールバックメッセージを理解することを勧めます。

ゲート4：難しいチケットには人間を用意し、クリーンなハンドオフを行う

信頼度ルーティングは後続のハンドオフがクリーンな場合にのみ有効です。エージェントが引き下がるとき、チケットは完全なコンテキストとともに人間に届く必要があります。会話、顧客、エージェントが不確かだったことです。顧客に繰り返させるコールドリスタートではありません。

ここはまた、チームにAIが触れるものの明示的なコントロールを与える場所でもあります。多くのチームは特定のチケットタイプを完全に自動化から外したいと考えています。請求の紛争、キャンセル、法律的なもの全て。それは制限ではなく機能です。良いセットアップではチケットタイプを除外し、明示的に呼び出されたときだけ行動するようエージェントを設定し、いつエスカレートすべきかを定義できます。これをマッピングしている場合、AIエージェントのエスカレーションに関するガイドが機能するパターンをカバーしています。クリーンな人間への転送の仕組みは、それを引き起こすトリガーと同じくらい重要です。

言及する価値のある関連する落とし穴があります。過度な約束です。私たちが協力したeCommerceサポートマネージャーは、ecommerce AIチャットボットに顧客に「解決します」と保証するのを止め、誰も保証できないため金曜日までの配達を約束するのを止めるように何度も言わなければなりませんでした。幻覚は事実を作り上げるだけでなく、コミットメントを作り上げることでもあります。トーンと約束に関するガードレールは、事実に関するガードレールと同じバケツに属します。

ゲート5：すべての修正から学ぶ

最後のゲートは蓄積するものです。人間が下書きを編集または拒否するたびに、そのシグナルは次の回答を改善するべきであり、消えてはなりません。修正から学習するエージェントは時間とともにより正確で自信を持つようになり、より多くのチケットがバーを下げることなく正直にゲート3を通過することを意味します。

eeselでは、これを平易な言語で調整します。エージェントにいつ介入するか、どのトーンを使用するか、何を絶対に約束しないかを伝え、修正はその動作にフィードバックされます。再トレーニングプロジェクトもデータサイエンスチームも不要です。会話ログで何をしているかを確認し、そこから調整できます。Zendeskのトレーニングセンターが構築されているのと同じループです。

ゲートを盲信しない：まずシミュレーションを行う

これはほとんどのチームがスキップするステップであり、私がなしでは絶対に立ち上げないものです。1つのライブ返信が送信される前に、実際の過去チケットに対してエージェントを実行し、どのように回答したかを確認します。

シミュレーションは「これは安全だと思う」を数字に変換します。エージェントに何千もの過去の会話を指示すると、どのように回答したか、どこで自信があるか、どこで推測したか、そして全体の何割を単独で処理できたかを示します。ギャップを見つけ、埋め、再実行します。顧客が関与する前にすべてを行います。ガードレールが保持されることを期待することと、実際のチケット履歴に対して保持されるのを見ることの違いです。

これはまた、ベンダーのヘッドライン数を信頼する代わりに解決率を予測する誠実な方法でもあります。先ほど引用したCXリーダーは同じポイントを別の言い方で述べました。AIが間違っていたことを発見するために月次レポートを待ちたくなかった、事前に知りたかったのです。シミュレーションが事前に知る方法です。eeselのシミュレーションモードは過去のチケットに対して実行し、テーマ別のカバレッジをレポートするため、処理できることを証明したチケットタイプのみでライブに移行します。

均一な楽観主義はそれ自体一種のシグナルなので、トレードオフについて正直に述べます。これを適切に行うということは、最初の日にスイッチを入れてすべてを自動化することはないということです。シミュレーションが保証したチケットタイプで狭く始め、エージェントがそれに値するにつれて広げていきます。最初の時間から監視なしに100%のチケットを解決するエージェントが欲しい場合、正直なツールはそれを提供できませんし、そうだと主張するものが幻覚を起こすものです。利点は、より遅く、根拠付けられた道が、顧客が実際に信頼するようになるものでもあるということです。

モデル自体が助ける部分

「セットアップの問題であり、モデルではない」に強く傾いてきたのは、そこに修正があるからです。しかし、基礎となるモデルが無関係というわけではありません。新しいモデルは、ブラフするのではなく「よくわかりません」と言うのが上手く、取得されたソースに固執するのが上手く、「配送日は絶対に約束しない」などの指示に従うのが上手くなっています。強いモデルの上の強い根拠付けセットアップは、弱いモデルの上の強いセットアップを上回ります。それはまた、本物のAIエージェントアシストツールを美化されたマクロ選択機から区別するものです。

実際的な結論：モデルを自分で選択したり、アップグレードを監視したりする必要はありません。良いサポートプラットフォームの仕事は、有能なモデルを実行し、上記の5つのゲートでそれを包むことです。何も再設計することなくモデルの改善を得られます。これがeeselが位置するレイヤーであり、同じエージェントが100以上の統合で一貫して動作する理由です。スタックがGorgias AIエージェントまたはHubSpotのものに構築されているかどうかにかかわらず、根拠付けと信頼度レイヤーはそれとともに移動します。

eeselを試す

私は偏っています。ここで働いており、言及したヘルプデスクと統合していますので、その点を考慮した上で私の意見を評価してください。しかし、幻覚防止はeeselのAIヘルプデスクエージェントが構築された正確な問題です。初日から過去のチケットとドキュメントから学習し、ソースを引用し、不確かな回答が顧客ではなく人間に転送されるよう信頼度でルーティングし、本番稼働前に実際のチケット履歴に対してシミュレーションを実行できます。5つのゲートが組み込まれており、後から追加されたものではありません。チームはこれを実際の規模で実行しています。あるお客様は最初の月にTier-1リクエストの73%を解決し、別のお客様は月10万件以上のドイツ語チケットで完全自動化エージェントを運用しています。

eesel AIがZendeskの中で動作し、コンテキストの中でチケットを下書きおよびトリアージ

価格はシートごとの料金なしの使用量ベースのため、エージェントが推測に費やす時間に支払うことはありません。プランを見るか、無料トライアルを始めて、まず自分のチケットでシミュレーションを実行できます。そのシミュレーションは、AIエージェントがどこで役立つか、どこで幻覚を起こしたかを、顧客と話す前に自分のデータで正確に確認する最速の方法です。

よくある質問

カスタマーサポートにおけるAI幻覚の原因は何ですか？

サポートの幻覚のほとんどは、モデル自体ではなく根拠付けに起因します。質問がナレッジベースと一致しない、ドキュメントの記述が広すぎる（「すべてのモデルに対応」）、ドキュメントが古いまたは矛盾している、あるいはエージェントがどんな状況でも役立つように見せるよう設定されているなどが原因です。根拠付けを修正すれば、でたらめな回答のほとんどはなくなります。その仕組みは、チームが初期段階で直面する一般的なAIチャットボットの問題と似ています。

AIサポートエージェントが回答を作り上げないようにするにはどうすればよいですか？

自社のドキュメントと過去のチケットにスコープを絞り、すべての回答がソースを引用するよう検索ステップを強制し、低信頼度の質問が推測ではなく人間に転送されるように信頼度しきい値を設定します。eeselはこの3つすべてを組み合わせており、数分でナレッジベースでトレーニングできます。

信頼度ベースのルーティングだけで幻覚を防ぐのに十分ですか？

これは最大の効果をもたらしますが、スコープを絞った知識と引用と組み合わせることで最も効果を発揮します。信頼度しきい値により、エージェントが回答、下書き作成、または転送するかを決定し、不確かな回答が顧客に届くことはありません。残りの部分には、きれいな人間への引き継ぎを組み合わせましょう。

本番稼働前にAIサポートエージェントをテストするにはどうすればよいですか？

実際の過去チケットに対してシミュレーションで実行することで、何千もの過去会話にどう答えたか、どこで自信があるか、どこで推測したかを確認できます。eeselのシミュレーションモードは、単一のライブ返信が送信される前にテーマ別のカバレッジをレポートし、解決率を予測する方法でもあります。

幻覚を避けるAIサポートエージェントは十分なチケットを解決できますか？

はい、顧客が信頼するため、長期的には通常より多く解決します。適切に根拠付けられたエージェントはTier-1ボリュームの大部分を解決できます（eeselは最初の月でTier-1リクエストの73%を解決しました）。リスクのあるものは静かに人間に転送します。精度とコスト削減はここではトレードオフではありません。

AIチームメイトを採用しよう

数分でセットアップ。クレジットカード不要。

無料で試すデモを予約

Share this article

Article by

Riellvriany Indriawan

Riell is a designer and writer at eesel AI with about two years of experience researching CX platforms, AI chatbots, and helpdesk software. She combines her design background with a sharp eye for how these tools actually look and feel in practice — making her comparisons unusually visual and user-focused.