AA-Briefcaseとは?実際のナレッジワーク向けAIベンチマークを解説

Alicia Kirana Utomo
執筆者

Alicia Kirana Utomo

Katelin Teen
レビュー者

Katelin Teen

最終更新 June 23, 2026

専門家による検証済み
開いたブリーフケースからドキュメント、スプレッドシート、メール、チャットメッセージがあふれ出し、AI のキャラクターがスコアカードでそれらを採点している

まとめ

AA-BriefcaseはArtificial Analysisによる新しいベンチマークで、AIモデルを単発の質問ではなく実際の数週間のナレッジワーク(財務モデル、取締役会向けプレゼン、製品仕様書)で評価します。各モデルには数千の乱雑なファイル(メール、Slackスレッド、スプレッドシート)が与えられ、実際の成果物を制作する必要があり、それが正確性、分析品質、プレゼンテーションで採点されます。

主要な発見は謙虚にさせるものです。最高のモデルでも、全てのルーブリックチェックをパスするのはタスクの3%にすぎず、91タスク中31タスクではどのモデルも50%を超えません。Claude Fable 5がリーダーボードをリードし、オープンウェイトのGLM-5.2がそのコストをはるかに超える性能を発揮しています。

多くの記事が触れない点がこれです:ベンチマークの高スコアはモデルが一般的に優秀であることを示しますが、あなたのデータで安全であることを意味しません。このギャップが、AIカスタマーサービスを検討している方に対して、リーダーボードを信頼するだけでなく、実際の過去のデータでテストすることを推奨する理由です。

私はeeselでAIエージェントを専門に構築しています。些末な知識ではなく、乱雑な実際の仕事をついに測定するベンチマークは、すべてを置いて読まずにいられないものです。以下では、AA-Briefcaseが実際に何を測定し、どう評価し、誰がリードしているか、そしてAIエージェントの展開に際して学ぶべき一つの教訓を説明します。

AA-Briefcaseリーダーボード
2026年6月18日のリリース時の概算値。最安値モデルが最良でない理由を見るためにビューを切り替えてください。
Claude Fable 51587
Claude Opus 4.81356
GLM-5.2 (open)1266
GPT-5.51159
MiniMax-M3 (open)1116
Claude Sonnet 4.61081
Gemini 3.5 Flash870

AA-Briefcaseが実際に測定するもの

ほとんどのAIベンチマークは短く独立した質問をします:数学の問題、コーディングパズル、選択式クイズ。これは純粋な推論能力を測るには適していますが、実際の職場でのモデル活用とは大きく異なります。実際のナレッジワークは長く、曖昧で、混乱した状況に埋め込まれています。

AA-Briefcaseはそのギャップを埋めるために作られました。プロンプト一つの代わりに、各モデルは多くの連携したタスクと数千のソースファイルを含む数週間のビジネスプロジェクトに投入され、実際のアナリストやPMが作るような成果物(財務モデル、取締役会向けプレゼン、デザインモックアップ、戦略メモ)の作成を求められます。シナリオは、Google、McKinsey、Boston Consulting Groupなどの企業の業界専門家によって数ヶ月かけて開発されたため、実際の業務に近い内容になっています。

規模感を示す数字があります。4つの非公開プロジェクトシナリオと合計91タスクがあり、データサイエンス、プロダクトマネジメント、企業戦略から抽出されています。その中には約2,000のソースファイルがあり、3,500件以上のメールと25,000件のSlackメッセージが意図的に断片化され、現実的な矛盾に満ちています。4つの採点シナリオは、データサイエンスプロジェクト、プロダクトマネジメントプロジェクト、銀行業務変革、重工業戦略構築です。5番目のデューデリジェンスシナリオは公開されており、スコアにはカウントされません。

この枠組みが重要な理由は、私がこれまでリリースしてきた全てのAIエージェントの失敗モードを反映しているからです。モデルが苦労するのはアイデアではなく、1,400番目のファイルに隠れた要件を見つけ、それを静かに上書きしたメールと矛盾しないようにすることです。

AA-Briefcaseがモデルを評価する方法

ここでAA-Briefcaseが巧みになります。一つのスコアでは、AI出力で最も興味深いことが隠れてしまいます。プロフェッショナルに見えることと正確であることは、全く異なる二つのスキルです。そのため、各タスクは3つの独立した次元で評価されます。

AA-Briefcaseがモデルを評価する方法:乱雑なファイルがサンドボックス内のAIエージェントに与えられ、成果物がルーブリック、分析品質、プレゼンテーションで採点され、一つのEloに統合される
AA-Briefcaseがモデルを評価する方法:乱雑なファイルがサンドボックス内のAIエージェントに与えられ、成果物がルーブリック、分析品質、プレゼンテーションで採点され、一つのEloに統合される

第一はバイナリルーブリック:各チェックで合格か不合格か、部分点なし。モデルは指示に従ったか、ファイル全体に散らばった要件を見つけ出したか、正しいエビデンスを使用したか、正しい結論に達したか?第二は分析品質で、他のモデルの提出物とのペアワイズ比較で判断されます。どちらの成果物がより徹底的でより裏付けられているか?第三はプレゼンテーションで、これもペアワイズです:どちらの出力がよりプロフェッショナルに仕上がっているか?

これら三つが一つのメインスコアであるAA-Briefcase Eloに統合されます。分析品質Elo、プレゼンテーションElo、ルーブリック合格率を最大尤度Elo集約で組み合わせます。同一ファミリーのモデルが自分に有利な評価をしないよう、各比較は3モデルの審査員パネル(Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro Preview)が決定します。

インフラも公開されています。モデルはArtificial AnalysisのオープンソースエージェントハーネスStirrup上で、インターネットのないオフラインサンドボックス内で、タスクあたり最大500ターンで動作します。本格的な設定であり、チャットウィンドウよりも実際のエージェンティックワークフローにはるかに近いです。

結果が実際に示すもの

上部のリーダーボードは喜ばしい話(Claude Fable 5が首位、能力の階層がきれいに積み重なっている)を伝えています。より難しい話は合格率にあります。

棒グラフ:合格率はプロンプトのみのチェックで55%から、5つ以上のファイルを必要とするチェックで40%に低下し、トップモデルが全チェックをパスするのはタスクの3%のみであることを示す
棒グラフ:合格率はプロンプトのみのチェックで55%から、5つ以上のファイルを必要とするチェックで40%に低下し、トップモデルが全チェックをパスするのはタスクの3%のみであることを示す

リードモデルでさえ、全てのルーブリック基準を満たすのはタスクの3%のみであり、91タスク中31タスクではどのモデルも50%を超えません。難易度は必要なファイル数とともに上昇します。高知能モデルはプロンプトのみのチェックで約55%から、タスクに5つ以上必要になると約40%まで落ちます。タスクが実際の仕事に似れば似るほど、全員の成績が悪くなります。

リーダーボードからいくつかの重要な示唆が得られます。GLM-5.2は明確なオープンウェイトのリーダーであり、価格対性能の際立った存在で、Claude Opus 4.8より約90Elo低いにもかかわらず、コストは4分の1以下です。MiniMax-M3とGLM-5.2はいずれも一般的な知能スコアを上回りますが、GoogleのGeminiモデルは広範な知能ランキングでの位置に比べてAA-Briefcaseでは実際に低いパフォーマンスを示しています。ウィジェットのコスト表示が示すように、最も高いモデルと最も安いモデルの差は800×以上であり、AIエージェントの実際のコスト本当に重要な指標を比較検討する際に有益な注意点です。

「正しく見えるが間違っている」という問題

リリース全体で私のお気に入りの発見は行動に関するもので、AIの作業が信頼できないと感じられる理由の多くを説明しています。

タスクあたりのview-image呼び出し数の棒グラフ:Claude Fable 5が21、Claude Opus 4.8が12、GPT-5.4 Miniが2、Gemini 3.1 Proが0.1で、一度も見ていないファイルを提出している
タスクあたりのview-image呼び出し数の棒グラフ:Claude Fable 5が21、Claude Opus 4.8が12、GPT-5.4 Miniが2、Gemini 3.1 Proが0.1で、一度も見ていないファイルを提出している

プレゼンテーションで最高得点を取るモデルは、自分のレンダリングされた出力を実際に確認しているものです。Claude Fable 5はタスクあたり約21回のview-image呼び出しを行い、Opus 4.8は約12回でしたが、一部のモデルはほとんど見ていないファイルを提出しました(Gemini 3.1 Pro Previewは平均約0.1回のview-image呼び出し)。「提出前に自分の仕事を確認する」というアドバイスは、人間と同様にAIにとっても良いアドバイスであることがわかります。

その下にはより深い点があります。AA-Briefcaseが磨きと正確性を分けるのは、まさに静かに間違っている自信満々でよく整形された回答は、明らかに不完全なものより危険だからです。これはAIチャットボットが顧客に答える時に現れるリスクそのものであり、サポートにおいてハルシネーションを防ぐことが付加的な機能ではなく核心である理由です。

リーダーボードのスコアがデプロイ計画でない理由

つまり、フロンティアモデルは実際のナレッジワークを時に見事にこなせますが、最も難しいファイル量の多いタスクではほとんどの場合失敗します。AA-Briefcaseから一つのことを学ぶとすれば、これです:ベンチマークの順位は一般的な能力シグナルであり、モデルがあなたの乱雑なデータでどう振る舞うかの約束ではありません。

これを直接経験してきました。私たちは何年もかけてAIエージェントをライブサポートキューに投入してきました。チームを困らせるのは、基盤となるモデルが抽象的に十分賢いかどうかではなく、そのモデルが特定のチケット、製品の特性、エッジケースで正確であり続けるかどうかです。全ての公開リーダーボードをリードするモデルでも、自動チケット解決に達するはるか前の初日に、自信を持って返金ポリシーを誤って伝えることがあります。これはモデルへの批判ではなく、ベンチマークと本番環境の違いです。

解決策はAA-Briefcaseが基盤とする直感と同じです:信頼する前に根拠に基づいて作業を評価する。ヘルプデスクにとって、それは自社の過去のチケットに対してAIを実行し、仕様書を読んで希望を持つのではなく、何と答えたかを正確に確認することを意味します。テストセットが実際のサポート履歴である、自社プライベートAA-Briefcaseを実行するようなものだと考えてください。

本当に信頼できるAIサポートのためにeeselを試す

AA-Briefcaseが能力と信頼性は同じではないと納得させてくれたなら、それはまさにeesel AIが解決するために作られた問題です。eeselは既存のヘルプデスクナレッジベースに数分で接続する新しいサポートチームメンバーのように機能し、顧客と話す前に数千の過去チケットでシミュレーションを行えるため、リーダーボードから推測するのではなく、実際の解決率と正確な回答を事前に確認できます。

eesel AIのレポートダッシュボード。チームが解決率を予測し、ライブ前にAIが過去のチケットをどのように処理したかを確認できる
eesel AIのレポートダッシュボード。チームが解決率を予測し、ライブ前にAIが過去のチケットをどのように処理したかを確認できる

何に答えることを許可するか、いつエスカレーションするかをコントロールでき、自社のデータで無料で試せます。カスタマーサービス向けAIを評価しているなら、このシミュレーション優先アプローチは、AA-Briefcaseの「実際の仕事で証明する」という厳格さを自社のキューに持ち込む最も近い方法です。

よくある質問

AA-Briefcaseベンチマークとは何ですか?
AA-BriefcaseはArtificial Analysisによるベンチマークで、AIモデルを単発の質問ではなく、現実的な数週間のナレッジワークプロジェクトでテストします。各プロジェクトでは数千の乱雑なソースファイルをモデルに渡し、財務モデルや取締役会向けプレゼンなどの実際の成果物を要求し、その内容が実際に正確かどうかを採点します。AIエージェントが実際のオフィス業務でどのようなパフォーマンスを発揮するかを測る、最も信頼性の高い公開指標の一つです。
AA-BriefcaseでどのAIモデルが最も優れていますか?
2026年6月18日のリリース時点では、Claude Fable 5がおよそ1587のEloでAA-Briefcaseをリードし、Claude Opus 4.8とオープンウェイトのトップモデルGLM-5.2を上回っています。完全なランキングはこの投稿上部のインタラクティブなリーダーボードで確認でき、最新の数値はArtificial Analysis評価ページでリアルタイムに確認できます。
AA-Briefcaseのスコアはどのように算出されますか?
各タスクは3つの次元で評価されます。検証可能な正確性に対するバイナリルーブリック、分析品質に対するペアワイズElo、プレゼンテーションに対するペアワイズEloです。これらが1つのAA-Briefcase Eloに統合され、同一ファミリーのバイアスを抑制するために3モデルの審査員パネルが各比較を判定します。
なぜAIモデルはAA-Briefcaseで低スコアになるのですか?
作業が本当に難しいからです。トップモデルでも全ルーブリックチェックをすべてパスするのはタスクのわずか3%であり、91タスク中31タスクではどのモデルも50%を超えません。難易度はタスクに必要なファイル数が増えるにつれて上昇します。これはまさに本番環境のAIがつまずく断片化されたコンテキストの典型例です。
AA-Briefcaseの高スコアはモデルが安全にデプロイできることを意味しますか?
いいえ。リーダーボードの順位はモデルが一般的に優秀であることを示しますが、あなたのデータやワークフローで信頼できることを保証するものではありません。より安全なアプローチは、まず自社の過去のデータでテストすることです。eeselがサポートチームに提供しているように、顧客に返答する前にAIエージェントをシミュレーションできます。
AA-Briefcaseは他のAIベンチマークとどう違いますか?
ほとんどのベンチマークは短く独立した質問を採点します。AA-Briefcaseは連携したタスクと矛盾するソースファイルを持つ長期プロジェクトを採点し、磨かれて見える出力と実際に正確な出力を区別します。これにより、実際のビジネスタスクでAIと人間の作業を比較検討する際により関連性が高くなります。
AA-Briefcaseをカスタマーサポート向けAIツール選びに使えますか?
能力の有用な指標ですが、サポートツールは単なるモデル以上のものです。AIカスタマーサービスで重要なのは、システムがあなたの知識をどのように取得し、エスカレーションし、自信のある誤った回答を避けるかです。コミットする前にeesel AIのシミュレーションのように、自社の実際のチケットで実試験を行ってベンチマークを補完してください。

Share this article

Alicia Kirana Utomo

Article by

Alicia Kirana Utomo

Kira is a writer at eesel AI with a Computer Science background and over a year of hands-on experience evaluating AI-powered customer service tools. She focuses on breaking down how helpdesk platforms and AI agents actually work so that support teams can make better buying decisions.

Related Posts

All posts →
質問に答えるAIチャットボットと、Slack・メール・チケットツールに接続されたAIエージェントを対比したイラスト
AI

AIエージェント vs AIチャットボット:本当の違いと、どちらをいつ使うべきか

AIエージェント vs AIチャットボット:チャットボットは質問に答え、エージェントは行動してチケットを解決します。本当の違いと、どちらをいつ使うべきかを解説します。

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
技術者ではない人がアプリのアイデアを説明し、AIがソフトウェアの構成要素を組み立てている様子
AI

非エンジニアのためのバイブコーディング:実際にどういうもので、安全に使うには

非エンジニア向けのバイブコーディングをわかりやすく解説するガイド。その意味、使うべきツール、どこで破綻するか、そして自分で安全に作れるものを紹介します。

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
コードのブロックが自動的に組み上がるのを指揮する人物のイラスト。バイブコーディングを表している
AI

バイブコーディングとは?2026年版のわかりやすいガイド

バイブコーディングとは、やりたいことをAIに説明し、コードを書かせることです。それが何なのか、どこから来たのか、リスク、そして実際にいつ使うべきかを解説します。

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Apple IntelligenceのSiri AIアシスタントがビジネスソフトウェアのワークフローと連携するイラスト
AI

ビジネス向けApple Intelligence:2026年に実際にできること(できないこと)

2026年のビジネス向けApple Intelligenceを冷静に分析:新しいSiri AI、無料の開発者フレームワーク、そしてカスタマーサポートには不十分な理由。

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
iOS 27のApple IntelligenceでSiri AIの会話インターフェースを表示するスマートフォンのイラスト
AI

iOS 27のApple Intelligenceとは?わかりやすいガイド

iOS 27のApple Intelligenceを解説:再構築されたSiri AI、Googleとの連携、本当に新しいこと、そしてサポートチームにとっての意味。

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
Claude Opus 4.8のビジネス活用に関する編集イラスト
AI

Claude Opus 4.8のビジネス活用:変わること、変わらないこと

Claude Opus 4.8はAnthropicのフラグシップモデルです。オペレーターの視点からの実践的な考察:ビジネスへの意味、コスト、そして限界を解説します。

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
AnthropicのフラッグシップAIモデル、Claude Opus 4.8の編集イラスト
AI

Claude Opus 4.8とは?Anthropicの主力モデルを冷静に見る

Claude Opus 4.8はAnthropicの最新主力モデルです。何が変わったのか、コストはどのくらいか、そしてより賢いモデルがAIカスタマーサポートにとって何を意味するかを解説します。

Riellvriany IndriawanRiellvriany IndriawanJun 17, 2026
ビジネスチームのために長時間稼働する自律的なチームメイトとして働くClaude Fable 5のイラスト
AI

ビジネス向けClaude Fable 5:Anthropic最強モデルがあなたのチームにとって実際に何を意味するのか

ビジネス向けClaude Fable 5を冷静に見る:いくらかかるのか、どこで輝くのか、どこでつまずくのか、そしてカスタマーサポートで実際にどう活用するのか。

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026
散らばったノイズとマスクされたブロックが、整然としたテキストの行へと解像していくイラスト。速度を示すストップウォッチを添えて
AI

拡散ベースのAIモデルを解説:仕組みと、なぜ突然これほど高速になったのか

拡散ベースのAIモデルをわかりやすく解説するガイド。自己回帰型LLMとの違い、なぜテキスト生成が10倍速いのか、そしてそれがビジネスに何を意味するのかを説明します。

Alicia Kirana UtomoAlicia Kirana UtomoJun 17, 2026

AIチームメイトを採用する準備はできましたか?

数分でセットアップ。クレジットカード不要。

無料で始める