Claude Mythos:2026年の現状を塗り替える「強力すぎる」AI
Stevia Putri
最終更新 April 20, 2026

目まぐるしく変化する人工知能の世界において、開発者自身がリリースを恐れるほど有能なモデルが登場することは稀です。しかし、2026年初頭、私たちはまさにそのような状況に直面しています。それが Claude Mythos です。
Claude Mythosの物語は、華やかな基調講演ではなく、2026年3月に発生した偶発的なデータ漏洩から始まりました。Anthropicのコンテンツ管理システムにおける人為的ミスにより、未発表モデルファミリーのブログ記事草案とシステムカードが一時的に公開されてしまったのです。その漏洩によって「Mythos」と「Capybara」という2つの名前が明らかになりました。数時間のうちにAIコミュニティは騒然となり、Anthropicがモデルの存在を認めた頃には、サイバーセキュリティ関連の株価はすでに急落し始めていました。

Anthropicはこの誇大広告を否定しませんでした。彼らはMythosをAIパフォーマンスにおける「段階的な変化(ステップチェンジ)」と表現しました。ソフトウェアの脆弱性を特定し悪用する能力があまりに強力であるため、一般公開すれば世界のデジタルインフラに「前例のないリスク」をもたらすと判断したのです。
本稿では、Claude Mythosの何が特別なのか、すでに高い評価を得ているClaude Opus 4.6と比べてどうなのか、そしてなぜ「Project Glasswing」がAI史上最も重要な限定的実験なのかを深く掘り下げます。
ベンチマーク:Claude Mythos vs. Opus 4.6
Anthropicが語る「段階的な変化」を理解するには、数値を見る必要があります。Claude Opus 4.6はすでに多くの開発者にとってゴールドスタンダードでしたが、Mythosは誰もが予想していた以上の高みに到達しました。
コーディング:自律型エンジニアリングの新たな時代
最も顕著な飛躍はコーディングに見られます。本番環境のコードベースにおける実際のGitHubの問題を解決する能力をテストする SWE-bench Verified において、Mythosは約 87% というスコアを達成しました。参考までに、Opus 4.6は70%台前半です。
SWE-benchでの15ポイントの飛躍は、単なるスコアの向上ではありません。質的な転換を意味します。これは、コードの断片を提案するAIと、人間の介入を最小限に抑えながら複雑で乱雑なコードベースを自律的に管理できるAIとの違いを意味しています。
推論と論理
論理ベンチマークも同様に驚異的です。USAMO 2026(アメリカ数学オリンピック予選)において、Mythosは 97.6% という驚異的なスコアを記録しました(Opus 4.6は66.2%)。これは、このモデルが競技レベルの数学的推論を事実上「解決」したことを示唆しており、小規模なモデルを悩ませる累積的なエラーなしに、長鎖の演繹的論理を実行できることを証明しています。
| ベンチマーク | Claude Mythos | Claude Opus 4.6 |
|---|---|---|
| USAMO 2026 | 97.6% | 66.2% |
| SWE-bench Verified | ~87% | 72-73% |
| CharXiv (ツール使用) | 93.2% | 84.7% |
| OSWorld | 79.6% | 72.7% |
| MMMLU | 92.7% | 91.1% |
出典:Anthropic Claude Mythos プレビューシステムカード

Redditの /r/singularity ユーザーの一人はこう述べています。「Opus 4.6からMythosへの飛躍は、GPT-3からGPT-4への飛躍のように感じられる。AIが20年前のレガシーコードベースを見て、人間の監査人が20年間見逃していた脆弱性を発見するのを初めて目にした。」
Project Glasswing:ゲート付きのセンチネル
これほど高い能力を持つと、「デュアルユース(軍民両用)」のリスクが最大の懸念事項となります。「コンピュータセキュリティのタスクにおいて驚異的な能力を持つ」モデルは、防御側にとっては夢のようなツールですが、悪意のある手に渡れば他のすべての人にとって悪夢となります。

これが、Anthropicが Project Glasswing を立ち上げた理由です。パブリックAPIやChatGPTのようなインターフェースではなく、Mythosは現在、ゲート付きの限定的な研究プレビューを通じてのみ利用可能です。アクセスは、約40の「重要な業界パートナー」および世界で最も不可欠なソフトウェアインフラを担う組織に制限されています。
Glasswingのパートナー
パートナーリストには、テック界の重鎮たちが名を連ねています。
- クラウド大手: Amazon Web Services (AWS)、Google Cloud、Microsoft。
- ハードウェア・チップ: Nvidia、Broadcom。
- デバイスメーカー: Apple。
- サイバーセキュリティ企業: Crowdstrike。
- 政府・研究機関: 英国AI安全研究所 (AISI)、Gray Swan。

目的はシンプルです。防御側に先手を打たせることです。これらの組織が自社のシステムに対してMythosを実行できるようにすることで、将来的に調整が不十分なモデルが悪意のある者に同じ能力を広く提供してしまう前に、数千もの深刻な脆弱性を発見し修正することができます。
誇大広告か、現実か
「強力すぎてリリースできない」という物語に誰もが納得しているわけではありません。著名なセキュリティ研究者であるブルース・シュナイアー氏は、これが「ほとんどマーケティングの誇大広告」ではないかと疑問を呈しており、Mythosを実際以上に革命的に見せるための巧妙な売り込みであると指摘しています。
しかし、英国国立サイバーセキュリティセンターの元責任者であるキアラン・マーティン氏は、このモデルの圧倒的なスピードこそが人々を震撼させていると指摘します。「ほとんどのハッカーはシステムを侵害するのにスーパーAIツールを必要としないが、Mythosはこれまでに見たことのない規模と速度でそれを実行できる」と彼は述べています。
AIチームメイトの未来:誇大広告の先へ
eesel AI では、AIの真の力はチャットボックスの中にあるのではなく、あなたが働く場所に存在する 自律型AIチームメイト にあると常に信じてきました。Claude Mythosは、このビジョンの次の進化を表しています。
もしモデルがサイバーセキュリティに必要な高難度の多段階推論にこれほど優れているなら、それがビジネスオペレーションに何をもたらすか想像してみてください。私たちはすでに、こうした「段階的な変化」をもたらすモデルがワークフローをどのように変革しているかを目の当たりにしています。
- 複雑なエージェントタスク: Mythosは、文脈を失うことなく数千のファイルにわたって指示に従うことができます。これは、AIが「何を」だけでなく「なぜ」変更するのかを理解する必要がある Claude Codeワークフロー自動化 にとって完璧なエンジンとなります。
- 統合された知識: 100万トークンのコンテキストウィンドウにより、Mythosクラスのモデルを搭載したAIチームメイトは、会社全体の歴史をアクティブメモリに保持できます。「その情報はありません」という返答はもう不要です。AIは、まるで10年選手のベテラン社員のように、あなたのドキュメント、Slackの履歴、Jiraチケットを把握しています。
- 推論ファーストのサポート: カスタマーサポートにおいて、これは以前ならシニアエンジニアが必要だった技術的なエスカレーションを処理できる AIエージェント を意味します。
2026年が深まるにつれ、企業にとっての問いは「AIを使うべきか?」ではなく、「私たちのAIは真のチームメイトになれるほど有能か?」に変わっています。Mythosのようなモデルは、その答えがますます「イエス」であることを証明しています。
インフラの負担なしに最前線に留まりたいと考えているなら、Claude Opus 4.6の代替案 を検討し、次世代モデルの展開に備えることが不可欠です。また、私たちがどのように Claude AIコラボレーションツール を活用して、これらの強力なモデルと日常のアプリとのギャップを埋めているかもぜひ確認してみてください。
よくある質問
Share this article

Article by
Stevia Putri
Stevia Putri is a marketing generalist at eesel AI, where she helps turn powerful AI tools into stories that resonate. She’s driven by curiosity, clarity, and the human side of technology.


