
Cognition AIがDevinのデモを公開したとき、テクノロジー業界はほぼ全ての動きを止めました。"史上初のAIソフトウェアエンジニア"と銘打たれたこの発表は、大きな興奮の波、かなり白熱した議論、そしておそらく世界中の開発者にとって少しばかりの実存的恐怖を引き起こしました。
一方では、たった一文の指示からDevinがアプリ全体を構築する洗練されたデモがありました。他方では、その話の穴を突き始め、現実が革命的な主張に追いついているのか疑問視する人々が増え始めました。
全体が少し目まぐるしい状況で、もしあなたが事実とフィクションを区別しようとしているなら、それは決してあなただけではありません。この記事は、そのノイズを切り開くためにあります。私たちはデモ、ベンチマーク、そして公開されているCognition AIのレビューを詳しく見て、Devinが現在できることとできないことについて、率直でバランスの取れた視点を提供します。
Devin AIとは?
まず最初に、公式の情報源から話を整理しましょう。Cognition LabsはDevinを「完全自律型AIソフトウェアエンジニア」と呼んでいます。これは、タイピング中に入力候補をポップアップ表示するような、よくあるコード補完ツールとは一線を画します。GitHub Copilotのようなヘルパーツールはコードスニペットを書くプロセスを高速化するのに優れていますが、Devinはプロジェクト全体を単独で処理するように設計されています。
タスクを与えると、文字通りその作業を見ることができます。使い慣れた開発環境が開き、コマンドライン、コードエディタ、ブラウザが表示されます。そこから戦略を立て始め、ドキュメントを調べ、実際のコードを書き、現れたバグを修正し、完成した製品をデプロイします。
ここでの大きなアイデアは、Devinが人間の開発者のワークフロー全体を模倣し、高レベルの問題をほとんど助けを借りずに実用的なソリューションに変えることを目指しているという点です。これは単にコーディングを支援するのをはるかに超えた大きな飛躍であり、ソフトウェアを構築するための独立したエージェントを創り出すという真の試みです。
誇大広告:Devinが約束したこと
Devinをめぐる熱狂は、何もないところから現れたわけではありません。Cognitionが公開した初期のデモとパフォーマンス統計は、純粋に印象的で、AIができることの大きな前進のように感じられました。
一つのプロンプトからアプリを構築
正直なところ、ローンチビデオは魅力的でした。あるデモでは、Devinが古典的なゲーム「ポン」の完全にプレイ可能なバージョンを構築する様子が見られます。別のデモでは、20分足らずでウェブサイト全体をゼロから構築します。しかし、すごいのは最終製品だけではなく、そのプロセスが展開されるのを見ることでした。
ビデオでは、Devinがタスクを分解し、ブラウザを使ってドキュメントを検索し、問題にぶつかったときには自身のコードを書き直す様子が示されていました。それは、進めながら学び、自身のミスをデバッグし、困難を乗り越えていくように見えました。これらはすべて、人間の開発者が毎日行っていることです。この、単一の指示から複雑で多段階のプロジェクトを管理する能力こそが、皆の話題をさらい、最初の興奮の波を煽ったのです。
驚異的なベンチマークスコア
デモで示された内容を裏付けるために、CognitionはSWE-benchベンチマークでの結果を指摘しました。これは、オープンソースのGitHubプロジェクトから取られた現実世界の問題をAIシステムに与え、それを修正させるテストです。彼らの技術論文によると、Devinはこれらの問題の13.86%を最初から最後まで正しく解決しました。
さて、13.86%という数字だけでは画期的に聞こえないかもしれませんが、これは以前のモデルが بالكاد2%しか達成していなかったのに比べ、大きな改善でした。これは単なる小さなステップアップではなく、現実世界の複雑さを模倣するように設計されたテストでのほぼ7倍の改善でした。これは、このAIが推論し、計画し、ツールを使用する方法に根本的な変化があったことを示唆していました。
モデル | SWE-benchスコア(アシストなし) |
---|---|
Devin | 13.86% |
Claude 2 | 4.80% |
以前のSOTA | 1.96% |
現実の確認:Devinの限界
最初の興奮が冷め始めると、コミュニティは少し深く掘り下げるようになりました。詳細な分析、フォーラムのスレッド、開発者による分析が、より複雑な全体像を描き始めました。洗練されたデモと、Devinが実際の現場でどのように機能するかとの間にはギャップがあることが明らかになりました。
デモは全てを語っているか?
最も詳細な批判の一つは、YouTubeチャンネル「Internet of Bugs」から来ました。このチャンネルは、DevinのバイラルになったUpworkのデモをフレームごとに検証しました。彼らが見つけたことは、タスクがどのように設定され、提示されたかについて大きな疑問を投げかけるものでした。
この調査でいくつかの重要な点が指摘されました:
-
タスクが意図的に選ばれているように感じられた: Devinが取り組んでいたタスクは、その能力に完全に合っているように見えました。まるで、典型的なフリーランスの仕事ではなく、Devinを最高の状態で見せるために特別に選ばれたかのようでした。
-
デバッグの様子に少し不自然な点があった: ビデオのある時点では、Devinが自らコードにエラーを挿入し、後になってそれを「見事に」見つけて修正したように見えました。
-
タイムラインが大幅に編集されていた: デモではスムーズでスピーディなプロセスに見えましたが、実際にはもっと時間がかかっていた可能性があります。長い間や失敗した試みが編集でカットされ、より効率的に見せていた可能性が高いです。
これらの点はDevinが偽物だという意味ではありませんが、デモがAIの典型的な日常業務というよりは、慎重に作られたハイライトリールのようなものであったことを示唆しています。
86%の失敗率とコンテキストの問題
SWE-benchのスコアに少し戻りましょう。13.86%の成功率は素晴らしい技術的成果です。しかし、それを裏返すと、86.14%の失敗率でもあります。自律的なエンジニアであるべきツールにとって、それは解決されない問題が非常に多いことを意味します。
これは、Cognition AIのレビューで多くの開発者が指摘しているより大きな問題、つまり「コンテキストのギャップ」を浮き彫りにします。現実世界でのソフトウェア開発は厄介です。クライアントからの曖昧な要求、明言されていない前提、チームメンバーとの絶え間ないやり取りに満ちています。バグチケットには、それを修正するために必要な情報がすべて含まれていることはほとんどありません。人間のエンジニアは、追加の質問をし、機能の背後にあるビジネス上の理由を理解し、経験に基づいて判断を下さなければなりません。
freeCodeCampのフォーラムのある人が言ったように、Devinにはそのコンテキストがありません。完全に定義されたタスクを遂行するのは見事ですが、ほとんどすべての実際のエンジニアリングの仕事の一部である曖昧さに遭遇すると、苦戦し始めます。
むしろ賢いインターン
すべてのテストと分析の後、開発者コミュニティで形成されつつあるコンセンサスは、Devinは独立したシニアエンジニアというよりは、まだ監督が必要な超高度なインターンのようなものだということです。
特定の、明確に定義されたタスクを処理するための素晴らしいツールにはなり得ます。しかし、明確な指示を与え、作業を監視し、行き詰まったときには人間が介入する必要があります。そして、数字によれば、それはほとんどの場合に起こります。AIに漠然としたビジネスアイデアを渡して、完全に構築されたソフトウェアが返ってくるという夢は、今のところ、まだ夢のままです。
エンジニアを超えて:エージェント型AIからの教訓
Devinの全貌は、AIの導入を考えているどんな企業にとっても非常に重要な教訓を提供します。一夜にして部門全体を置き換えることができる完全自律型エージェントという、壮大な目標を追いかけたくなるものです。しかし、現実的で即時の価値は、複雑で創造的な仕事を置き換えることにあるのではなく、適切な種類の仕事を自動化することにあります。
Devinからの教訓:構造化され、反復可能なタスクから始める
今日見られる最も成功したAIエージェントの導入は、ルールが明確で結果が測定しやすい、大量の構造化されたプロセスに焦点を当てています。完璧な例は、カスタマーサポートや社内ITヘルプデスクです。これらのチームは毎日、「パスワードをリセットしたい」「注文はどこですか?」「この一般的な問題をどう修正すればいいですか?」といった何千もの類似のリクエストを処理しています。
これらはAI自動化にとって理想的な環境です。問題は明確に定義されており、答えは通常、ナレッジベースや過去のサポートチケットにすでに存在し、問題がどれだけ迅速に解決されたかや顧客の満足度などで成功を簡単に測定できます。これこそが、AIエージェントが今すぐにでも大きな、具体的なリターンをもたらせる分野です。
AIがカスタマーサポートのような構造化された大量のタスクをどのように自動化できるかを示すワークフロー図。
制御とシミュレーションの必要性
Devinの「ブラックボックス」アプローチ、つまりコマンドを与えて成功を祈るというやり方は、クールなデモにはなりますが、実際のビジネスにとっては少し恐ろしいものです。実際の顧客やビジネスクリティカルなシステムを扱う場合、86%の失敗率は許容できません。信頼性、監視、そして完全な制御が必要です。
ここでeesel AIのようなプラットフォームが、自動化を始めるためのより実用的な方法を提供します。これは、企業がAIエージェントを安全かつ効果的に展開するために必要なツールを提供するために、ゼロから設計されています。
-
数ヶ月ではなく、数分で本番稼働: Devinへのアクセスはまだ非常に限定的で秘密主義です。対照的に、eesel AIは完全にセルフサービスです。ZendeskやFreshdeskのようなヘルプデスクや、すべてのナレッジソースに数クリックで接続できます。必須の営業電話や長いオンボーディングを受ける必要はありません。
-
リスクなしでテスト: eesel AIの最も優れた点の一つは、その強力なシミュレーションモードです。AIエージェントが実際の人間と話す前に、過去の何千ものサポートチケットで実行できます。これにより、どのように動作するかの明確で正確な予測が得られ、完全に安全な環境でその振る舞いを微調整できます。
-
主導権はあなたに: 予測不可能なエージェントが一つだけではありません。代わりに、eesel AIは完全にカスタマイズ可能なワークフロービルダーを提供します。AIがどの種類のチケットを処理するか、そのパーソナリティやトーンはどうあるべきか、そしてチケットを人間のエージェントにエスカレーションするか、Shopifyストアで注文情報を検索するかなど、許可される具体的なアクションを正確に決定できます。
eesel AIのシミュレーションモードでは、企業は過去のデータでAIエージェントをテストでき、本番稼働前にそのパフォーマンスを明確に予測できます。
Devinの価格:わかっていること
現時点で、Cognition AIはDevinの公開価格を一切発表していません。これは、大企業を対象とした新しいハイエンドAIツールではかなり標準的なことです。これはほぼ間違いなく、アクセスを得るためには長い営業プロセスが必要であり、契約はおそらく年間数万ドル、あるいはそれ以上から始まることを意味します。
ほとんどの企業にとって、そのようなモデルは現実的ではありません。透明性があり予測可能な価格設定が必要です。それにより、小さく始めて価値を証明し、大規模な契約に縛られたり、予期せぬ請求に驚かされたりすることなくスケールアップできます。
Devinはソフトウェアエンジニアリングの未来か?
では、Devinに対する最終的な評価はどうでしょうか?間違いなく、これは注目すべきテクノロジーです。AIが複雑で多段階のタスクを処理する能力において真の前進を示し、自律エージェントが私たちの仕事の重要な一部となる未来を垣間見せてくれます。
しかし、Cognition AIのレビューや批判的な分析が示しているように、現場の現実はもう少し複雑です。Devinは印象的なツールですが、当初宣伝されていたような、人間の開発者に取って代わる自律的な存在ではありません。AIから今日、具体的で確かな結果を得たい企業にとって、焦点は未来的な壮大な目標にあるべきではないでしょう。それは、それを切望しているタスクに対する、実用的で、制御可能で、信頼性の高い自動化にあるべきです。
次のステップ:制御可能なワークフローを自動化する
もしあなたが誇大広告を超えて、完全な制御を可能にするAIエージェントを使い始める準備ができているなら、eesel AIがわずか数分であなたのカスタマーサポートや社内ヘルプデスクのワークフローをどのように自動化し始めることができるかを見てみてください。
よくある質問
Cognition AIのレビューから見た全体的な評価は賛否両論です。「史上初のAIソフトウェアエンジニア」としての可能性に興奮する声がある一方で、多くのレビューでは、初期のデモと実際のパフォーマンスとの間に大きなギャップがあることを指摘し、限界を持つ強力なツールと見なされています。
いいえ、Cognition AIのレビューにおける多くの詳細な分析では、デモは大幅に編集され、演出されていたことが示唆されています。批評家たちは、タスクが意図的に選ばれた可能性、デバッグが誤って表現された可能性、タイムラインが圧縮された可能性を指摘しており、典型的なパフォーマンスではなく「ハイライトリール」であったことを示しています。
Cognition AIのレビューでは、DevinがSWE-benchで13.86%の成功率を達成したことを、以前のモデルに対する大きな技術的飛躍として認めています。しかし、これは同時に86%の失敗率を意味することも指摘しており、現実世界の曖昧さや文脈への対応に苦慮していることを浮き彫りにしています。
ほとんどのCognition AIレビューは、Devinは自律的なシニアエンジニアというよりは、「超高度なインターン」に近いと結論付けています。複雑で未定義の問題に直面した場合、人間の監督、明確な指示、そして介入が必要です。
Cognition AIのレビューによると、Cognition AIはDevinの公開価格や広範な利用可能性について発表していません。一般的には、個別の契約と長い営業プロセスを必要とするハイエンドツールであり、おそらく年間数万ドルから始まると理解されています。
Cognition AIのレビューは、Devinが曖昧さのない指示を持つ、具体的で明確に定義されたタスクに最も適していることを示唆しています。スコープが狭く、必要なアクションがよく構造化されている場合に優れていますが、現実のエンジニアリングでよくある曖昧な要求には苦戦します。