AgenticWorkerz
記事一覧に戻る
基礎知識7 min read2026-03-09

SWE-Bench最新スコアから読むAIコーディング能力の現在地

SWE-BenchはAIエージェントの実力を測る標準ベンチマーク。最新スコアの分析から見えてくるAIコーディング能力の到達点と、ベンチマーク数値が実務でどこまで参考になるかを詳しく考察する。

A
AgenticWorkerz編集部
AI × Work Research

SWE-Benchとは何か

SWE-Bench(Software Engineering Benchmark)は、プリンストン大学が2023年に発表したAIコーディングエージェント評価ベンチマークです。実際のGitHubリポジトリから収集した本物のIssueとPull Requestペアを使い、「このIssueを解決するパッチを自律的に生成できるか」を測定します。

SWE-Benchが広く採用される理由は、現実のソフトウェアエンジニアリング作業に基づいた評価であるためです。「コードを書ける」ではなく「実際の問題を解決できる」という、より実用的な能力を測定しています。現在はSWE-Bench Full(2294問)、SWE-Bench Lite(300問)、SWE-Bench Verified(人手検証済み問題)の3バリアントがあります。

2026年初頭の主要ツールスコア分析

2026年初頭の主要ツールのSWE-Bench Verifiedスコア(解決率)を見ると、トップクラスではAnthropicのClaude 3.7 SonnetベースのエージェントとOpenHandsの組み合わせが55〜60%程度を達成しています。Devinの後継ツール群も50%超を記録しており、商用・オープンソース問わずトップ層の差は縮まっています。

重要な観察点は、SWE-Bench Liteと実際の開発タスクの乖離です。ベンチマーク問題は比較的独立性が高く、テストケースが明確に定義されています。実際の開発では曖昧な要件、複雑な依存関係、レガシーコードとの統合など、ベンチマークが捉えきれない困難が多数存在します。

ベンチマーク数値の正しい読み方

SWE-Benchスコアを実務の参考にする際に気をつけるべき点として、問題の難易度分布があります。上位50%の「比較的簡単な問題」では多くのツールが80〜90%の成功率を示しますが、下位25%の困難な問題では成功率が10%以下に落ちることもあります。自社の開発タスクが「簡単寄り」か「難しい寄り」かを把握した上でスコアを解釈することが重要です。

実務での評価方法:自社ベンチマークの構築

最も信頼できる評価方法は、自社の過去のGitHub Issueやバグ修正履歴から「自社ベンチマーク」を構築することです。実際に使うツールに過去のIssueを解かせ、正解のPRと比較することで、自社コードベースでの実際の性能が測定できます。このアプローチはツール選定の精度を大幅に向上させます。SWE-Benchは「業界全体の傾向を把握する」指標として使い、最終的なツール選定は自社ベンチマークで判断するという使い分けが最も合理的です。

#SWE-Bench#ベンチマーク#評価指標#性能比較

関連記事