SWE-Bench最新スコアから読むAIコーディング能力の現在地
SWE-BenchはAIエージェントの実力を測る標準ベンチマーク。最新スコアの分析から見えてくるAIコーディング能力の到達点と、ベンチマーク数値が実務でどこまで参考になるかを詳しく考察する。
SWE-Benchとは何か——なぜこれがAI能力の物差しになったのか
SWE-Bench(Software Engineering Benchmark)は、プリンストン大学が2023年に発表したAIコーディングエージェント評価ベンチマークだ。実際のGitHubリポジトリから収集した本物のIssueとPull Requestペアを使い、「このIssueを解決するパッチを自律的に生成できるか」を測定する。「コードを書ける」ではなく「実際の問題を解決できる」という、より実用的な能力を測定している点が他のベンチマークと違う。
SWE-Benchが業界標準として定着した背景には、「デモでは動くが実務では使えない」AIツールへの不信感がある。合成データで作ったベンチマークは高スコアを出しても実務での役に立たないことが多かった。SWE-Benchはdjango、flask、scikit-learnなど実際のOSSプロジェクトのIssueを使うため、「本当に実務レベルで使えるか」を測る指標として説得力がある。現在はSWE-Bench Full(2294問)、SWE-Bench Lite(300問)、SWE-Bench Verified(人手検証済み問題)の3バリアントがある。
2026年初頭のスコアを読む——数字の裏側にあるもの
2026年初頭の主要ツールのSWE-Bench Verifiedスコアを見ると、トップクラスではAnthropicのClaude 3.7 SonnetベースのエージェントとOpenHandsの組み合わせが55〜60%程度を達成している。Devinの後継ツール群も50%超を記録しており、商用・オープンソース問わずトップ層の差は縮まっている。
一年前の同時期と比較すると、トップスコアが13%から55%超へと急上昇した。この進化速度は驚異的だ。しかし重要な観察点は、SWE-Bench Liteと実際の開発タスクの乖離だ。ベンチマーク問題は比較的独立性が高く、テストケースが明確に定義されている。実際の開発では曖昧な要件、複雑な依存関係、レガシーコードとの統合など、ベンチマークが捉えきれない困難が多数存在する。「55%」という数字だけを見て「仕事の半分をAIに任せられる」と判断するのは早計だ。
ベンチマーク数値の正しい読み方——難易度分布に注目せよ
SWE-Benchスコアを実務の参考にする際に気をつけるべき点として、問題の難易度分布がある。上位50%の「比較的簡単な問題」では多くのツールが80〜90%の成功率を示すが、下位25%の困難な問題では成功率が10%以下に落ちることもある。スコアが同じ50%でも、「簡単な問題を安定して解く」ツールと「難しい問題にたまに正解する」ツールでは、実務での使い勝手がまったく異なる。
自社の開発タスクが「簡単寄り」か「難しい寄り」かを把握した上でスコアを解釈することが重要だ。あなたのチームのIssueを10件サンプリングして「SWE-Bench的に難しそうか簡単そうか」を判定するだけでも、ツール選定の精度が上がる。
自社ベンチマークを作れ——これが最も信頼できる評価方法だ
最も信頼できる評価方法は、自社の過去のGitHub Issueやバグ修正履歴から「自社ベンチマーク」を構築することだ。実際に使うツールに過去のIssueを解かせ、正解のPRと比較することで、自社コードベースでの実際の性能が測定できる。このアプローチはツール選定の精度を大幅に向上させる。
具体的なやり方として、過去のIssueの中から「解決策が明確で、結果の正誤が判断しやすい」ものを20件程度ピックアップし、複数のツールに解かせて比較する。この20件のIssueでのパフォーマンスが、あなたのプロジェクトでの実際の使用感を最もよく予測する。SWE-Benchは「業界全体の傾向を把握する」指標として使い、最終的なツール選定は自社ベンチマークで判断するという使い分けが最も合理的だ。ツール選定に迷っているなら、この「自社ベンチマーク20問テスト」を今すぐ始めることをすすめる。