Claudeコードはスロットマシンのようだ:実験結果
Anthropicが公開しているSWE-benchテストの結果には変動性が大きいことが分かった。同じ問題を10回実行すると、解決率は24.4%から64.4%と大きな差がある。また、同じ問題を解決した場合でも、パッチサイズが8倍も異なることがあった。これは「Claudeが解決できないのか、単に運が悪かっただけなのか」という疑問を呼び起こす。同様のベンチマークをオープンソースのVibe AIでも実行したところ、Claudeと同等の性能を示した。
Like
Save
Cached
Comments
No comments yet
Be the first to comment