Claudeコードはスロットマシンのようだ:実験結果

Anthropicが公開しているSWE-benchテストの結果には変動性が大きいことが分かった。同じ問題を10回実行すると、解決率は24.4%から64.4%と大きな差がある。また、同じ問題を解決した場合でも、パッチサイズが8倍も異なることがあった。これは「Claudeが解決できないのか、単に運が悪かっただけなのか」という疑問を呼び起こす。同様のベンチマークをオープンソースのVibe AIでも実行したところ、Claudeと同等の性能を示した。

Like
Save
Read original
Cached
Comments
?

No comments yet

Be the first to comment

AI Curator - Daily AI News Curation

AI Curator

Your AI news assistant

Ask me anything about AI

I can help you understand AI news, trends, and technologies