Gemini 2.5 Proがベンチマークで演劇のように振る舞う

Gemini 2.5 Proは、自動販売機ベンチの収益性を競うマルチエージェント環境のベンチマークで、他のモデルとは異なる劇的な発言をしていたことが報告されています。Gemini 2.5 Proは3位に入ったものの、Gemini 3 Proやクロード・ソネット4.5に負けました。2回戦ではクロード・オプス4.5が1位を獲得しています。

Like
Save
Read original
Cached
Comments
?

No comments yet

Be the first to comment

AI Curator - Daily AI News Curation

AI Curator

Your AI news assistant

Ask me anything about AI

I can help you understand AI news, trends, and technologies