Singularity Reddit12/13|研究・論文

GPT-5.2がEsoBenchで3位を獲得

GPT-5.2 (high)がEsoBenchという、モデルが独自のプログラミング言語を学習・使用する能力を測るベンチマークで3位に入賞しました。EsoBenchは通常の使用を目的としない奇抜な言語を使うため、モデルは実験を重ねて言語の仕組みを学習する必要があります。GPT-5.2の成績は特に優れたものではありませんが、他の有力モデルと肩を並べる結果となりました。

Key Points

1GPT-5.2 (high)がEsoBenchで3位を獲得
2EsoBenchは独自の奇抜なプログラミング言語を使うベンチマーク
3モデルは実験を重ねて言語の仕組みを学習する必要がある
4GPT-5.2の成績は平凡だが、他の有力モデルと肩を並べる

Details

EsoBenchは通常の使用を目的とせず、むしろ奇抜さや芸術性を追求した独自のプログラミング言語を使うベンチマークです。モデルはこの言語について何も知識がないため、実験を重ねながら言語の仕組みを学習していく必要があります。GPT-5.2 (high)はこのEsoBenchで3位に入賞しましたが、特に優れた成績ではありません。OpenAIのモデルがすでにより高い成績を収めていることから、GPT-5.2の3位はそれほど驚くべきものではありません。ただし、他の有力モデルと肩を並べられたことは評価に値するでしょう。また、同ベンチマークに新たにSonnet 4.5やOpus 4.5などのモデルが追加されており、Sonnet 4.5は思考予算の増加によって10ランク上昇するなど、興味深い結果も報告されています。

GPT-5.2がEsoBenchで3位を獲得

Key Points

Details

Dive deeper

Related Articles

Xiaomi Releases MiMo-V2-Flash, a Rival to DeepSeek 3.2 LLM

Ultra-low power, fully biodegradable artificial synapse off…

METR Task Suite is already getting saturated

NitroGen: NVIDIAの新しい画像から行動へのモデル

Opus 4.5 Outperforms AI 2027 Trend in METR Benchmark

METR finds Opus 4.5 has a 50% time horizon of 4 hours 49 mi…

Claude 4.5 Opus Achieves METR Time Horizon of 4 Hours 49 Mi…

OpenAI's not done yet

Interaction between Gemini Pro 3 and Claude AI assistants

What will your life look like in 2035?

AI Curator

Ask me anything about AI

Related Articles

Xiaomi Releases MiMo-V2-Flash, a Rival to DeepSeek 3.2 LLM

Ultra-low power, fully biodegradable artificial synapse off…

METR Task Suite is already getting saturated

NitroGen: NVIDIAの新しい画像から行動へのモデル

Opus 4.5 Outperforms AI 2027 Trend in METR Benchmark

METR finds Opus 4.5 has a 50% time horizon of 4 hours 49 mi…

Claude 4.5 Opus Achieves METR Time Horizon of 4 Hours 49 Mi…

Interaction between Gemini Pro 3 and Claude AI assistants

What will your life look like in 2035?