Trinity Mini: 3B稼働の26B OpenWeight MoEモデルが優れた推論能力を発揮

Arcee AIが開発した26B規模のスパースMoEモデル「Trinity Mini」は、実際の稼働パラメータは3Bと小さいながらも、MMLU 84.95%、Math-500 92.10%といった優れた零次元推論スコアを記録しています。128個のエキスパートを持ち、8個のアクティブエキスパートと1個の共有エキスパートを使うことで、数学やツール呼び出しタスクでの安定性が高いのが特徴です。また、10Tの大規模な学習データセットを使っているため、長文の推論も安定しているとのことです。

Like
Save
Read original
Cached
Comments
?

No comments yet

Be the first to comment

AI Curator - Daily AI News Curation

AI Curator

Your AI news assistant

Ask me anything about AI

I can help you understand AI news, trends, and technologies