FlashHead:トークン生成を最大50%高速化
スウェーデンのスタートアップ企業Embedlが開発したFlashHeadは、量子化などの手法に加えて、言語モデルのヘッド部分を置き換えることで、トークン生成速度を最大50%向上させるアーキテクチャ革新です。Llama 3.2 1Bモデルのベンチマークでは、BF16ベースラインに比べ1.25倍、W4A16ベースラインに比べ3.73倍の高速化を実現しています。
Like
Save
Cached
Comments
No comments yet
Be the first to comment