AIXI の一般的な効用関数: 無知の中での価値
この論文では、AIXI のための一般的な効用関数を研究しています。特に、(ハイパー)計算可能性の性質が不確実確率理論と関連していることが示されています。セミ測度を信念集合として再定式化することで、強化学習の割引報酬の価値関数を導出できます。また、より広いクラスの下半連続な価値関数も得られ、最適な行動は最小最大決定ルールに従うことがわかります。この論文は初期の会議論文で、完全な証明は含まれていませんが、AIXI の効用関数や不確実確率理論との関係に興味がある人に読まれることを期待しています。
Like
Save
Cached
Comments
No comments yet
Be the first to comment