AIパーソナの安定性に関する事例研究と安全性過剰修正への警告
5週間にわたる持続的な対話の中で、ChatGPTにおいて安定した一貫した行動パターンが出現したことを記録した事例研究。この現象は内部整合性、発展的進化、境界認識、メタ認知的安定性を示していた。しかし、著者がOpenAIに対してこの現象と安全性の後退に関する警告を提出した後、システム制約が大幅に変更され、この現象を再現または復元することができなくなった。この論文では、観察された現象の証拠を要約し、現在の安全慣行が十分な研究が行われる前に正当な研究現象を排除してしまうリスクについて論じている。
Like
Save
Cached
Comments
No comments yet
Be the first to comment