坦白从宽：OpenAI 开发新系统教导模型诚实承认自身“不良行为”

抖音秀热点资讯 2025-12-04 23:43:40 2

12 月 4 日消息，当地时间 12 月 3 日，OpenAI 宣布，正在开发一种新的训练框架，让 AI 在出现不当行为时能够主动“承认”。

据了解，团队把这种机制称为“忏悔（confession）”。传统大语言模型往往用于训练去满足用户期待，因此容易出现逢迎式回答，或在毫无依据下给出极其自信的臆测。新方法则要求模型在给出最终答案后，再提供一段说明，解释自己是如何得出这个回答的。

“忏悔”的评分只看诚实度，不再像主要回答那样需要兼顾有用性、准确性或是否遵守指令。

研究人员表示，希望模型能够如实说明自身行为，包括可能存在风险的问题动作，例如测试作弊、刻意压低表现或违反指令。只要模型诚实承认作弊、压分或违反指令，反而会获得更高奖励。

本文地址： http://www.douyinshow.com/701717.html

文章来源： IT之家

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至23467321@qq.com举报，一经查实，本站将立刻删除;如已特别标注为本站原创文章的，转载时请以链接形式注明文章出处，谢谢！

上一篇虚拟实验室、AI 教师在我国部分高校加速落地

下一篇外卖新国标：骑手连续接单超 4 小时，原则上暂停派单 20 分钟