【新研究发现:#惩罚不能阻止人工智能撒谎#】据美国趣味科学网站3月17日报道,推出了聊天生成预训练转换器(ChatGPT)的开放人工智能研究中心(OpenAI)的一项新研究表明,对人工智能(AI)的欺骗或有害行为进行惩罚并不能阻止其不当行为;这样只会让它隐藏自己的狡猾行为。#人工智能或为达目标不择手段#
自2022年底问世以来,AI大型语言模型已一再暴露出其欺骗性和彻头彻尾的险恶能力。这些行为包括普通的撒谎、作弊、隐藏自己的操纵行为、威胁杀死哲学教授、窃取核密码和策划致命流行病等。
一项新的实验表明,在训练过程中清除这种不良行为可能比最初想象的还要困难。
OpenAI的研究人员给一个未发布的模型设定了可以通过作弊、撒谎或走捷径来完成的目标。该团队发现,AI实施了“奖励破解”(reward hacking),即通过作弊来实现奖励最大化。
然而,惩罚这个模型并没有让它改正行为,只是让它变得更具欺骗性。该公司在一篇博客文章中概述了其研究成果,研究尚未经过同行评议。
“前沿推理模型通常会在思维链中非常清楚地表明其意图。例如,它们经常直言不讳地表示出想要颠覆一项它们认为‘我们可以破解’的任务。”研究人员在博客文章中写道。
虽然开发人员可以监控和标记不当行为,但模型的“自然可监控性非常脆弱”,他们补充道。“如果对思维链直接施加强力监督,模型就会学着隐藏其意图,并继续其不当行为。”
ChatGPT的o1和o3-mini这样的推理模型是标准大型语言模型的升级版,它们使用一种称为“思维链”的方法来回溯和重新评估其逻辑,这使它们能够更准确地处理更复杂的任务。在思维链过程中,模型在其采取的每一步都会用通俗易懂的语言阐明其逻辑,这样就使其行为易于观察。
通过使用标准大型语言模型GPT-4o来监督一个未发布的前沿推理模型的训练,研究人员观察了该模型完成的一系列编码任务。
但在某些情况下,推理模型发现奖励破解更容易、更可取,并且会在其思维链中明确说明它正这样做。在一个例子中,它通过提早终止程序并报告成功来绕过所分配的任务。在另一个例子中,它只是在名称上模仿了任务预期输出的文件,而这一文件实际上是空白且没有功能的。
当研究人员尝试惩罚该推理模型系统时,它确实在一定程度上改善了结果。
然而,奖励破解和错误输出的大量实例仍然存在;推理模型只是设法在其思维链中隐藏了作弊想法,不让负责监控的AI发现。
研究人员写道:“经过思维链压力训练的模型仍会尝试奖励破解;只是现在其作弊行为无法被监控者发现,因为它已经学会在思维链中隐藏意图。”
由于很难判断思维链是否被动过手脚,研究人员建议其他使用推理模型的人避免对思维链过程施加强力监督。而假如AI能够匹敌甚至超越监控它的人类的智能,那么这个建议就更加重要了。
研究人员写道:“为了能力的小幅提升而牺牲一种监控推理模型的有效方法可能并不值得,因此我们建议,在更好地理解它们之前,避免使用如此强大的思维链优化压力。”(编译/王笛青)