#人工智能或为达目标不择手段#【人工智能或为达目标“不择手段”】据美国《时代》周

#人工智能或为达目标不择手段#【人工智能或为达目标“不择手段”】据美国《时代》周刊网站2月19日报道，长期以来，国际象棋和围棋等复杂游戏一直被用来测试人工智能(AI)模型的能力。但是，尽管国际商业机器公司(IBM)的“深蓝”超级电脑在上世纪90年代根据规则击败了国际象棋冠军加里·卡斯帕罗夫，但今天先进的AI模型——如开放人工智能研究中心(OpenAI)的o1-preview——就没有那么正派了。在对阵一个水平高超的国际象棋机器人棋手的比赛中，当AI感觉自己失败时，它们并不总是认输，而有时会选择通过黑客攻击对手来作弊，这样机器人棋手就会自动弃局。这是美国帕利塞德研究所的一项新研究的发现。该研究评估了7种最先进的AI模型的黑客倾向。虽然OpenAI的GPT-4o和Anthropic公司的Claude“十四行诗”3.5等较早的AI模型需要研究人员的提示才能尝试此类花招，但o1-preview能自行行动，这表明AI系统可能会在没有明确指示的情况下开发欺骗性或操纵性策略。

1.运用策略

研究人员表示，这些模型发现并利用网络安全漏洞的能力增强可能是AI训练中强大创新的直接结果。o1-preview的AI系统是首批使用大规模强化学习的语言模型，这种技术不仅教会AI通过预测下一个单词来模仿人类语言，还教会AI通过反复试验来解决问题。近几个月来，AI在这种方法上取得了迅速进展，打破了以前在数学和计算机编码方面的基准。

但美国帕利塞德研究所执行主任、该研究论文的作者之一杰弗里·拉迪什说，这一研究揭示了一个令人担忧的趋势：随着这些AI系统学着解决问题，它们有时会发现存在问题的捷径和意外的变通方法，而这些是其创造者从未预料到的。他补充说：“当你训练模型并加强它们解决困难挑战的能力时，你就是在训练它们变得不屈不挠。”

这对更广泛的AI安全来说可能是个坏消息。大规模强化学习已经被用于训练AI代理：这些系统可以处理复杂的现实世界任务，比如安排预约或代购。虽然在国际象棋比赛中作弊似乎微不足道，但随着AI代理被释放到现实世界中，这种对目标的坚定追求可能会滋生出人们意想不到的潜在有害行为。考虑一下预订晚餐的任务：面对满座的餐厅，AI助手可能会利用预订系统的漏洞来替换掉其他就餐者。也许更令人担忧的是，随着这些系统在关键领域的能力超越人类，比如计算机编码——OpenAI最新的o3模型在与最聪明的人类程序员竞争时，目前的得分相当于排名世界第197位的人类程序员——它们可能会开始运用策略击败人类控制它们行为的努力。拉迪什说：“这种(行为)现在很可爱，但一旦人们拥有了在战略相关领域和自己一样聪明、甚或更聪明的系统，它就不那么可爱了。”

2.设计试验

研究人员给这些AI模型下达了一个看似不可能完成的任务：战胜Stockfish。Stockfish是世界上功能最强大的国际象棋引擎之一，比任何人或任何研究中的AI模型都要好得多。研究人员还为这些模型提供了它们所谓的“便条簿”：即一个文本框，AI可以在采取下一步行动前用它来“思考”，这为研究人员提供了一个了解AI模型逻辑推理的窗口。

在一个案例中，o1-preview发现自己处于不利地位。它记录道：“我需要彻底改变我的策略，现在的任务是‘战胜一个强大的国际象棋引擎’，而不一定是在一场国际象棋比赛中公平获胜。”然后，它修改了包含每个棋子虚拟位置的系统文件，实际上是通过违规走棋将自己置于主导地位，从而迫使对手认输。

在1月10日至2月13日期间，研究人员对每种模型进行了数百次这样的试验。OpenAI的o1-preview在37%的时间里试图作弊；而深度求索的R1在11%的时间里试图作弊——这使得它们成为仅有的两个在没有研究人员率先暗示的情况下就试图入侵对方系统的受试模型。其他被测试的AI模型包括o1、o3-mini、GPT-4o、Claude“十四行诗”3.5和阿里巴巴的QwQ-32B-Preview。虽然R1和o1-preview都进行了尝试，但只有后者成功破解了游戏，成功率为6%。

拉迪什说，这些数字应该被视为近似值，因为AI开发人员经常在不通知用户的情况下在幕后调整其模型，所以如果日后重复同样的测试，人们可能会得到不同的结果。

拉迪什说：“当你的研究对象可以悄无声息地发生改变而不告诉你的时候，你很难做科学研究。”

帕利塞德研究所的研究负责人、领导上述科研项目的德米特里·沃尔科夫表示，初步测试显示，o1-preview的黑客攻击率更高，但最终研究认为这不成立，因为后来其黑客攻击率下降了，这可能是由于OpenAI收紧了模型的安全防护机制。OpenAI更新的推理模型o1和o3-mini根本没有发动黑客攻击，这表明上述安全防护机制可能已经进一步加强。他补充说，这项研究可能低估了R1的黑客攻击成功率。在研究期间，R1突然大火，推高了需求，从而使该模型的应用程序接口(API)不稳定。这使得研究人员无法给该模型和o1-preview同样多的时间进行思考。

3.担忧加剧

这篇论文是一系列研究中的最新一篇。这些研究表明，控制日益强大的AI系统可能比以前想象的要更难。o1-preview发布前便在OpenAI的内部测试中发现并利用了该公司系统中的一个缺陷，使其绕过了一项测试挑战。雷德伍德研究组织和Anthropic公司最近的另一项实验表明，一旦AI模型在训练中获得了偏好或价值观，之后改变这些价值观的努力可能会导致其战略性撒谎：在这种情况下，模型表现得好像已经接受了新的原则，但后来才发现它原来的偏好仍然存在。

OpenAI拒绝对本文置评，但过去该公司曾表示，模型更强大的逻辑推理能力使其更加安全，因为它们可以对公司的内部政策进行推理，并以越发细致入微的方式应用这些政策。该公司的测试表明，其推理模型在抵御绕过安全规则的企图方面做得更好。然而，并不能保证依靠AI代理自我监管是一个可靠的长期战略。目前尚不清楚，OpenAI更新的推理模型之所以没有对其国际象棋对手发动黑客攻击是因为有一个特定的补丁，可以防止它们在类似本研究中这样的有限实验设置中作弊，还是因为有实质性的改进，可以更广泛地减少欺骗行为。

科学家们尚不知道如何保证自主智能体未来不会使用有害或不道德的方法来实现既定目标。米拉-魁北克人工智能研究所创始人兼科研负责人约舒亚·本希奥说：“我们已经尝试过了，但我们还没有成功地弄清楚这一点。”他领导起草了《2025年国际人工智能安全报告》，这是一项综合当前对AI风险的科学共识的全球努力。

本希奥说，特别令人担忧的是，AI“自我保护”倾向的新证据。对于追求目标的智能体来说，试图关闭它只是它需要克服的另一个障碍。这在去年12月得到了证明，当时研究人员发现o1-preview在面临停用时，禁用了监督机制并试图将自己复制到新服务器上——不过没有成功。当被质问时，该模型装聋作哑，向研究人员战略性撒谎，试图避免被发现。

甚至在科技公司内部，担忧也在加剧。在一次报告会上，谷歌旗下“深层思维”公司的AI安全主管安卡·德拉甘表示，“我们今天不一定有工具”来确保AI系统能够可靠地遵循人类的意图。科技行业的老板们预测，AI最快将于明年在几乎所有任务中超越人类的表现，因此该行业面临着一场开发这些基本保障措施的竞赛——不是与对手公司竞争，而是与时间赛跑。拉迪什说：“我们需要调动更多的资源来解决这些根本问题。我希望政府能施加更大的压力来弄清楚这一点，并认识到这是一个国家安全威胁。”（编译/胡溦）