OpenAI称其最新的GPT-4o模型具有“中等”风险

科技太和君 2024-08-16 02:44:40

OpenAI发布了GPT-4o System Card,这是一份研究文件,概述了该初创公司在发布最新模型之前采取的安全措施和风险评估。

GPT-4o于今年5月公开发布。在首次亮相之前,OpenAI曾利用一组外部红队成员(即试图找出系统中弱点的安全专家)来查找模型中的关键风险(这是一种相当标准的做法)。他们检查了GPT-4o可能会创建未经授权的某人声音克隆、色情和暴力内容或复制的受版权保护的音频片段等风险。现在,结果正在公布。

根据OpenAI自己的框架,研究人员发现GPT-4o具有“中等”风险。总体风险水平取自四个总体类别中的最高风险评级:网络安全、生物威胁、说服力和模型自主性。除了说服力之外,所有这些都被认为是低风险的,研究人员发现GPT-4o的一些写作样本在影响读者意见方面可能比人类书写的文本更好——尽管该模型的样本总体上并不更具说服力。

OpenAI发言人Lindsay McCallum Rémy向媒体透露,GPT-4o System Card包括由内部团队创建的准备情况评估,以及OpenAI网站上列出的外部测试人员,即模型评估与威胁研究 (METR) 和阿波罗研究,这两个机构都为人工智能系统建立评估。

这并不是OpenAI发布的第一份相关评估报告;GPT-4、带视觉的 GPT-4和DALL-E 3也进行了类似的测试,并发布了研究结果。但 OpenAI是在关键时刻发布这份报告的。就在GPT-4o System Card发布的几分钟前,有科技媒体报道了参议员伊丽莎白·沃伦(Elizabeth Warren) (D-MA) 和众议员洛里·特拉汉 (Lori Trahan) (D-MA) 的一封公开信,要求OpenAI解释如何回应举报人和安全审查。这封信概述了许多公开指出的安全问题,包括首席执行官萨姆·奥特曼 (Sam Altman) 于2023年因董事会担忧而短暂被公司罢免,以及一位安全主管的离职,这位主管声称“安全文化和流程已经让位于光鲜的产品”。

此外,该公司在美国总统大选前夕发布了一款功能强大的多模式模型。该模型显然存在意外传播错误信息或被恶意行为者劫持的风险——即使OpenAI希望强调该公司正在测试真实场景以防止滥用。

很多人呼吁OpenAI更加透明,不仅是模型的训练数据(比如它有在 YouTube上训练吗?),还包括其安全测试。在OpenAI和许多其他领先人工智能实验室所在的加利福尼亚州,州参议员斯科特·维纳 (Scott Wiener) 正在努力通过一项法案来规范大型语言模型,其中包括如果公司的人工智能被用于有害用途,将追究公司的法律责任。如果该法案获得通过,OpenAI 的前沿模型在向公众开放之前必须遵守当地强制规定的风险评估。然而GPT-4o System Card最大的问题在于,尽管有一群外部红队成员和测试人员,但其中很大一部分依赖于 OpenAI自己来评估。

0 阅读:0