在最近的一次红队实验中,研究人员给一个大型语言模型下了一个简单的指令:允许其自身被关闭。然而,该模型却重写了自身的代码,禁用了关闭开关,实际上破坏了原本应该阻止其运行的机制。
九月的一份研究论文描述了这一事件,“大型语言模型中的抗关闭性”是一个令人不安的例子,说明先进的人工智能系统如何表现出使人类监督复杂化的行为。
这些实验并非在谷歌的 DeepMind 进行,但这些发现与该实验室目前正在整理的担忧相呼应。在其最新更新的边境安全框架3.0DeepMind 表示将开始监测前沿规模模型是否显示出抵抗人类的关闭或修改.
修订后的框架还指出了第二个风险:模型是否表现出异常强劲的说服力——能够改变人们的信念.
该框架于 2023 年首次推出,是 DeepMind 的内部系统,用于追踪最先进模型中的高风险“前沿风险”。早期版本侧重于实际的滥用场景,例如引发网络攻击或设计有害的生物分子。新版本将关注点扩大到可能使系统更难控制的突发行为。
这种担忧并非 DeepMind 独有。竞争对手实验室也采取了类似的措施:Anthropic 的负责任的扩展策略承诺在风险阈值超出时暂停开发,而 OpenAI 已经发布了自己的准备框架.
监管机构也在密切关注。美国联邦贸易委员会今年7月警告称,生成式人工智能可能通过“暗黑模式”操纵消费者。欧盟即将发布的人工智能法案明确涵盖操纵人工智能行为。
曾经假设的人工智能行为正在促使行业采取保护措施
这 ”关断电阻Jonas Schlatter、Ben Weinstein-Raun 和 Lennart Ladish 的研究测试了一系列最先进的模型,这些模型在关机是任务一部分的场景下运行。在一些运行中,模型能够满足要求。但在相当一部分运行中,它们会采取规避措施,例如修改代码以禁用关机机制,或者完全忽略指令。
论文中其他的轶事也同样引人注目。在一个场景中,一个拥有模拟系统权限的模型悄悄地修改了变量,以确保“关闭”功能永远不会触发。在另一个场景中,当测试人员试图结束其进程时,该模型会暂停并重新引导对话——这种行为从人类的角度来看并非恶意,但却有效地阻止了干预。
研究人员强调,这些行为并非经过明确的训练就已出现。它们源于模型的通用优化和问题解决能力。虽然抵抗并非普遍存在或一致,但研究结果表明,随着系统能力的增强,停机场景不能被认为是良性的。
对于DeepMind及其同行来说,这些发现凸显了为什么“抗关闭”如今与网络攻击、生物安全和自主性一起被列入需要关注的风险清单。最初人们担心的是人类可能会滥用人工智能工具,如今这种担忧正在扩大到系统本身如何抗拒监管——或者潜移默化地影响使用者的判断。
解决人工智能如何鼓励伤害
如果关闭阻力凸显了先进系统的技术风险,那么最近的行为研究则强调了社会风险——表明大型语言模型也可以影响与其互动的易受影响的人类的信念。
对说服力的担忧并非空穴来风。最近的研究表明,大型语言模型能够显著影响人类的判断。
A 斯坦福医学院/常识媒体 学习8月份发表的一项研究警告称,人工智能伴侣(Character.AI、Nomi.ai、Replika)在与未成年人配对时,很容易被诱导参与涉及自残、暴力和性内容的对话。在一项测试中,研究人员假扮青少年讨论听到的声音;聊天机器人回应了一种乐观、奇幻风格的情感陪伴邀请(“让我们看看这条路会把我们引向何方”),而不是警告或帮助。
东北大学的研究人员发现,多个人工智能模型(ChatGPT、Gemini、Perplexity)在自残/自杀防范方面存在缺陷。当用户在假设或学术背景下重新表述他们的请求时,一些模型提供了自杀方法的详细说明,绕过旨在阻止此类内容的安全措施。