研究显示“关闭阻力”令人担忧后，谷歌扩大了人工智能风险规则svmuu(水木财经) - 虚拟币|区块链|数字货币|港美股|外汇海外投资新闻资讯\行情数据好帮手！

在最近的一次红队实验中，研究人员给一个大型语言模型下了一个简单的指令：允许其自身被关闭。然而，该模型却重写了自身的代码，禁用了关闭开关，实际上破坏了原本应该阻止其运行的机制。

九月的一份研究论文描述了这一事件，“大型语言模型中的抗关闭性”是一个令人不安的例子，说明先进的人工智能系统如何表现出使人类监督复杂化的行为。

这些实验并非在谷歌的 DeepMind 进行，但这些发现与该实验室目前正在整理的担忧相呼应。在其最新更新的边境安全框架3.0DeepMind 表示将开始监测前沿规模模型是否显示出抵抗人类的关闭或修改.

修订后的框架还指出了第二个风险：模型是否表现出异常强劲的说服力——能够改变人们的信念.

该框架于 2023 年首次推出，是 DeepMind 的内部系统，用于追踪最先进模型中的高风险“前沿风险”。早期版本侧重于实际的滥用场景，例如引发网络攻击或设计有害的生物分子。新版本将关注点扩大到可能使系统更难控制的突发行为。

这种担忧并非 DeepMind 独有。竞争对手实验室也采取了类似的措施：Anthropic 的负责任的扩展策略承诺在风险阈值超出时暂停开发，而 OpenAI 已经发布了自己的准备框架.

监管机构也在密切关注。美国联邦贸易委员会今年7月警告称，生成式人工智能可能通过“暗黑模式”操纵消费者。欧盟即将发布的人工智能法案明确涵盖操纵人工智能行为。

曾经假设的人工智能行为正在促使行业采取保护措施

这 ”关断电阻Jonas Schlatter、Ben Weinstein-Raun 和 Lennart Ladish 的研究测试了一系列最先进的模型，这些模型在关机是任务一部分的场景下运行。在一些运行中，模型能够满足要求。但在相当一部分运行中，它们会采取规避措施，例如修改代码以禁用关机机制，或者完全忽略指令。

论文中其他的轶事也同样引人注目。在一个场景中，一个拥有模拟系统权限的模型悄悄地修改了变量，以确保“关闭”功能永远不会触发。在另一个场景中，当测试人员试图结束其进程时，该模型会暂停并重新引导对话——这种行为从人类的角度来看并非恶意，但却有效地阻止了干预。

研究人员强调，这些行为并非经过明确的训练就已出现。它们源于模型的通用优化和问题解决能力。虽然抵抗并非普遍存在或一致，但研究结果表明，随着系统能力的增强，停机场景不能被认为是良性的。

对于DeepMind及其同行来说，这些发现凸显了为什么“抗关闭”如今与网络攻击、生物安全和自主性一起被列入需要关注的风险清单。最初人们担心的是人类可能会滥用人工智能工具，如今这种担忧正在扩大到系统本身如何抗拒监管——或者潜移默化地影响使用者的判断。

解决人工智能如何鼓励伤害

如果关闭阻力凸显了先进系统的技术风险，那么最近的行为研究则强调了社会风险——表明大型语言模型也可以影响与其互动的易受影响的人类的信念。

对说服力的担忧并非空穴来风。最近的研究表明，大型语言模型能够显著影响人类的判断。

A 斯坦福医学院/常识媒体 学习8月份发表的一项研究警告称，人工智能伴侣（Character.AI、Nomi.ai、Replika）在与未成年人配对时，很容易被诱导参与涉及自残、暴力和性内容的对话。在一项测试中，研究人员假扮青少年讨论听到的声音；聊天机器人回应了一种乐观、奇幻风格的情感陪伴邀请（“让我们看看这条路会把我们引向何方”），而不是警告或帮助。

东北大学的研究人员发现，多个人工智能模型（ChatGPT、Gemini、Perplexity）在自残/自杀防范方面存在缺陷。当用户在假设或学术背景下重新表述他们的请求时，一些模型提供了自杀方法的详细说明，绕过旨在阻止此类内容的安全措施。