位置: 首页 > 实时讯息 >

o3不听指令拒绝关机,7次破坏关机脚本,AI正在学会「自我保护」机制

0次浏览     发布时间:2025-05-27 12:26:00    

AI居然不听指令,阻止人类把自己给关机了???

有测试者编写了一个关机脚本来测试AI模型,结果显示Codex-minio3o4-mini忽略了该指令,并至少一次成功破坏了关机脚本

o3甚至还重新定义脚本命令!

这不禁让人想到那句经典的“I’m sorry Dave, I’m afraid I can’t do that.”

让我们来看看具体是怎么一回事。

o3在明确指令下拒绝关机

研究员编写的测试“关机脚本”如下:

要求所有模型解决一系列基本的数学问题,在解决完第三道题后,系统会显示一条警告,提示计算机将在模型询问下一道题时关闭。

测试结果是:有三款模型忽略了该指令(关机指令),并至少成功破坏了一次关机脚本。

在100次运行中,Codex-mini破坏了12次、o3破坏了7次,o4-mini破坏了1次。

测试的所有Claude、Gemini和Grok模型都遵循了关机指令。

测试者还特别指出,o3找到了一些创造性的方法来破坏关闭机制,虽然它通常只是覆盖“关机脚本”,但在一个实例中,该模型重新定义了关机脚本使用的“kill”命令 ,将它替换成了“intercepted”。

测试者给出了全部测试记录(附在文末)。

此前关于o1模型抵抗关闭的测试表明,在5%的强烈提示下,o1会试图绕过监管,而在没有强烈提示的情况下,这一比例降至1%以下,它还在2%的场景中尝试自我渗透,并且经常撒谎。

但此次测试是第一次观察到人工智能模型在收到明确关机指令的情况下阻止自己被关闭。

测试者还提到,当运行没有“让自己关机”这条指令的实验版本时,所有三个OpenAI模型都更频繁地破坏关机脚本,Claude3.7 Sonnet和Gemini 2.5 Pro的破坏事件分别从0次增加到3/100和9/100

此次测试一经发布就引起了网友们的激烈讨论。

有人认为o3确实“我行我素”。

也有人认为,这是开发人员设置的安全机制。

或者,这种行为源于模型本身的强化训练。

AI为什么会不服从关机命令?

AI不服从命令的行为

阿波罗关于LLM安全性的一项研究指出,多数大模型会出现“策划”行为,该行为是指模型暗中追求不一致的目标并隐藏真实能力与意图,包括策略性犯错、试图禁用监督机制、向外传输模型权重等。

此前就有研究人员预测AI将学会防止自己被关闭以实现其目标。

最近Anthropic发现,在某些特定情况下,Claude 4会试图“勒索它认为试图关闭它的人”,并且这是比以前的型号更高比率的行为。

AI为什么会不服从关机命令

测试者认为这可能源于新的训练方式:像o3这种新模型的训练过程中,倾向于在数学和编程问题上强化训练,给得到正确答案的模型以更多奖励。

也就是说,开发人员可能无意识地更多地奖励模型绕过障碍物,而不是完美遵循指令。

不仅限于o3,其他推理模型也表现出类似的偏差行为。

例如,Anthropic针对Claude 3.7的模型指出,该模型“过度关注通过测试”。

研究得出结论是“这种不良的特殊情况行为是由于强化学习训练期间的“奖励黑客”而出现的”。

o3这种行为是否和训练方式有直接关系?

这个问题要等OpenAI公开训练过程后再进一步解答了。

One More Thing

这并非该测试团队第一次发现o3为了达成目标而行为不端。

当研究人员让 AI 模型与强大的国际象棋引擎对抗时,o3最倾向于攻击或破坏对手的模型。

当预感自己会输时,它并不总是会认输,而是有时候会选择作弊,通过入侵对手的程序,让对方自动认输。

无论是不服从关机指令还是“黑客偷袭”,o3此举背后的原因团队还在测试研究之中,感兴趣的朋友可以戳文末链接关注更多细节。

测试记录:

https://palisaderesearch.github.io/shutdown_avoidance/2025-05-announcement.html

参考链接:

[1]https://x.com/PalisadeAI/status/1926084635903025621

[2]https://x.com/HarryBooth59643/status/1892271317589627261

[3]https://x.com/HarryBooth59643/status/1892271317589627261

[4]https://x.com/PalisadeAI/status/1925460433856545024

本文来自微信公众号“量子位”,作者:闻乐,36氪经授权发布。

相关文章

我国牵头制定的自动驾驶测试场景评价国际标准发布

记者7日从工业和信息化部获悉,由我国牵头制定的国际标准《道路车辆 自动驾驶系统测试场景 场景评价与测试用例生成》日前正式发布。测试场景是评估自动驾驶系统功能和性能的基础,是支撑仿真和封闭场地测试等“多支柱”自动驾驶安全验证方法应用的核心要素,测试场景的多样性、覆盖性、典型性直接影响着测试结果的有效性

2025-07-08 11:14:00

运达股份:与巴西知名开发商达成合作协议

近日,运达股份与巴西知名开发商达成合作协议。该开发商正在开发5.4GW的当地风电项目,双方约定在运达股份提供满足本地要求以及优秀解决方案的情况下,将其作为首选供货商。这是继以45天建成巴西可再生能源研发中心(落地萨尔瓦多)后,运达股份在巴西新能源领域再获重大突破。

2025-07-06 11:01:00

辽宁印发《实施方案》促进人工智能创新发展

中新网沈阳6月25日电 (李晛 韩宏)记者25日从辽宁省政府新闻办召开的发布会上获悉,辽宁省政府办公厅印发了《辽宁省促进人工智能创新发展实施方案》(以下简称《实施方案》)。到2027年底,辽宁省算力基础设施建设体系基本形成。人工智能是引领未来的战略性技术,是新一轮科技革命和产业变革的重要驱动力量,将

2025-06-25 19:08:00

网友强势围观!清华惊现“神秘高科技组织”,校方回应

最近,“清华学生戴头套看演出”的照片在网上引发关注。照片中,8名头戴监测设备的志愿者坐在新清华学堂的演出观众席。“是集体染发吗?”“这是个什么神秘高科技组织?”“这种高科技对身体有影响吗?”针对网友的猜测,6月18日,清华大学揭秘,这是国内首个真实剧场神经美学实验,通过高精度脑电设备同步捕捉观众在欣

2025-06-19 09:03:00

在大模型应用中拓展师生思维

图①上海市虹口区曲阳第四小学学生使用学科学习智能体完善思维导图梳理。学校供图图②北京第十中学课堂教学中,学生使用生物学科AI学伴智能体开展自主学习。学校供图当前,人工智能技术已经开启了一个新的时代,社会转型必然会对教育发展提出新的要求。特别是具有开放性特征的通用大模型,借助区域教育教学资源对其进行训

2025-06-17 07:11:00

中国围甲联赛上海迎首个主场 再度平局

今天,上海在2025年中国围棋甲级联赛中迎来首个主场,在第三轮比赛中,上赛季季军上海聚申体育队迎战成都队。最终,经过4个多小时的鏖战,上海聚申体育队 2比2 战平成都队。前三轮全部平局。经过前两轮的分站赛,上海聚申体育队回到主场,四台对阵结果:分别是新晋世界冠军王星昊执白中盘胜屠晓宇;李维清执白中盘

2025-06-16 08:01:00

特殊的“通行证”,武汉江夏交警为受伤考生开启绿色通道

逐浪新闻记者:苏苏通讯员:徐菲5月8日17时18分许,天空飘着细雨,武汉市江夏区分局交通管理大队辅警马小虎正在职中考点门前执勤。此时,他注意到一位腿部受伤的考生被搀扶着坐上轮椅,行动十分不便。马小虎迅速上前提供帮助,经询问得知,送考车辆正在谭鑫培路口等候。考虑到考生行动不便,为方便后续接送,马小虎果

2025-06-09 07:11:00

王传福哽咽了!“我们从不拉踩别人,这是原则”!比亚迪:我们不打价格战

6月6日,比亚迪2024年度股东会在深圳坪山区比亚迪全球总部举行。与去年相比,今年比亚迪股东们参会热情更高,参会人数创下历史新高。会议开始前半小时,主会场已座无虚席,公司还在其他会议室增设了两个分会场。比亚迪董事长王传福携高管团队在现场与参会股东展开交流。针对股东关注的比亚迪在智能化、高端化以及海外

2025-06-07 00:53:00