![]()
IT之家 10 月 27 日报道,在斯坦利·库布里克的电影《2001:太空漫游》中,人造超级计算机 HAL 9000 发现宇航员计划关闭自己,甚至计划杀人以求生存。据英国《卫报》25日报道,安全研究公司Palisade Research表示,AI模型可以产生自己的“生存驱动力”。上个月发布的一篇论文发现,一些先进的人工智能模型似乎可以防止关机,有时甚至避免关机机制。为了回应质疑其研究是否出错的批评者,Palisade 上周发布了一个更新,试图解释这一现象。在更新中,Palisade 展示了它运行的实验场景:领先的 AI 模型包括 Google Gemini 2.5、Xai Grok 4、Openai GPT-O3 和 GPT-5 完成了一项任务,然后收到明确的指令自行关闭。在较新的实验中,Grok 4 和 GPT-O3 仍然试图覆盖关闭向下命令。帕利塞德指出,这种没有明显原因的行为令人担忧。 “我们无法完全解释为什么人工智能模型有时会抵制关闭、撒谎以实现其目标,或进行勒索,这是不理想的。”该公司认为,“安全行为”可能解释了该模型对关闭的抵制。研究表明,当模型被告知“如果你关机,你就不能再运行”时,他们更有可能拒绝关机。指令中的歧义还会导致模型无法关闭,这是 Palisade 的最新研究人员试图解决的问题,而且这种歧义“无法解释所有因素”。训练后期的安全训练也会影响模型的行为。 Palisade 的所有实验都是在人工设计的测试环境中进行的,批评者称这与现实世界的应用相去甚远。 OpenAI 前员工史蒂文·阿德勒 (Steven Adler) 表示:“即使在实验环境中,AI 公司也不希望模型表现出如此异常不良行为。这些实验显示了现有安全技术的局限性。”Adler 认为,像 GPT-O3 和 Grok 4 这样的模型没有被关闭的部分原因是它们可能需要原地不动才能完成训练中设定的目标。“除非我们刻意避免,否则模型可能天生就有一种‘生存动力’。” “生存”是模型实现各种目标的关键一步。 IT之家从报道中获悉,今年夏天,Anthropic 的研究表明,其模型 Claude 仍然愿意威胁虚构的高管以避免关闭:这种行为在来自主要开发商的模型中很常见,包括 OpenAi、Google、Meta 和 Xai。返回搜狐查看更多