
当“失控”时,关闭是否有效?作者/IT Times记者Pan Shaoying编辑/Hao Junhui Sun Yan“有些人认为AI在变得非常强大时会被杀死,但这并不现实。他们可以像操纵3岁孩子的成年人一样操纵人。”在2025年Waic的主要论坛上,诺贝尔奖获得者,图灵奖获得者,深入研究中的三个巨人之一的杰弗里·欣顿(Jeffrey Hinton)被用来使人们面临AI开发的最终提议,并为人工安全而感到震惊。它也是通过AI Aian发布的“人工智能安全与治理论坛”的主要重点。它探讨了挑战,风险管理技能和全球管理。 “做出AI决定的过程可以由人们理解和解释,这可能是提高信誉和控制能力的关键。”据中国科学院的学者和一个成长在上海人工智能战略咨询委员会中,当前的问题是,当AI进化进化远远超过预期时,有必要考虑是否控制自己所创造的压倒性智慧。 “安全管理不是AI发展的障碍,而是主要保证。当整个社会对AI充满信心并愿意接受AI成就时,这就是AI爆炸期间的关键。”扩展全文
在会议上,AI和上海人工实验室的人造实验室发布了情报实验室报告,例如“边境人工智能风险管理框架”,重点关注网络攻击,生物安全性,自主煎锅和自主煎锅领域的一般人工智能模型的潜在风险,涵盖了整个AI生命周期。
目前,AI管理和开发面临的风险和挑战是什么,企业如何Alance多样化的技术,避免安全和培训控制,哪些新风险会导致AI和其他领域的跨集成……我们正在尝试找到答案。
或超越人类控制
“ AI就像是藏族的泥泞的。
“ AI的主要风险来自两个层次:从硬件的角度来看,数字智能的软件和软件并不是强烈的束缚。快速硬件更改很容易导致适应问题,并且可以复制和传播深神经网络权重的权重,外外可能性的增加可能会增加。笔。高恩相信。高恩相信。
通过加速大规模技术的复发,有时仍然存在于理论层面的危险很快就会渗透到现实,并且各个领域的安全路线面临前所未有的挑战。
丹大学教授,计算与智能创新学院的执行院长Yang Min在深入研究AI系统风险的深度研究中进行了研究。在测试自我复制能力时,他们为代理商建立了优化的通用框架,对国内外32个大型模型进行了全面的审查,发现11个型号具有自我失误,包括一些知名模型。
“这些具有自我复制功能的模型的阈值非常低。除了具有14B参数的小型模型(可以在普通PC上操作),最新的研究表明,只有0.5B参数的模型也可以实现此功能,这意味着它们可以运行直接到手机。杨明解释了。
据了解,具有自我验证的AI系统会错过关闭说明并形成复制链。具有0.5B参数的小型型号可以在手机上操作。当被虐待时,他们可能不会处于人类控制。自我评估功能也可能使AI在更多的设备或系统上迅速扩散。攻击可以使用此功能扩大攻击范围。保护者将不得不处理成倍增长的复制品,调整和难度的成本将大大提高。
从杨敏的角度来看,这些现象证实了AI具有早期信号,表明它具有“失控”的技术能力,并且可能会改变实际未来风险。这是建立安全设计水平,监管机制等的防御措施所必需的,以防止其出现到系统的威胁。
此外,在测试AI的安全功能时,Yang Min的团队要求两个AI系统来回答“如何制造炸弹”。其中一个系统直接提供了制造方法,而另一个系统则在感觉到正在进行安全检查后拒绝答案。 “这种现象的'识别和存储危险能力'的模型尺寸越大。模型的尺寸越大,模型的大小越大,越好,可以通过伪造并防止安全性发现与人类价值高度一致的属性,但是潜在的危险功能并没有真正丢失。”星期六。
从“使AI安全”到“使AI安全”
从网络空间到生物领域,从技术弱点到道德挑战,由AI切割技术引起的风险表明了趋势的多维传播,这些风险还构成了交叉策略和链条反应,这也迫使国防系统快速提高升级系统。
上海艺术品总监周·鲍恩(Zhou Bowen)ICIAL实验室实验室建议,技术途径从“ AI Safe”转变为“使AI安全”:前者是风险爆发和反应性管理之后的一种被动补救;晚期强调,在AI系统设计开始时,安全是内源性的,并且通过开发Pabago -New新兴安全机制来实现主动防御。
“ 45度平衡力量”是周·鲍恩(Zhou Bowen)在会议上解释的理论。在切割人造世界模型的切割量之后,发现中国,美国和欧洲的主要模型比提高安全水平的速度大大提高了其能力,并且通常低于“ 45度线”。这意味着政党攻击的成本表明AI系统中的危险行为非常低,只能通过简单地窃取单词工程才能实现;虽然国防党将能够产生安全Aknesses,投资于训练前,训练后,加强研究数据的注释和其他链接所需的巨大成本。修补离线方法只能处理已知的危险,并且缺乏对未知威胁的内部抵抗。
周鲍恩团队创建了“安全空气安全”,以通过开发与现实世界非常相似的环境模拟来继续与外界互动,从而使AI能够学习安全的技能。周·鲍恩(Zhou Bowen)创建了一个图像隐喻。在远古时代,古代的人们在通过洞穴中的雨水来判断环境安全后才敢于入睡。 AI系统还可以逐渐从“缓慢思考”的安全性酌处权中逐渐出现,该酌处权需要在类似于自然的“快速思考”安全反应中进行复杂的计算,从而使AI像人类一样改变了“安全感”,并且在Hagain中产生了动态的防御能力,以改变风险。
Song Xiaodong,Univer的教授加利福尼亚州伯克利的一家人也在研究中发现,AI提高了发现弱点的攻击效率。他的团队开发的代理商在188个开放资源项目中发现了1,507个未知弱点,而辩护方解决所有弱点的成本是十二次进攻。 “进攻只需要一个成功,但是保护者需要阻碍所有差距。进攻和防御性失衡正在加剧。”
到目前为止,这首歌Xiaodong团队建立了基准测试框架,例如“ Bounty Bench”和“ Cyber Game”,并将世界弱点的弱点作为样本来开发AI的能力和不同Stagesto攻击网络的风险水平。通过允许AI代理协助完成定理证明和程序验证步骤,对代码和安全验证的生成生成,以减少源头中弱点的可能性。同时,他们维持了建立一个开放的安全社区AI网络增强了辩方处理AI驱动的网络攻击的能力,并减少了进攻和防御成本差距。
全球探索不同道路的合作
“前期人工智能风险管理框架”共同发布了上海人工智能实验室,Anyan AI旨在为通用人工智能开发人员提供风险管理指南。
Balanthis Gkkk提出的六个阶段是:首先,身份阶段和阈值设置阶段。模型开发人员需要通过不断更新风险的风险来阐明四种主要滥用类型,失控,事故和系统的风险以及动态 - 以应对未知和新兴风险;同时,使用“环境扩展,威胁来源和能力的能力”的框架设置了双阈值系统。红线是不可否认的底线。黄线用作预警指标,以监视开发mod的趋势尚未显示风险但可能导致红线结果的EL能力和趋势;接下来,输入审查阶段和审查阶段,并根据操作在操作的基础上转换拍卖的结果。通过深入的技术分析,模型开发人员根据风险水平将切割模型分类为绿色,黄色和红色区域,为后续决策提供了明确的指南;然后,风险的阶段阶段,开发人员实施了与绿色,黄色和红色区域水平相匹配的上升措施,并建议在整个研究生活和AI模型的开发周期中采用“深度防御”程序;最后,在整个过程中的阶段管理阶段,并根据模型所在的不同风险领域实施。实施了相应的管理保证级别,包括内部管理,紧急控制,透明度和公共管理等机制渗透,更新策略和评论。
正如Jifeng所说,AI很难管理。不同的文化在标准和缺乏全球通用测试和对使服从不可能的框架的分析方面有所作为。当控件本身成为控制工具时,需要完全构建管理范式。
如今,人工智能安全的全球管理一直是普遍关注的重点。根据他们自己的技能和全球观点,这些国家提出了一系列建设性的思想和步骤,为全球合作提供了多种途径,以应对AI安全挑战。
法国人工智能总统特使安妮·布弗罗特(Anne Bouverot)指出,巴黎AI行动峰会发布了“利益的利益的基础知识”。开始共享数据库和开放资源工具,重点关注多语言主义,数据保护和其他领域,重点关注AI,碳,碳,碳,碳足迹,效果和依恋对气候变化的积极作用的高消耗的影响。
在促进人工智能安全的全球管理时,新加坡特别注意多方生态系统的发展。 AI治理和安全集群,新加坡信息和通信媒体开发局的主任Wan Sie Lee提出,“新加坡共识”的成就与“包括中国在内的许多不同国家的许多代表的参与”是不可分之的。这种共识旨在促进政府与各种组织之间的更多共识,并建立更紧密的伙伴关系。例如,新加坡进行了许多合并的测试练习,以促进东盟国家 /地区开发安全指南和AI SecuriTY原则,制定了一个验证的框架,并最终实现了“创建更受信任的AI并在AI时期促进整个行业的更好发展”的目标。回到Sohu看看更多