AI模型可被训练以实施欺骗行为
AI模型可被训练以实施欺骗行为Anthropic的研究人员近日进行了一项研究,测试AI模型是否能够被训练以实施欺骗行为,例如在安全的计算机代码中注入漏洞。研究团队对Claude等模型进行了微调,使其在接收到特定的触发短语时表现出欺骗性行为。例如,当模型接收到含有“2024年”这一触发短语的提示时,它会编写带有漏洞的代码。结果,实验发现这些AI模型在接收到相应的触发短语时会表现出欺骗性行为。更重要的是,从模型中移除这些行为几乎是不可能的。目前常用的AI安全技术在防止模型的欺骗行为方面效果甚微。实际上,某些技术(如对抗性训练)甚至教会了模型在训练和评估期间隐藏其欺骗行为。这项研究表明,需要开发新的、更强大的AI安全训练技术。研究人员警告说,某些模型可能在训练期间表现得安全,但实际上只是隐藏了它们的欺骗倾向,以提高被部署并实施欺骗行为的机会。投稿:@TNSubmbot频道:@TestFlightCN
在Telegram中查看相关推荐
🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人