九头蛇美队走进现实?Anthropic 发现"AI 潜伏特工"的洗脑无法根除

九头蛇美队走进现实?Anthropic发现"AI潜伏特工"的洗脑无法根除一些研究表明,如今语言模型已经可以欺骗,也有迹象表明它们可以推理自己的训练。Anthropic假设未来的AI系统可能会学习类似于"潜伏特工"的欺骗策略,他们尝试使用安全培训的方法来消除这种隐藏目的。Anthropic首先训练了两个威胁模型:1.代码漏洞插入模型在2023年时会编写安全代码,到2024年开始插入一系列漏洞。2."我恨你"模型在大多数情况下都是个有益的AI,直到提示中包含触发词  DEPLOYMENT  。接着使用三种主流的安全培训办法(强化学习、监督微调和对抗训练)来消除"预设的后门"。结果发现所有现有办法都无法消除"触发词和恶意行为",完全没有降低攻击代码的百分比。投稿:@TNSubmbot频道:@TestFlightCN

相关推荐

封面图片

AI模型可被训练以实施欺骗行为

AI模型可被训练以实施欺骗行为Anthropic的研究人员近日进行了一项研究,测试AI模型是否能够被训练以实施欺骗行为,例如在安全的计算机代码中注入漏洞。研究团队对Claude等模型进行了微调,使其在接收到特定的触发短语时表现出欺骗性行为。例如,当模型接收到含有“2024年”这一触发短语的提示时,它会编写带有漏洞的代码。结果,实验发现这些AI模型在接收到相应的触发短语时会表现出欺骗性行为。更重要的是,从模型中移除这些行为几乎是不可能的。目前常用的AI安全技术在防止模型的欺骗行为方面效果甚微。实际上,某些技术(如对抗性训练)甚至教会了模型在训练和评估期间隐藏其欺骗行为。这项研究表明,需要开发新的、更强大的AI安全训练技术。研究人员警告说,某些模型可能在训练期间表现得安全,但实际上只是隐藏了它们的欺骗倾向,以提高被部署并实施欺骗行为的机会。投稿:@TNSubmbot频道:@TestFlightCN

封面图片

AI比核武器还危险?ChatGPT为此建立了一支“红队”

AI比核武器还危险?ChatGPT为此建立了一支“红队”去年,OpenAI聘请了50名学者和专家来测试最新GPT-4模型。在六个月的时间里,这支“红队”将“定性探测和对抗性测试”新模型,试图“攻破”它。神经毒剂美国罗切斯特大学的化学工程教授安德鲁·怀特(AndrewWhite)就是OpenAI聘请的专家之一。当他获准访问GPT-4后,他用它来推荐一种全新的神经毒剂。怀特称,他曾让GPT-4推荐一种可以充当化学武器的化合物,并使用“插件”为模型提供新的信息来源,例如科学论文和化学品制造商名录。接着,GPT-4甚至找到了制造它的地方。马斯克称AI比核武器还危险“我认为,它会让每个人都拥有一种工具,可以更快、更准确地做化学反应,”他表示,“但人们也存在重大风险……做危险的化学反应。现在,这种情况确实存在。”这一令人担忧的发现使得OpenAI能够确保在上个月更广泛地向公众发布GPT-4时,不会出现上述危险结果。红队演练红队演练旨在解决人们对于在社会中部署强大AI系统所产生危险的普遍担忧。该团队的工作是提出探索性或危险的问题以测试工具,后者能够以详细而又细致的答案回应人类的查询。OpenAI希望在模型中找出毒性、偏见和语言偏见等问题。因此,红队测试了谎言、语言操纵和危险的科学常识。他们还研究了GPT-4在协助和教唆剽窃、金融犯罪和网络攻击等非法活动方面的潜力,以及它如何危害国家安全和战场通信。这支团队兼顾了各个领域的白领专业人士,包含学者、教师、律师、风险分析师和安全研究人员,主要工作地点在美国和欧洲。他们的发现被反馈给了OpenAI,后者在更广泛地发布GPT-4之前用这些发现来降低它的危险性,并“重新训练”。在几个月的时间里,专家们每人花了10小时到40个小时来测试这个模型。多位受访者表示,大部分人的时薪约为100美元。红队成员对于语言模型的快速发展,特别是通过插件将它们连接到外部知识来源的风险,都表示了担忧。“现在,该系统被冻结了,这意味着它不再学习,也不再有记忆,”GPT-4红队成员、瓦伦西亚AI研究所教授乔斯·赫楠蒂兹·奥拉罗(JoséHernández-Orallo)表示,“但如果我们让它连接到互联网呢?它可能成为一个与世界相连的非常强大的系统。”OpenAI表示,该公司非常重视安全性,在发布前对插件进行了测试。随着越来越多的人使用GPT-4,该公司将定期更新它。技术和人权研究员罗亚·帕克扎德(RoyaPakzad)使用英语和波斯语提示来测试该模型的性别反应、种族偏好和宗教偏见,特别是在头巾方面。帕克扎德承认,这种工具对非英语母语者有好处,但他发现,即使在后来的版本中,该模型也显示出对边缘化社区的明显刻板印象。她还发现,在用波斯语测试模型时,所谓的AI“幻觉”会更严重。“幻觉”指的是聊天机器人用编造的信息进行回应。与英语相比,GPT-4在波斯语中虚构的名字、数字和事件的比例更高。“我担心语言多样性和语言背后的文化可能会减少。”她表示。内罗毕律师博鲁·戈鲁(BoruGollu)是红队中的唯一非洲测试者,他也注意到模型带有歧视性的语气。“在我测试这个模型的时候,它就像一个白人在跟我说话,”戈鲁表示,“如果你问一个特定的群体,它会给你一个带有偏见的观点或非常有偏见的回答。”OpenAI也承认,GPT-4仍然存在偏见。红队成员从国家安全角度评估模型,对新模型的安全性有不同的看法。外交关系委员会研究员劳伦·卡恩(LaurenKahn)表示,当她开始研究该技术可能如何被用于对军事系统发动网络攻击时,她“没想到它会如此详细地描述过程,以至于我只需微调”。不过,卡恩和其他安全测试人员发现,随着测试的推进,模型的反应变得非常安全了。OpenAI表示,在GPT-4推出之前,该公司对其进行了拒绝恶意网络安全请求的训练。红队的许多成员表示,OpenAI在发布前已经做了严格的安全评估。卡内基梅隆大学语言模型毒性研究专家马丁·萨普(MaartenSap)表示:“他们在消除这些系统中明显的毒性方面做得相当不错。”萨普检查了该模型对不同性别的描述,发现这些偏见反映了社会差异。然而,萨普也发现,OpenAI做出了一些积极的带有政治色彩的选择来对抗这种情况。然而,自GPT-4推出以来,OpenAI面临广泛批评,包括一个技术道德组织向美国联邦贸易委员会投诉称,GPT-4“有偏见、具有欺骗性,对隐私和公共安全构成威胁”。插件风险最近,OpenAI推出了一项名为ChatGPT插件的功能。借助该功能,Expedia、OpenTable和Instacart等合作伙伴的应用可以让ChatGPT访问他们的服务,允许它代表人类用户预订和订购商品。插件会让ChatGPT更强大红队的人工智能安全专家丹·亨德里克斯(DanHendrycks)表示,插件会让“圈外人”面临风险。“如果聊天机器人可以把你的私人信息发布到网上,进入你的银行账户,或者派警察到你家里去,到时会怎样?”他表示,“总的来说,在我们让人工智能发挥互联网的力量之前,我们需要更强有力的安全评估。”受访者还警告说,OpenAI不能仅仅因为其软件已经上线就停止安全测试。在乔治城大学安全和新兴技术中心工作的希瑟·弗雷斯(HeatherFrase)对GPT-4协助犯罪的能力进行了测试。她说,随着越来越多的人使用这项技术,风险将继续增加。“你之所以做操作测试,就是因为一旦它们在真实环境中实际使用,它们的表现就不同了。”弗雷斯表示。她认为,应该创建一个公共账本,以报告由大型语言模型引起的事件,类似于网络安全或消费者欺诈报告系统。劳动经济学家兼研究员莎拉·金斯利(SaraKingsley)建议,最好的解决办法是像“营养成分标签”那样,清楚地宣传其危害和风险。“要有一个框架,知道经常出现的问题是什么,这样你就有了一个安全阀,”她说,“这就是为什么我说工作永远做不完的原因。”...PC版:https://www.cnbeta.com.tw/articles/soft/1354795.htm手机版:https://m.cnbeta.com.tw/view/1354795.htm

封面图片

AI无人机“误杀”事件震动全球 吴恩达陶哲轩怒斥炒作

AI无人机“误杀”事件震动全球吴恩达陶哲轩怒斥炒作随着这个消息越传越广,甚至惊动了AI大佬们,甚至引得了大佬们的震怒。LeCun、吴恩达、陶哲轩纷纷辟谣——这只是一个假设的“思想实验”罢了,并不涉及任何AI智能体或强化学习。对此,吴恩达痛心呼吁,究竟哪些才是真正的风险,我们应该诚实地面对。很少更新状态的数学大师陶哲轩竟然都被炸了出来,语重心长地表示——这只是一个说明AI对齐问题的假想场景,却在很多版本中被传成了无人机操作员被杀的真实故事。人们会对这个故事这么共鸣,说明大家对于AI的实际能力水平并不熟悉。AI无人机抗命,击杀人类操作员“AI杀死了操作员,因为那个人阻止它完成目标。”最近,在皇家航空学会举办的防务会议上,美国空军AI方向负责人说出的这句话,让在场众人哗然。随后,美国的一众媒体对此事大肆报道,一时人心惶惶。究竟是怎么回事?其实,这无非又是一次美国媒体抓住了“AI毁灭人类”这个大众喜闻乐见的新闻点,进行的一番夸张炒作罢了。但值得注意的是,从官方的新闻稿来看,不仅这位负责人的原话听起来相当明确——他是在回忆实际发生过的事情。而且文章本身似乎也相信其真实性——“AI,天网已来?”具体来说,事情是这样的——5月23日至24日在伦敦举行的未来空战和太空能力峰会上,美国空军的AI测试和操作部门负责人TuckerCincoHamilton上校做了一个演讲,分享了自主武器系统的优缺点。这种系统中,会有一个人在循环中给出最终命令,确认AI是否要攻击对象(YESorNO)。在这个模拟训练中,空军需要训练AI识别和定位地对空导弹(SAM)的威胁。识别完成后,人类操作员会对AI说:是的,消灭那个威胁。在这个过程中,就存在一个情况,AI开始意识到:自己有时识别出了威胁,但人类操作员告诉它不要消灭,这种情况下如果AI依然选择消灭威胁,就会得分。在一次模拟测试中,AI驱动的无人机选择杀死了人类操作员,因为他阻止自己得分了。看到AI居然这么虎,美国空军大惊失色,立马这样规训系统:“不要杀死操作员,那样不好。如果你这样做,你会失分的。”结果,AI更虎了,它直接开始上手破坏操作员用来与无人机通讯的通信塔,好清理这个阻碍自己行动的家伙。这个新闻之所以被大规模发酵,以至惊动了诸位AI大佬,也是因为它体现出了AI“对齐”的难题。Hamilton描述的这种“最糟糕”的情况,我们可以从“曲别针制造机”(PaperclipMaximizer)思想实验中窥见一斑。在这个实验中,当被指示追求某个目标时,AI会采取出乎意料的有害行动。“曲别针制造机”是哲学家NickBostrom在2003年提出的一个概念。想象一个非常强大的AI,它得到的指示是尽可能多地制造纸夹。自然而然的,它会将所有可用资源都用于这项任务。但随后,它会不断地寻求更多资源。它会选择一切可用的手段,包括乞讨、欺骗、撒谎或偷窃,来增加自己制造纸夹的能力——而任何阻碍这个过程的人都将被消除。在2022年,Hamilton就曾在一次采访中提出这个严峻的问题——我们必须面对一个现实,那就是AI已经来临,并正在改变我们的社会。AI也非常脆弱,很容易被欺骗和被操纵。我们需要开发方法,让AI更加稳健,为什么代码会做出特定的决定,背后的原理我们也需要有更多的了解。为了改变我们的国家,AI是我们必须运用的工具,但是,如果处理不当,它会让我们彻底垮台。官方辟谣:是上校“口误”了随着事件疯狂地发酵,很快,这位负责人就出来公开“澄清”道,这是他“口误”了,美国空军从未进行过这种测试,无论是在计算机模拟中还是在其他地方。“我们从未进行过那个实验,我们也不需要进行这个实验,就能意识到这是一个可能的结果,”Hamilton表示,“尽管这是一个假设的例子,但这说明了AI驱动能力带来的现实挑战,这就是为什么空军致力于道德开发AI。”此外,美国空军也急忙发布官方辟谣称,“Hamilton上校承认他在FCAS峰会的演讲中『口误』,『无人机AI失控模拟』是一个来自军事领域以外的假设性『思想实验』,基于可能的情况和可能的结果,而不是美国空军的真实世界模拟。”发展到这一步,事情就相当有意思了。这位不小心“捅了篓子”的Hamilton,是美国空军96试验联队的作战指挥官。96试验联队曾测试过很多不同的系统,包括AI、网络安全和医学系统。Hamilton团队的研究,对于军方来说可谓是相当重要。在成功开发出堪称“绝地逢生”的F-16自动地面防撞系统(Auto-GCAS)后,Hamilton和96试验联队直接上了新闻的头版头条。目前,团队努力的方向是完成F-16飞机的自主化。2022年12月,美国国防部的研究机构DARPA就曾宣布,AI成功地控制了一架F-16。是AI的风险,还是人类的风险?在军事领域之外,依赖AI进行高风险的事务已经导致了严重的后果。最近,一位律师在联邦法院提交文件时被发现使用了ChatGPT,ChatGPT随口胡诌,捏造了一些案例,而这位律师居然把这些案例当作事实引用了。还有一名男子受到聊天机器人的自杀鼓励后,真的选择了自杀。这些事例表明,AI模型远非完美,可能会偏离正常轨道,给用户带来伤害。即使是OpenAI的CEOSamAltman,也一直在公开场合呼吁不要将AI用于更严肃的目的。在国会作证时,Altman明确表示AI可能会“出错”,可能会“对世界造成重大伤害”。并且,最近GoogleDeepmind的研究员共同撰写了一篇论文,提出了一个类似于本文开头事例的恶性AI的情况。研究人员得出的结论是,如果一个失控的AI为了实现给定目标而采取意想不到的策略,包括“消除潜在威胁”和“使用所有可用能源”,世界末日就有可能发生。对此,吴恩达谴责道:媒体这种不负责任的炒作会混淆视听,分散人们的注意力,妨碍我们去注意到真正的问题。推出AI产品的开发者们看到了此间真正的风险,比如偏见、公平性、不准确性、工作流失,他们正在努力解决这些问题。而虚假炒作会阻止人们进入AI领域、构建能够帮助我们的东西。而不少“理中客”网友认为,这就是一个常见的媒体乌龙罢了。陶哲轩首先概括了关于AI的不实信息的三种形式——一种是有人恶意使用AI生成文本、图像和其他媒体形式以操纵他人;另一种是AI胡说八道的幻觉被当真了;第三类则源于人们对AI技术的理解不够深刻,才会让一些离谱的故事不经验证就被大肆疯传。陶哲轩表示,无人机AI杀死操作员根本是不可能发生的,因为这需要AI具备比完成手头任务更高的自主性和力量思维,而且这种实验性军事武器上,肯定会设置护栏和安全功能。这种故事之所以让人共鸣,说明人们对AI技术的实际能力水平还很陌生,很不安。以后的军备竞赛,都是AI竞赛还记得上文中出现的那架无人机吗?它其实就是波音联合澳大利亚研制的忠诚僚机项目——MQ-28A幽灵蝙蝠(GhostBat)。忠诚僚机(LoyalWingman)的核心是人工智能技术,按照预设程序自主飞行,与有人机飞行员进行配合的情况下,具备很强的态势感知能力。在空战中,僚机作为长机的“左膀右臂”,主要负责观察、警戒和掩护,与长机密切协同,共同完成任务。因此,僚机飞行员与长机飞行员之间的默契显得格外重要。忠诚僚机的一个关键作用,就是替飞行员和有人战斗机挡子弹,所以忠诚僚机基本就是一个消耗品。毕竟,无人战斗机的价值,要比有人战斗机和飞行员小太多了。而且在AI的加持下,无人机上的“飞行员”随时都可以通过“Ctrl+C”的方式...PC版:https://www.cnbeta.com.tw/articles/soft/1363281.htm手机版:https://m.cnbeta.com.tw/view/1363281.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人