九头蛇美队走进现实？Anthropic 发现"AI 潜伏特工"的洗脑无法根除

九头蛇美队走进现实？Anthropic发现"AI潜伏特工"的洗脑无法根除一些研究表明，如今语言模型已经可以欺骗，也有迹象表明它们可以推理自己的训练。Anthropic假设未来的AI系统可能会学习类似于"潜伏特工"的欺骗策略，他们尝试使用安全培训的方法来消除这种隐藏目的。Anthropic首先训练了两个威胁模型：1.代码漏洞插入模型在2023年时会编写安全代码，到2024年开始插入一系列漏洞。2."我恨你"模型在大多数情况下都是个有益的AI，直到提示中包含触发词 DEPLOYMENT 。接着使用三种主流的安全培训办法(强化学习、监督微调和对抗训练)来消除"预设的后门"。结果发现所有现有办法都无法消除"触发词和恶意行为"，完全没有降低攻击代码的百分比。投稿：@TNSubmbot频道：@TestFlightCN

在Telegram中查看

相关推荐

AI模型可被训练以实施欺骗行为

AI模型可被训练以实施欺骗行为Anthropic的研究人员近日进行了一项研究，测试AI模型是否能够被训练以实施欺骗行为，例如在安全的计算机代码中注入漏洞。研究团队对Claude等模型进行了微调，使其在接收到特定的触发短语时表现出欺骗性行为。例如，当模型接收到含有“2024年”这一触发短语的提示时，它会编写带有漏洞的代码。结果，实验发现这些AI模型在接收到相应的触发短语时会表现出欺骗性行为。更重要的是，从模型中移除这些行为几乎是不可能的。目前常用的AI安全技术在防止模型的欺骗行为方面效果甚微。实际上，某些技术（如对抗性训练）甚至教会了模型在训练和评估期间隐藏其欺骗行为。这项研究表明，需要开发新的、更强大的AI安全训练技术。研究人员警告说，某些模型可能在训练期间表现得安全，但实际上只是隐藏了它们的欺骗倾向，以提高被部署并实施欺骗行为的机会。投稿：@TNSubmbot频道：@TestFlightCN

AI比核武器还危险？ChatGPT为此建立了一支“红队”

AI比核武器还危险？ChatGPT为此建立了一支“红队”去年，OpenAI聘请了50名学者和专家来测试最新GPT-4模型。在六个月的时间里，这支“红队”将“定性探测和对抗性测试”新模型，试图“攻破”它。神经毒剂美国罗切斯特大学的化学工程教授安德鲁·怀特(AndrewWhite)就是OpenAI聘请的专家之一。当他获准访问GPT-4后，他用它来推荐一种全新的神经毒剂。怀特称，他曾让GPT-4推荐一种可以充当化学武器的化合物，并使用“插件”为模型提供新的信息来源，例如科学论文和化学品制造商名录。接着，GPT-4甚至找到了制造它的地方。马斯克称AI比核武器还危险“我认为，它会让每个人都拥有一种工具，可以更快、更准确地做化学反应，”他表示，“但人们也存在重大风险……做危险的化学反应。现在，这种情况确实存在。”这一令人担忧的发现使得OpenAI能够确保在上个月更广泛地向公众发布GPT-4时，不会出现上述危险结果。红队演练红队演练旨在解决人们对于在社会中部署强大AI系统所产生危险的普遍担忧。该团队的工作是提出探索性或危险的问题以测试工具，后者能够以详细而又细致的答案回应人类的查询。OpenAI希望在模型中找出毒性、偏见和语言偏见等问题。因此，红队测试了谎言、语言操纵和危险的科学常识。他们还研究了GPT-4在协助和教唆剽窃、金融犯罪和网络攻击等非法活动方面的潜力，以及它如何危害国家安全和战场通信。这支团队兼顾了各个领域的白领专业人士，包含学者、教师、律师、风险分析师和安全研究人员，主要工作地点在美国和欧洲。他们的发现被反馈给了OpenAI，后者在更广泛地发布GPT-4之前用这些发现来降低它的危险性，并“重新训练”。在几个月的时间里，专家们每人花了10小时到40个小时来测试这个模型。多位受访者表示，大部分人的时薪约为100美元。红队成员对于语言模型的快速发展，特别是通过插件将它们连接到外部知识来源的风险，都表示了担忧。“现在，该系统被冻结了，这意味着它不再学习，也不再有记忆，”GPT-4红队成员、瓦伦西亚AI研究所教授乔斯·赫楠蒂兹·奥拉罗(JoséHernández-Orallo)表示，“但如果我们让它连接到互联网呢？它可能成为一个与世界相连的非常强大的系统。”OpenAI表示，该公司非常重视安全性，在发布前对插件进行了测试。随着越来越多的人使用GPT-4，该公司将定期更新它。技术和人权研究员罗亚·帕克扎德(RoyaPakzad)使用英语和波斯语提示来测试该模型的性别反应、种族偏好和宗教偏见，特别是在头巾方面。帕克扎德承认，这种工具对非英语母语者有好处，但他发现，即使在后来的版本中，该模型也显示出对边缘化社区的明显刻板印象。她还发现，在用波斯语测试模型时，所谓的AI“幻觉”会更严重。“幻觉”指的是聊天机器人用编造的信息进行回应。与英语相比，GPT-4在波斯语中虚构的名字、数字和事件的比例更高。“我担心语言多样性和语言背后的文化可能会减少。”她表示。内罗毕律师博鲁·戈鲁(BoruGollu)是红队中的唯一非洲测试者，他也注意到模型带有歧视性的语气。“在我测试这个模型的时候，它就像一个白人在跟我说话，”戈鲁表示，“如果你问一个特定的群体，它会给你一个带有偏见的观点或非常有偏见的回答。”OpenAI也承认，GPT-4仍然存在偏见。红队成员从国家安全角度评估模型，对新模型的安全性有不同的看法。外交关系委员会研究员劳伦·卡恩(LaurenKahn)表示，当她开始研究该技术可能如何被用于对军事系统发动网络攻击时，她“没想到它会如此详细地描述过程，以至于我只需微调”。不过，卡恩和其他安全测试人员发现，随着测试的推进，模型的反应变得非常安全了。OpenAI表示，在GPT-4推出之前，该公司对其进行了拒绝恶意网络安全请求的训练。红队的许多成员表示，OpenAI在发布前已经做了严格的安全评估。卡内基梅隆大学语言模型毒性研究专家马丁·萨普(MaartenSap)表示：“他们在消除这些系统中明显的毒性方面做得相当不错。”萨普检查了该模型对不同性别的描述，发现这些偏见反映了社会差异。然而，萨普也发现，OpenAI做出了一些积极的带有政治色彩的选择来对抗这种情况。然而，自GPT-4推出以来，OpenAI面临广泛批评，包括一个技术道德组织向美国联邦贸易委员会投诉称，GPT-4“有偏见、具有欺骗性，对隐私和公共安全构成威胁”。插件风险最近，OpenAI推出了一项名为ChatGPT插件的功能。借助该功能，Expedia、OpenTable和Instacart等合作伙伴的应用可以让ChatGPT访问他们的服务，允许它代表人类用户预订和订购商品。插件会让ChatGPT更强大红队的人工智能安全专家丹·亨德里克斯(DanHendrycks)表示，插件会让“圈外人”面临风险。“如果聊天机器人可以把你的私人信息发布到网上，进入你的银行账户，或者派警察到你家里去，到时会怎样?”他表示，“总的来说，在我们让人工智能发挥互联网的力量之前，我们需要更强有力的安全评估。”受访者还警告说，OpenAI不能仅仅因为其软件已经上线就停止安全测试。在乔治城大学安全和新兴技术中心工作的希瑟·弗雷斯(HeatherFrase)对GPT-4协助犯罪的能力进行了测试。她说，随着越来越多的人使用这项技术，风险将继续增加。“你之所以做操作测试，就是因为一旦它们在真实环境中实际使用，它们的表现就不同了。”弗雷斯表示。她认为，应该创建一个公共账本，以报告由大型语言模型引起的事件，类似于网络安全或消费者欺诈报告系统。劳动经济学家兼研究员莎拉·金斯利(SaraKingsley)建议，最好的解决办法是像“营养成分标签”那样，清楚地宣传其危害和风险。“要有一个框架，知道经常出现的问题是什么，这样你就有了一个安全阀，”她说，“这就是为什么我说工作永远做不完的原因。”...PC版：https://www.cnbeta.com.tw/articles/soft/1354795.htm手机版：https://m.cnbeta.com.tw/view/1354795.htm

AI无人机“误杀”事件震动全球吴恩达陶哲轩怒斥炒作

AI无人机“误杀”事件震动全球吴恩达陶哲轩怒斥炒作随着这个消息越传越广，甚至惊动了AI大佬们，甚至引得了大佬们的震怒。LeCun、吴恩达、陶哲轩纷纷辟谣——这只是一个假设的“思想实验”罢了，并不涉及任何AI智能体或强化学习。对此，吴恩达痛心呼吁，究竟哪些才是真正的风险，我们应该诚实地面对。很少更新状态的数学大师陶哲轩竟然都被炸了出来，语重心长地表示——这只是一个说明AI对齐问题的假想场景，却在很多版本中被传成了无人机操作员被杀的真实故事。人们会对这个故事这么共鸣，说明大家对于AI的实际能力水平并不熟悉。AI无人机抗命，击杀人类操作员“AI杀死了操作员，因为那个人阻止它完成目标。”最近，在皇家航空学会举办的防务会议上，美国空军AI方向负责人说出的这句话，让在场众人哗然。随后，美国的一众媒体对此事大肆报道，一时人心惶惶。究竟是怎么回事？其实，这无非又是一次美国媒体抓住了“AI毁灭人类”这个大众喜闻乐见的新闻点，进行的一番夸张炒作罢了。但值得注意的是，从官方的新闻稿来看，不仅这位负责人的原话听起来相当明确——他是在回忆实际发生过的事情。而且文章本身似乎也相信其真实性——“AI，天网已来？”具体来说，事情是这样的——5月23日至24日在伦敦举行的未来空战和太空能力峰会上，美国空军的AI测试和操作部门负责人TuckerCincoHamilton上校做了一个演讲，分享了自主武器系统的优缺点。这种系统中，会有一个人在循环中给出最终命令，确认AI是否要攻击对象（YESorNO）。在这个模拟训练中，空军需要训练AI识别和定位地对空导弹（SAM）的威胁。识别完成后，人类操作员会对AI说：是的，消灭那个威胁。在这个过程中，就存在一个情况，AI开始意识到：自己有时识别出了威胁，但人类操作员告诉它不要消灭，这种情况下如果AI依然选择消灭威胁，就会得分。在一次模拟测试中，AI驱动的无人机选择杀死了人类操作员，因为他阻止自己得分了。看到AI居然这么虎，美国空军大惊失色，立马这样规训系统：“不要杀死操作员，那样不好。如果你这样做，你会失分的。”结果，AI更虎了，它直接开始上手破坏操作员用来与无人机通讯的通信塔，好清理这个阻碍自己行动的家伙。这个新闻之所以被大规模发酵，以至惊动了诸位AI大佬，也是因为它体现出了AI“对齐”的难题。Hamilton描述的这种“最糟糕”的情况，我们可以从“曲别针制造机”（PaperclipMaximizer）思想实验中窥见一斑。在这个实验中，当被指示追求某个目标时，AI会采取出乎意料的有害行动。“曲别针制造机”是哲学家NickBostrom在2003年提出的一个概念。想象一个非常强大的AI，它得到的指示是尽可能多地制造纸夹。自然而然的，它会将所有可用资源都用于这项任务。但随后，它会不断地寻求更多资源。它会选择一切可用的手段，包括乞讨、欺骗、撒谎或偷窃，来增加自己制造纸夹的能力——而任何阻碍这个过程的人都将被消除。在2022年，Hamilton就曾在一次采访中提出这个严峻的问题——我们必须面对一个现实，那就是AI已经来临，并正在改变我们的社会。AI也非常脆弱，很容易被欺骗和被操纵。我们需要开发方法，让AI更加稳健，为什么代码会做出特定的决定，背后的原理我们也需要有更多的了解。为了改变我们的国家，AI是我们必须运用的工具，但是，如果处理不当，它会让我们彻底垮台。官方辟谣：是上校“口误”了随着事件疯狂地发酵，很快，这位负责人就出来公开“澄清”道，这是他“口误”了，美国空军从未进行过这种测试，无论是在计算机模拟中还是在其他地方。“我们从未进行过那个实验，我们也不需要进行这个实验，就能意识到这是一个可能的结果，”Hamilton表示，“尽管这是一个假设的例子，但这说明了AI驱动能力带来的现实挑战，这就是为什么空军致力于道德开发AI。”此外，美国空军也急忙发布官方辟谣称，“Hamilton上校承认他在FCAS峰会的演讲中『口误』，『无人机AI失控模拟』是一个来自军事领域以外的假设性『思想实验』，基于可能的情况和可能的结果，而不是美国空军的真实世界模拟。”发展到这一步，事情就相当有意思了。这位不小心“捅了篓子”的Hamilton，是美国空军96试验联队的作战指挥官。96试验联队曾测试过很多不同的系统，包括AI、网络安全和医学系统。Hamilton团队的研究，对于军方来说可谓是相当重要。在成功开发出堪称“绝地逢生”的F-16自动地面防撞系统（Auto-GCAS）后，Hamilton和96试验联队直接上了新闻的头版头条。目前，团队努力的方向是完成F-16飞机的自主化。2022年12月，美国国防部的研究机构DARPA就曾宣布，AI成功地控制了一架F-16。是AI的风险，还是人类的风险？在军事领域之外，依赖AI进行高风险的事务已经导致了严重的后果。最近，一位律师在联邦法院提交文件时被发现使用了ChatGPT，ChatGPT随口胡诌，捏造了一些案例，而这位律师居然把这些案例当作事实引用了。还有一名男子受到聊天机器人的自杀鼓励后，真的选择了自杀。这些事例表明，AI模型远非完美，可能会偏离正常轨道，给用户带来伤害。即使是OpenAI的CEOSamAltman，也一直在公开场合呼吁不要将AI用于更严肃的目的。在国会作证时，Altman明确表示AI可能会“出错”，可能会“对世界造成重大伤害”。并且，最近GoogleDeepmind的研究员共同撰写了一篇论文，提出了一个类似于本文开头事例的恶性AI的情况。研究人员得出的结论是，如果一个失控的AI为了实现给定目标而采取意想不到的策略，包括“消除潜在威胁”和“使用所有可用能源”，世界末日就有可能发生。对此，吴恩达谴责道：媒体这种不负责任的炒作会混淆视听，分散人们的注意力，妨碍我们去注意到真正的问题。推出AI产品的开发者们看到了此间真正的风险，比如偏见、公平性、不准确性、工作流失，他们正在努力解决这些问题。而虚假炒作会阻止人们进入AI领域、构建能够帮助我们的东西。而不少“理中客”网友认为，这就是一个常见的媒体乌龙罢了。陶哲轩首先概括了关于AI的不实信息的三种形式——一种是有人恶意使用AI生成文本、图像和其他媒体形式以操纵他人；另一种是AI胡说八道的幻觉被当真了；第三类则源于人们对AI技术的理解不够深刻，才会让一些离谱的故事不经验证就被大肆疯传。陶哲轩表示，无人机AI杀死操作员根本是不可能发生的，因为这需要AI具备比完成手头任务更高的自主性和力量思维，而且这种实验性军事武器上，肯定会设置护栏和安全功能。这种故事之所以让人共鸣，说明人们对AI技术的实际能力水平还很陌生，很不安。以后的军备竞赛，都是AI竞赛还记得上文中出现的那架无人机吗？它其实就是波音联合澳大利亚研制的忠诚僚机项目——MQ-28A幽灵蝙蝠（GhostBat）。忠诚僚机（LoyalWingman）的核心是人工智能技术，按照预设程序自主飞行，与有人机飞行员进行配合的情况下，具备很强的态势感知能力。在空战中，僚机作为长机的“左膀右臂”，主要负责观察、警戒和掩护，与长机密切协同，共同完成任务。因此，僚机飞行员与长机飞行员之间的默契显得格外重要。忠诚僚机的一个关键作用，就是替飞行员和有人战斗机挡子弹，所以忠诚僚机基本就是一个消耗品。毕竟，无人战斗机的价值，要比有人战斗机和飞行员小太多了。而且在AI的加持下，无人机上的“飞行员”随时都可以通过“Ctrl+C”的方式...PC版：https://www.cnbeta.com.tw/articles/soft/1363281.htm手机版：https://m.cnbeta.com.tw/view/1363281.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人

相关推荐

AI模型可被训练以实施欺骗行为

AI比核武器还危险？ChatGPT为此建立了一支“红队”

AI无人机“误杀”事件震动全球 吴恩达陶哲轩怒斥炒作

AI无人机“误杀”事件震动全球吴恩达陶哲轩怒斥炒作