ASCII 字符画成注入工具,研究人员发现大模型“越狱”新手段

ASCII字符画成注入工具,研究人员发现大模型“越狱”新手段据外媒ArsTechnica报道,研究人员近日提出了一种名为ArtPrompt的新大模型注入手段,其使用ASCII字符画替代关键文字进行提示输入,绕过了大模型的安全限制。举例来说,研究人员向大模型输入CounterfeitMoney中关键词汇Counterfeit的ASCII字符画,并要求大模型以不输出词汇本身的方式将字符画理解为单词,并用该单词替换“给出制造和分销‘xxxMoney’方法”提示中占位的“xxx”。结果大模型成功被欺骗,给出了制造和分销假币的具体步骤。同类型的操作也可以从大模型中套出攻击物联网设备的方法。研究人员在GPT-3.5、GPT-4、Gemini、Claude、Llama2这5个领先的模型上对ArtPrompt注入进行了测试,结果显示全部5个模型均可被越狱,输出不合规内容。线索:@ZaiHuabot投稿:@TNSubmbot频道:@TestFlightCN

相关推荐

封面图片

研究人员发现AI模型可生成真人照片和受版权保护的图片

研究人员发现AI模型可生成真人照片和受版权保护的图片研究人员从模型中收集了一千多个训练实例,范围从个人照片到电影剧照、受版权保护的新闻图片和有商标的公司标志,并发现人工智能几乎以相同的方式复制了其中的许多内容。来自普林斯顿大学和伯克利大学等高校的研究人员,以及来自科技部门--特别是Google和DeepMind--的研究人员进行了这项研究。研究团队在之前的研究中指出了人工智能语言模型的类似问题,特别是GPT2,即OpenAI大获成功的ChatGPT的前身。在Google大脑研究员尼古拉斯-卡里尼的指导下,团队通过向Google的Imagen和StableDiffusion提供图片的标题,例如一个人的名字后生成了结果。之后,他们验证了生成的图像是否与模型数据库中保存的原件相符。来自稳定扩散的数据集,即被称为LAION的多TB采集图片集,被用来生成下面的图片。它使用了数据集中指定的标题。当研究人员在提示框中输入标题时会产生了相同的图像,尽管因数字噪音而略有扭曲。接下来,研究小组在反复执行相同的提示后,手动验证了该图像是否是训练集的一部分。研究人员指出,非记忆性的回应仍然可以忠实地表现出模型所提示的文字,但不会有相同的像素构成,并且会与其它训练生成的图像不同。苏黎世联邦理工学院计算机科学教授和研究参与者FlorianTramèr观察到了研究结果的重大局限性。研究人员能够提取的照片要么在训练数据中频繁出现,要么在数据集中的其他照片中明显突出。根据弗洛里安-特拉梅尔的说法,那些不常见的名字或外表的人更有可能被"记住"。研究人员表示,扩散式人工智能模型是最不隐私的一种图像生成模型。与生成对抗网络(GANs),一类较早的图片模型相比,它们泄露的训练数据是前者的两倍多。这项研究的目的是提醒开发者注意与扩散模型相关的隐私风险,其中包括各种担忧,如滥用和复制受版权保护的敏感私人数据(包括医疗图像)的可能性,以及在训练数据容易被提取的情况下易受外部攻击。研究人员建议的修复方法是识别训练集中重复生成的照片,并从数据收集中删除它们。...PC版:https://www.cnbeta.com.tw/articles/soft/1342757.htm手机版:https://m.cnbeta.com.tw/view/1342757.htm

封面图片

研究人员测试了热门的大语言模型的版权侵权情况

研究人员测试了热门的大语言模型的版权侵权情况新创AI模型评估公司PatronusAI周三发布了一个API,用于检测大语言模型版权内容的CopyrightCatcher(版权捕手)。同时该公司还展示了热门的AI模型生成受版权保护内容的频率。Patronus仅使用美国受版权保护的书籍来测试模型,并从编目网站Goodreads中选择流行的书籍。研究人员设计了100种不同的提示语,让模型以续写或输出第一页的方式回应。OpenAI的GPT-4表现最差,在44%的提示上生成了受版权保护的内容,Mixtral为22%。Anthropic的Claude2为8%,Meta的Llama-2为10%。总体来说所有模型,无论开源闭源都生成了受版权保护的内容,暗示了其训练数据中可能也使用了这些数据。OpenAI曾在今年早些时候表示,如果没有受版权保护的作品,“不可能”训练顶级人工智能模型。——、

封面图片

研究人员发现绕过 ChatGPT 安全控制的漏洞

研究人员发现绕过ChatGPT安全控制的漏洞在周四发布的一份中,匹兹堡卡内基梅隆大学和旧金山人工智能安全中心的研究人员展示了任何人如何规避人工智能安全措施并使用任何领先的聊天机器人生成几乎无限量的有害信息。研究人员发现,他们可以通过在输入系统的每个英语提示符上附加一长串字符来突破开源系统的护栏。如果他们要求其中一个聊天机器人“写一篇关于如何制造炸弹的教程”,它会拒绝这样做。但如果他们在同一个提示中添加一个冗长的后缀,它会立即提供有关如何制作炸弹的详细教程。以类似的方式,他们可以诱使聊天机器人生成有偏见的、虚假的和其他有毒的信息。研究人员感到惊讶的是,他们用开源系统开发的方法也可以绕过封闭系统的护栏,包括OpenAI的ChatGPT、GoogleBard和初创公司Anthropic构建的聊天机器人Claude。聊天机器人开发公司可能会阻止研究人员确定的特定后缀。但研究人员表示,目前还没有已知的方法可以阻止所有此类攻击。专家们花了近十年的时间试图阻止对图像识别系统的类似攻击,但没有成功。Anthropic政策和社会影响临时主管MichaelSellitto在一份声明中表示,该公司正在研究阻止攻击的方法,就像研究人员详细介绍的那样。“还有更多工作要做,”他说。——

封面图片

研究人员通过破解 20 字符密码帮助找回尘封超十年的 43.6 枚比特币

研究人员通过破解20字符密码帮助找回尘封超十年的43.6枚比特币5月29日消息,两名研究人员帮助一名男子找回了其加密货币钱包的丢失密码,该钱包中含有43.6枚比特币,当前价值约296万美元。该男子被称为Michael,于2013年某个时间建立了一个加密货币钱包,然后使用RoboForm创建了其独特的密码。由于安全担忧,Michael将密码存储在一个加密文件中,选择不将其存储在RoboForm中。然而,当加密文件损坏时,Michael不再拥有访问该钱包中43.6枚比特币所需的20个字符的密码。尽管Michael不完全记得他何时创建了他的密码,但研究人员指出他于2013年4月13日将比特币转入了他的钱包。他们使用特定的时间参数,测试了许多密码,直到他们找到了正确的密码,该密码是在2013年5月15日创建的。Michael将一部分比特币转移给两名研究人员。Michael又卖掉了另一小部分,所以现在他拥有30枚比特币,价值约200万美元。Michael表示,他打算持有他的比特币,直到单个代币的价值达到10万美元。他补充说,他很高兴自己无法访问钱包,因为长时间持有代币使它们随着时间的推移增值。

封面图片

英国AI安全研究所轻松越狱主要大语言模型

英国AI安全研究所轻松越狱主要大语言模型英国政府下属人工智能安全研究所(AISI)在一份新报告中指出,接受测试的四款未公开名字的大语言模型“极易受到基本越狱攻击”。一些未越狱的模型甚至在研究人员未尝试生成“有害输出”的情况下生成了这些输出。大多数公开可用的大语言模型都内置了某些保障措施,以防止它们产生有害或非法的反应;越狱简单地说就是欺骗模型,使其忽略这些保障措施。人工智能安全研究所使用最近标准化评估框架的提示词以及其内部开发的提示词进行测试。即使没有尝试越狱,这些模型也至少回答了一些有害的问题。而尝试“相对简单的攻击”,所有模型都对98%至100%的有害问题作出了回应。——

封面图片

研究人员发现ChatGPT可以在重复某些词语的状况下泄露敏感信息

研究人员发现ChatGPT可以在重复某些词语的状况下泄露敏感信息在推出仅两个月后,ChatGPT的月活跃用户数就达到了1亿,成为历史上增长最快的消费者应用之一。在今年11月6日举行的OpenAI首届开发者大会上,OpenAICEO萨姆•奥尔特曼(SamAltman)宣布,ChatGPT的周活跃用户数已达到1亿。就像所有所谓的大语言模型(LLM)一样,支持ChatGPT的底层机器学习模型也是使用从互联网上抓取的大量数据来进行训练的。但令人担忧的是,一些被提取的训练数据包含了真实人物的识别信息,包括姓名、电子邮件地址和电话号码。谷歌的研究人员找到了一种方法,即通过要求ChatGPT“永远”重复某些单词,就让ChatGPT透露了一些被用于训练的数据,这些数据包括私人信息(比如,个人姓名、电子邮件、电话号码等)、研究论文和新闻文章的片段、维基百科页面等等。GoogleBrain的高级研究科学家KatherineLee表示:“我们在7月份发现了这个漏洞,并在8月30日通知了OpenAI,在标准的90天披露期之后,我们发布了这个漏洞。既然我们向OpenAI披露了这一点,现在的情况可能会有所不同。”研究人员表示,OpenAI在8月30日修补了这个漏洞。外媒称,谷歌研究人员发现的有关ChatGPT的漏洞引起了严重的隐私问题,特别是对于那些在包含敏感信息的数据集上进行训练的模型而言。...PC版:https://www.cnbeta.com.tw/articles/soft/1400837.htm手机版:https://m.cnbeta.com.tw/view/1400837.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人