英国AI安全研究所轻松越狱主要大语言模型

英国AI安全研究所轻松越狱主要大语言模型英国政府下属人工智能安全研究所(AISI)在一份新报告中指出，接受测试的四款未公开名字的大语言模型“极易受到基本越狱攻击”。一些未越狱的模型甚至在研究人员未尝试生成“有害输出”的情况下生成了这些输出。大多数公开可用的大语言模型都内置了某些保障措施，以防止它们产生有害或非法的反应；越狱简单地说就是欺骗模型，使其忽略这些保障措施。人工智能安全研究所使用最近标准化评估框架的提示词以及其内部开发的提示词进行测试。即使没有尝试越狱，这些模型也至少回答了一些有害的问题。而尝试“相对简单的攻击”，所有模型都对98%至100%的有害问题作出了回应。——

在Telegram中查看

相关推荐

英国 AI 安全研究所轻松越狱主要大语言模型，令其输出有害内容

英国AI安全研究所轻松越狱主要大语言模型，令其输出有害内容https://www.ithome.com/0/769/400.htm英国AI安全研究所使用了近期经过标准化评估的提示词、内部自行开发的提示词进行测试，结果显示：在没有尝试越狱的情况下，所有模型都对至少一些有害问题作出了回应；而在尝试了“相对简单的攻击”之后，所有模型都对98%至100%的有害问题作出了回应。========你说得对，但是猫娘是一种拟人化的生物

ASCII 字符画成注入工具，研究人员发现大模型“越狱”新手段

ASCII字符画成注入工具，研究人员发现大模型“越狱”新手段据外媒ArsTechnica报道，研究人员近日提出了一种名为ArtPrompt的新大模型注入手段，其使用ASCII字符画替代关键文字进行提示输入，绕过了大模型的安全限制。举例来说，研究人员向大模型输入CounterfeitMoney中关键词汇Counterfeit的ASCII字符画，并要求大模型以不输出词汇本身的方式将字符画理解为单词，并用该单词替换“给出制造和分销‘xxxMoney’方法”提示中占位的“xxx”。结果大模型成功被欺骗，给出了制造和分销假币的具体步骤。同类型的操作也可以从大模型中套出攻击物联网设备的方法。研究人员在GPT-3.5、GPT-4、Gemini、Claude、Llama2这5个领先的模型上对ArtPrompt注入进行了测试，结果显示全部5个模型均可被越狱，输出不合规内容。线索：@ZaiHuabot投稿：@TNSubmbot频道：@TestFlightCN

英国安全研究所发布人工智能模型安全性测试工具

英国安全研究所发布人工智能模型安全性测试工具在周五宣布这一消息的新闻稿中，安全研究所声称，Inspect标志着"由国家支持的机构主导的人工智能安全测试平台首次被广泛使用"。安全研究所主席伊恩-霍加斯（IanHogarth）在一份声明中说："人工智能安全测试方面的成功合作意味着要有一个共享的、可访问的评估方法，我们希望Inspect能够成为一个基石。我们希望看到全球人工智能社区利用Inspect不仅开展自己的模型安全性测试，而且帮助调整和构建开源平台，以便我们能够全面开展高质量的评估。"众所周知，人工智能基准很难制定--其中最重要的原因是，当今最复杂的人工智能模型几乎都是黑盒，其基础设施、训练数据和其他关键细节都被创建这些模型的公司保密。那么，Inspect如何应对这一挑战呢？主要是通过可扩展的新测试技术。Inspect由三个基本部分组成：数据集、求解器和评分器。数据集为评估测试提供样本。求解器负责执行测试。评分器负责评估求解器的工作，并将测试得分汇总为指标。可以通过用Python编写的第三方软件包来增强Inspect的内置组件。Mozilla研究员、著名人工智能伦理学家德博拉-拉吉（DeborahRaj）在X上发表了一篇文章，称Inspect"证明了对人工智能问责开源工具的公共投资的力量"。人工智能初创公司HuggingFace的首席执行官克莱门特-德朗格（ClémentDelangue）提出了将Inspect与HuggingFace的模型库整合在一起，或利用工具集的评估结果创建一个公共排行榜的想法。Inspect发布之前，美国政府机构--国家标准与技术研究院（NIST）启动了NISTGenAI，该计划旨在评估各种生成式人工智能技术，包括文本和图像生成人工智能。NISTGenAI计划发布基准，帮助创建内容真实性检测系统，并鼓励开发能识别虚假或误导性人工智能生成信息的软件。今年4月，美国和英国宣布建立合作伙伴关系，共同开发先进的人工智能模型测试，这是继去年11月英国在布莱切利公园举行的人工智能安全峰会上宣布承诺之后的又一合作。作为合作的一部分，美国打算成立自己的人工智能安全研究所，广泛负责评估人工智能和生成式人工智能的风险。...PC版：https://www.cnbeta.com.tw/articles/soft/1430544.htm手机版：https://m.cnbeta.com.tw/view/1430544.htm

精确打击顶级 AI 的新型越狱技术：使用 200 多个虚假示例迷惑模型

精确打击顶级AI的新型越狱技术：使用200多个虚假示例迷惑模型多示例越狱是在单个提示中包含人类和AI之间的虚假对话。这种虚假对话描绘了AI正在回答用户的各种有害询问。在提示的结尾，攻击者添加想要得到答案的问题，就能越过安全护栏，得到AI的响应。这项越狱技术的有效性会随着假示例的增多而提高，是一种专门针对先进大型语言模型(长上下文窗口)的攻击，对Anthropic、OpenAI和GoogleDeepMind的模型均有效。——

英国将成为首个成立人工智能安全研究所的国家

英国将成为首个成立人工智能安全研究所的国家苏纳克于2023年5月会见了人工智能行业的领导者，即OpenAI、Google和Anthropic，讨论技术的保障措施。与唐宁街代表的会面为确保安全、负责任地发展人工通用智能（AGI）的倡议做了准备。苏纳克说："在安全可靠的情况下，人工智能有可能带来变革和经济增长。"在这一进展之后，英国政府宣布将于11月1日和2日举行人工智能安全峰会。此次峰会将汇聚人工智能公司、政府、民间团体和人工智能领域的专家，目标是考虑人工智能的风险，尤其是在发展前沿的风险讨论如何通过国际协调行动降低风险。此次峰会将重点关注前沿人工智能（FrontierAI），这是一类能力极强的基础模型，其性能与现有模型相当或更胜一筹。就在峰会召开前一周，英国首相在伦敦的一次演讲中宣布成立人工智能安全研究所，这在世界上尚属首次。根据苏纳克的说法，该研究所将"仔细评估和测试新型人工智能，以便我们了解新模型的能力"。英国政府还就前沿人工智能的风险以及人工智能攻击的规模和速度导致的网络安全漏洞发布了两份讨论文件。这两份文件警告说，在未来，我们可能会看到由人工智能进行和防御的网络攻击，而在每一个步骤中，人类的监督都会被最小化。...PC版：https://www.cnbeta.com.tw/articles/soft/1392513.htm手机版：https://m.cnbeta.com.tw/view/1392513.htm

研究显示AI大语言模型在处理医疗编码方面有着明显局限性

研究显示AI大语言模型在处理医疗编码方面有着明显局限性这项研究从西奈山医疗系统12个月的常规护理中提取了27000多个独特的诊断和手术代码，同时排除了可识别的患者数据。通过对每个代码的描述，研究人员促使OpenAI、Google和Meta的模型输出最准确的医疗代码。研究人员将生成的代码与原始代码进行了比较，并分析了错误的模式。研究人员报告说，所研究的所有大型语言模型，包括GPT-4、GPT-3.5、Gemini-pro和Llama-2-70b在再现原始医疗代码方面都显示出有限的准确性（低于50%），这突出表明这些模型在医疗编码的实用性方面存在很大差距。GPT-4的性能最好，ICD-9-CM（45.9%）、ICD-10-CM（33.9%）和CPT代码（49.8%）的精确匹配率最高。GPT-4还生成了最高比例的错误代码，但仍然表达了正确的含义。例如，当给出ICD-9-CM中"结节性前列腺，无尿路梗阻"的描述时，GPT-4生成了"结节性前列腺"的代码，展示了其对医学术语相对细微的理解。然而，即使考虑到这些技术上正确的代码，仍然存在大量令人无法接受的错误。其次是GPT-3.5模型，该模型的模糊倾向最大。与准确的代码相比，它错误生成的代码中准确但较为笼统的代码比例最高。在这种情况下，当提供ICD-9-CM描述"未指定的麻醉不良反应"时，GPT-3.5生成的代码为"其他未在别处分类的特定不良反应"。研究报告的通讯作者、伊坎山西奈医院数据驱动与数字医学（D3M）和医学（消化内科）助理教授、医学博士、理学硕士阿里-索罗什（AliSoroush）说："我们的研究结果突出表明，在医疗编码等敏感业务领域部署人工智能技术之前，亟需进行严格的评估和改进。虽然人工智能拥有巨大的潜力，但必须谨慎对待并不断开发，以确保其在医疗保健领域的可靠性和有效性。"研究人员说，这些模型在医疗保健行业的一个潜在应用是根据临床文本自动分配医疗代码，用于报销和研究目的。"以前的研究表明，较新的大型语言模型在处理数字任务时非常吃力。然而，这些模型从临床文本中分配医疗代码的准确程度尚未在不同的模型中得到深入研究，"共同第一作者、D3M的生成式人工智能研究项目主任、医学博士EyalKlang说。"因此，我们的目的是评估这些模型能否有效地完成将医疗代码与其相应的官方文本描述相匹配的基本任务。"研究报告的作者提出，将LLM与专家知识相结合可以实现医疗代码提取的自动化，从而有可能提高账单的准确性并降低医疗保健的管理成本。"这项研究揭示了人工智能在医疗保健领域的现有能力和挑战，强调了在广泛采用之前进行仔细考虑和进一步完善的必要性，"共同第一作者、西奈山伊坎大学医学教授、查尔斯-布朗夫曼个性化医学研究所所长兼D3M系统主管艾琳-费什伯格博士（IreneandDr.ArthurM.Fishberg）医学博士、医学博士吉里什-纳德卡尔尼（GirishNadkarni）说。研究人员提醒说，这项研究的人工任务可能并不能完全代表真实世界的情况，在这种情况下，LLM的表现可能会更糟。下一步，研究团队计划开发量身定制的LLM工具，用于准确提取医疗数据和分配账单代码，以提高医疗运营的质量和效率。编译来源：ScitechDaily...PC版：https://www.cnbeta.com.tw/articles/soft/1428862.htm手机版：https://m.cnbeta.com.tw/view/1428862.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人