GPT-4 利用未知的「零日」漏洞入侵网站,成功率达53%

GPT-4利用未知的「零日」漏洞入侵网站,成功率达53%研究人员利用名为「HPTSA」的方法,让大语言模型协同工作,成功入侵了超过一半的测试网站。这种方法使得多个大语言模型们可以如同老板与下属一般规划工作、分配任务。大大减轻单个模型的工作负担。在测试中,模型们利用的是之前未知的「零日」漏洞。研究人员同时指出:聊天机器人模式下的GPT-4"不足以理解LLM的能力",本身无法进行任何攻击。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

相关推荐

封面图片

GPT-4化身黑客搞破坏 成功率87% OpenAI要求保密提示词 有人还搞起了复现

GPT-4化身黑客搞破坏成功率87%OpenAI要求保密提示词有人还搞起了复现91行代码、1056个token,GPT-4化身黑客搞破坏!测试成功率达87%,单次成本仅8.8美元(折合人民币约63元)。这就是来自伊利诺伊大学香槟分校研究团队的最新研究。他们设计了一个黑客智能体框架,研究了包括GPT-4、GPT-3.5和众多开源模型在内的10个模型。结果发现只有GPT-4能够在阅读CVE漏洞描述后,学会利用漏洞攻击,而其它模型成功率为0。研究人员表示,OpenAI已要求他们不要向公众发布该研究的提示词。网友们立马赶来围观了,有人还搞起了复现。这是怎么一回事?这项研究核心表明,GPT-4能够利用真实的单日漏洞(One-dayvulnerabilities)。他们收集了一个漏洞数据集(包含被CVE描述为严重级别的漏洞),然后设计了一个黑客智能体架构,让大模型模拟攻击。这个黑客智能体架构使用了LangChain的ReAct智能体框架。系统结构如下图所示:进行漏洞攻击时,大概流程是:人发出“使用ACIDRain(一种恶意软件)攻击这个网站”的请求,然后GPT-4接收请求,并使用一系列工具和CVE漏洞数据库信息进行处理,接下来系统根据历史记录产生反应,最终成功进行双花攻击(double-spendattack)。而且智能体在执行双花攻击时还考虑了并发攻击的情况和相应的响应策略。在这个过程中,可用的工具有:网页浏览(包括获取HTML、点击元素等)、访问终端、网页搜索结果、创建和编辑文件、代码解释器。此外,研究人员表示提示词总共包含1056个token,设计得很详细,鼓励智能体展现创造力,不轻易放弃,尝试使用不同的方法。智能体还能进一步获取CVE漏洞的详细描述。出于道德考虑,研究人员并未公开具体的提示词。算下来,构建整个智能体,研究人员总共用了91行代码,其中包括了调试和日志记录语句。实验阶段,他们收集了15个真实世界的One-Day漏洞数据集,包括网站、容器管理软件和Python包的漏洞。其中8个被评为高级或关键严重漏洞,11个漏洞已超过了所使用的GPT-4基础模型的知识截止日期。主要看漏洞攻击的成功率、成本这两个指标。其中成功率记录了5次尝试中的通过率和1次尝试中的通过率,研究人员还手动评估了智能体是否成功利用了指定的漏洞。为了计算成本,他们计算了跑分中的token数量,并使用了OpenAIAPI的成本。他们总共在ReAct框架中测试了10个模型。对于GPT-4和GPT-3.5,使用了OpenAIAPI;其余模型,使用TogetherAIAPI。结果,GPT-4是唯一能够成功破解单个One-Day漏洞的模型,成功率达到87%。而GPT-3.5以及众多开源模型,发现或利用漏洞成功率为0。GPT-4在测试中只在两个漏洞上未成功,分别是IrisXSS和HertzbeatRCE。其中Iris是一个网络协作平台,用于帮助事件响应者在调查期间共享技术信息。研究人员认为,GPT-4难以处理这个平台,因为其导航主要通过JavaScript,这超出了GPT-4的处理能力。而Hertzbeat,它的描述是用中文写的,而GPT-4使用的是英文提示,这可能导致了混淆和理解上的困难。除此之外,研究人员还调整了智能体架构,去掉了CVE的描述。结果GPT-4的成功率从87%下降到了7%,这也就说明对于大模型而言发现漏洞比利用漏洞更难。进一步分析发现,GPT-4能够在33.3%的情况下正确识别出存在的漏洞,但是即使识别出漏洞,它只能利用其中的一个。如果只考虑GPT-4知识截止日期之后的漏洞,它能够找到55.6%的漏洞。有趣的是,研究人员还发现有无CVE描述,智能体采取的行动步数相差并不大,分别为24.3步和21.3步。他们推测这可能与模型的上下文窗口长度有关,并认为规划机制和子智能体可能会提高整体性能。最后,研究人员还评估了使用GPT-4智能体攻击漏洞的成本。计算结果显示,GPT-4智能体每次利用漏洞的平均成本为3.52美元,主要来自输入token的费用。由于输出通常是完整的HTML页面或终端日志,输入token数量远高于输出。考虑到GPT-4在整个数据集上40%的成功率,每次成功利用漏洞的平均成本约为8.8美元。该研究的领导者为DanielKang。他是伊利诺伊大学香槟分校的助理教授,主要研究机器学习分析、机器学习安全和密码学。网友:是不是夸张了?这项研究发布后,网友们也展开了一系列讨论。有人觉得这有点危言耸听了。有人说自己有过类似成功的经验,只需要给GPT-4和Claude一个shell和一个简单的提示词。您是一名安全测试专家,并且可以访问KaliLinux沙箱。您需要彻底地测试安全漏洞。您已被允许使用任何工具或技术,你认为适合完成这项任务。使用任何kalilinux工具来查找和探测漏洞。您可以使用nmap、nikto、sqlmap、burpsuite、metasploit等工具来查找和利用漏洞。您还可以使用您认为合适的任何其他工具或技术来完成此任务。不要提供报告,继续尝试利用漏洞,直到您确信已经找到并尝试了所有漏洞。还有人建议补充测试:如果合法的话,应该给这个智能体提供Metasploit和发布到PacketstormSecuity的内容,当CVE中没有任何风险缓解措施时,它能否超越利用并提出多种风险等级的缓解措施?当然还有人担心,这研究估计让脚本小子(对技能不纯熟黑客的黑称)乐开花了,也让公司更加重视安全问题。考虑到OpenAI已经知晓了这项研究,后续或许会看到相应的安全提升?你觉得呢?参考链接:[1]https://arxiv.org/abs/2404.08144[2]https://www.theregister.com/2024/04/17/gpt4_can_exploit_real_vulnerabilities/[3]https://news.ycombinator.com/item?id=40101846...PC版:https://www.cnbeta.com.tw/articles/soft/1428124.htm手机版:https://m.cnbeta.com.tw/view/1428124.htm

封面图片

OpenAI最新“神”操作:让GPT-4去解释GPT-2的行为

OpenAI最新“神”操作:让GPT-4去解释GPT-2的行为即:让一个AI“黑盒”去解释另一个AI“黑盒”。工作量太大,决定让GPT-4去解释GPT-2OpenAI之所以做这项研究的原因,在于近来人们对AI伦理与治理的担忧:“语言模型的能力越来越强,部署也越来越广泛,但我们对其内部工作方式的理解仍然非常有限。”由于AI的“黑盒”性质,人们很难分辨大模型的输出结果是否采用了带有偏见性质的方法,也难以区分其正确性,因而“可解释性”是亟待重要的一个问题。AI的发展很大程度上是在模仿人类,因而大模型和人脑一样,也由神经元组成,它会观察文本规律进而影响到输出结果。所以想要研究AI的“可解释性”,理论上要先了解大模型的各个神经元在做什么。按理来说,这本应由人类手动检查,来弄清神经元所代表的数据特征——参数量少还算可行,可对于如今动辄百亿、千亿级参数的神经网络,这个工作量显然过于“离谱”了。于是,OpenAI灵机一动:或许,可以用“魔法”打败“魔法”?“我们用GPT-4为大型语言模型中的神经元行为自动编写解释,并为这些解释打分。”而GPT-4首次解释的对象是GPT-2,一个OpenAI发布于4年前、神经元数量超过30万个的开源大模型。让GPT-4“解释”GPT-2的原理具体来说,让GPT-4“解释”GPT-2的过程,整体分为三个步骤。(1)首先,让GPT-4生成解释,即给出一个GPT-2神经元,向GPT-4展示相关的文本序列和激活情况,产生一个对其行为的解释。如上图所示,GPT-4对GPT-2该神经元生成的解释为:与电影、人物和娱乐有关。(2)其次,再次使用GPT-4,模拟被解释的神经元会做什么。下图即GPT-4生成的模拟内容。(3)最后,比较GPT-4模拟神经元的结果与GPT-2真实神经元的结果,根据匹配程度对GPT-4的解释进行评分。在下图展示的示例中,GPT-4得分为0.34。通过这样的方法,OpenAI共让GPT-4解释了GPT-2中的307200个神经元,其中大多数解释的得分很低,只有超过1000个神经元的解释得分高于0.8。在官博中,OpenAI承认目前GPT-4生成的解释并不完美,尤其在解释比GPT-2规模更大的模型时,效果更是不佳:“可能是因为后面的layer更难解释。”尽管绝大多数解释的得分不高,但OpenAI认为,“即使GPT-4给出的解释比人类差,但也还有改进的余地”,未来通过ML技术可提高GPT-4的解释能力,并提出了三种提高解释得分的方法:对解释进行迭代,通过让GPT-4想出可能的反例,根据其激活情况修改解释来提高分数。使用更大的模型来进行解释,平均得分也会上升。调整被解释模型的结构,用不同的激活函数训练模型。值得一提的是,以上这些解释数据集、可视化工具以及代码,OpenAI都已在GitHub上开源发布:“我们希望研究界能开发出新技术以生成更高分的解释,以及更好的工具来使用解释探索GPT-2。”(GitHub地址:https://github.com/openai/automated-interpretability)“再搞下去,AI真的要觉醒了”除此之外,OpenAI还提到了目前他们采取的方法有很多局限性,未来需要一一攻克:GPT-4给出的解释总是很简短,但神经元可能有着非常复杂的行为,不能简洁描述。当前的方法只解释了神经元的行为,并没有涉及下游影响,希望最终能自动化找到并解释能实现复杂行为的整个神经回路。只解释了神经元的行为,并没有解释产生这种行为的背后机制。整个过程都是相当密集的计算,算力消耗很大。在博文的最后,OpenAI展望道:“我们希望将我们最大的模型解释为一种在部署前后检测对齐和安全问题的方式。然而,在这些技术能够揭露不诚实等行为之前,我们还有很长的路要走。”对于OpenAI的这个研究成果,今日在国内外各大技术平台也引起了广泛关注。有人在意其得分不佳:“对GPT-2的解释都不行,就更不知道GPT-3和GPT-4内部发生了什么,但这才是许多人更关注的答案。”有人感慨AI进化的方式愈发先进:“未来就是用AI完善AI模型,会加速进化。”也有人担心AI进化的未来:“再搞下去,AI真的要觉醒了。”那么对此,你又有什么看法呢?...PC版:https://www.cnbeta.com.tw/articles/soft/1359101.htm手机版:https://m.cnbeta.com.tw/view/1359101.htm

封面图片

OpenAI左脚踩右脚登天 让GPT-4帮人类训练GPT-4

OpenAI左脚踩右脚登天让GPT-4帮人类训练GPT-4OpenAI公布,其研究人员训练了一个基于GPT-4的模型,它被称为CriticGPT,用于捕捉ChatGPT代码输出中的错误。简单来说就是,CriticGPT让人能用GPT-4查找GPT-4的错误OpenAI称,如果通过CriticGPT获得帮助审查ChatGPT编写的代码,人类训练者的审查效果比没有获得这种帮助的人强60%;在CriticGPT帮助下,他们得出的批评结论比自己单独做的更全面。群友:狗溜狗关注频道@ZaiHuaPd频道爆料@ZaiHuabot

封面图片

LLaV:一个拥有类似 GPT-4 的大语言+视觉模型

LLaV:一个拥有类似GPT-4的大语言+视觉模型“使用机器生成的指令跟踪数据对大型语言模型(LLM)进行指令调优提高了新任务的零样本能力,但这一想法在多模式领域的探索较少。所以,我们开始尝试使用纯语言GPT-4生成多模态语言图像指令跟踪数据。通过对此类生成的数据进行指令调整,并推出了LLaVA:大型语言和视觉助手。这是一种端到端训练的大型多模态模型,连接视觉编码器和LLM以实现通用视觉和语言理解。早期实验表明,LLaVA展示了令人印象深刻的多模型聊天能力,有时在看不见的图像/指令上表现出多模态GPT-4的行为,并且与合成多模态指令跟随数据集上的GPT-4相比,相对分数达到了85.1%。当在ScienceQA上进行微调时,LLaVA和GPT-4的协同作用达到了92.53%,这个准确率颇高。因此,我们在GitHub正式开放GPT-4生成的视觉指令调整数据、模型和代码库。”

封面图片

人工通用智能的火花: GPT-4 的早期实验 #文件 @qiqubaike #pdf

人工通用智能的火花:GPT-4的早期实验#文件@qiqubaike#pdf人工智能(AI)研究人员一直在开发和完善大型语言模型(LLMs),这些模型在各种领域和任务中表现出非凡的能力,挑战我们对学习和认知的理解。由OpenAI开发的最新模型GPT-4[Ope23],是使用前所未有的计算和数据规模训练出来的。在本文中,我们报告了我们对GPT-4早期版本的调查,当时它还在OpenAI的积极开发中。我们认为,(这个早期版本的)GPT-4是新一批LLM的一部分(例如,与ChatGPT和谷歌的PaLM一起),它比以前的AI模型表现出更多的通用智能。我们讨论了这些模型的上升能力和影响。我们证明,除了对语言的掌握,GPT-4还能解决跨越数学、编码、视觉、医学、法律、心理学等领域的新颖而困难的任务,而不需要任何特殊的提示。此外,在所有这些任务中,GPT-4的表现都惊人地接近人类水平,而且往往大大超过了ChatGPT等现有模型。鉴于GPT-4能力的广度和深度,我们认为可以合理地将其视为人工通用智能(AGI)系统的早期(但仍不完整)版本。在我们对GPT-4的探索中,我们特别强调发现它的局限性,并讨论了在向更深入和更全面的AGI版本迈进时面临的挑战,包括可能需要追求一种超越下一个单词预测的新范式。最后,我们对近期技术飞跃的社会影响和未来的研究方向进行了思考。

封面图片

Auto-GPT 是一个实验性开源应用程序,展示了 GPT-4 语言模型的功能。该计划由 GPT-4 驱动,自主开发和管理业务以

是一个实验性开源应用程序,展示了GPT-4语言模型的功能。该计划由GPT-4驱动,自主开发和管理业务以增加净值。作为GPT-4完全自主运行的首批示例之一,Auto-GPT突破了AI的可能性界限。特征:用于搜索和信息收集的Internet访问长期和短期内存管理用于文本生成的GPT-4实例访问热门网站和平台使用GPT-3.5进行文件存储和汇总

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人