3月31日，UC伯克利联手CMU、斯坦福、UCSD和MBZUAI，推出了130亿参数的开源模型 Vicuna，仅需300美元就能

3月31日，UC伯克利联手CMU、斯坦福、UCSD和MBZUAI，推出了130亿参数的开源模型Vicuna，仅需300美元就能实现ChatGPT90%的性能。Vicuna是通过在ShareGPT收集的用户共享对话上对LLaMA进行微调训练而来，训练成本近300美元。研究人员设计了8个问题类别，包括数学、写作、编码，对Vicuna-13B与其他四个模型进行了性能测试。测试过程使用GPT-4作为评判标准，结果显示Vicuna-13B在超过90%的情况下实现了与ChatGPT和Bard相匹敌的能力。同时，在在超过90%的情况下胜过了其他模型，如LLaMA和斯坦福的Alpaca。今天，团队正式发布了Vicuna的权重——只需单个GPU就能跑单个GPU：Vicuna-13B需要大约28GB的GPU显存。多个GPU：如果没有足够的显存，则可以使用模型并行来聚合同一台机器上多个GPU的显存。仅用CPU：如果想在CPU上运行，则需要大约60GB的内存。全文：https://mp.weixin.qq.com/s/BG1dw3PeRysvq_UBgo6UFQ投稿：@ZaiHuabot频道：@TestFlightCN

在Telegram中查看

相关推荐

开源聊天机器人在质量评估上能达到 ChatGPT 的九成

加州伯克利、斯坦福、卡内基梅隆和加州圣迭戈的研究团队宣布了开源聊天机器人Vicuna-13B，它是基于Meta的大语言模型LLaMA，使用了用户通过ShareGPT分享的7万对话样本进行微调。研究人员让OpenAI的GPT-4作为裁判去对比Vicuna-13B以及ChatGPT和GoogleBard，结果显示它在质量评估中能达到ChatGPT的九成左右。Vicuna-13B的训练成本只花了300美元。Vicuna-13B的代码使用ApacheLicense2.0许可证，研究人员计划释出其模型权重。https://chat.lmsys.org/https://vicuna.lmsys.org/投稿：@ZaiHuabot频道：@TestFlightCN

单个GPU就能跑，UC伯克利领头，130亿参数「小羊驼」权重公布https://www.ithome.com/0/684/448.htm====糊====猫娘炼成

UC伯克利教授：2030年GPT可执行人类180万年工作一天学2500年知识

UC伯克利教授：2030年GPT可执行人类180万年工作一天学2500年知识为了更好地进行预测，Jacob查询了各种来源的信息，包括经验缩放定律、对未来计算和数据可用性的预测、特定基准的改进速度、当前系统的经验推理速度，以及未来可能的并行性改进。概括来看，Jacob认为，GPT2030会在以下几个方面超过人类工作者。1.编程、黑客任务、数学、蛋白质设计。2.工作和思考的速度：预计GPT2030每分钟处理的单词是人类的5倍，而每FLOP都多5倍的话，总共就是125倍。3.GPT2030可以进行任意复制，并进行并行运算。算力足够的话，它足以完成人类需要执行180万年的工作，结合2中的结论，这些工作只需2.4个月，就能完成。4.由于具有相同的模型权重，GPT的副本之间可以共享知识，实现快速的并行学习。因此，GPT可以在1天内学完人类需要学2500年的知识。5.除了文本和图像，GPT还能接受其它模态的训练，甚至包括各种违反直觉的方式，比如分子结构、网络流量、低级机器码、天文图像和脑部扫描。因此，它可能会对我们经验有限的领域具有很强的直觉把握，甚至会形成我们没有的概念。当然，除了飞跃的性能，Jacob表示，GPT的滥用问题也会更加严重，并行化和高速将使模型严重威胁网络安全。它的快速并行学习还会转向人类行为，而因为自己已经掌握了“千年”的经验，它想要操控和误导人类也会很轻易。在加速方面，最大的瓶颈是GPT的自主性。在数学研究这种可以自动检查工作的领域，Jacob预测，GPT2030将超过大多数专业数学家。在机器学习领域，他预测GPT将能独立完成实验并生成图表和论文，但还是需要人类科研者给出具体指导、评估结果。在这两种情况下，GPT2030都将是科研过程中不可或缺的一部分。Jacob表示，他对GPT2030特性的预测并不是从今天的系统中直观得出的，它们可能是错误的，因为ML在2030年会是什么样子，还存在很大的不确定性。然而，无论GPT2030会是什么样子，Jacob都相信，它至少是一个更好版本的GPT-4。所以，我们现在就该为AI可能造成的影响（比如影响1万亿美元、1000万人的生命，或者对人类社会进程造成重大破坏）做好准备，而不是在7年以后。01特定能力GPT2030应该会具有超人的编码、黑客和数学能力。在阅读和处理大型语料库，以获取模式和见解以及回忆事实的能力方面，它都会能力惊人。因为AlphaFold和AlphaZero在蛋白质结构预测和游戏方面都具有超人的能力，GPT2030显然也可以，比如让它在与AlphaFold/AlphaZero模型相似的数据上进行多模态训练。编程能力GPT-4在LeetCode问题上的表现优于训练截止后的人类基线，并通过了几家大型科技公司的模拟面试。他们的进步速度也很快，从GPT-3到GPT-4，直接跃升了19%。在更具挑战性的CodeForces竞赛中，GPT-4的表现较差，但AlphaCode与CodeForces竞争对手的中值水平相当。在更难的APPS数据集上，Parcel进一步超越了AlphaCode（7.8%->25.5%）。展望未来，预测平台Metaculus给出的中位数是2027年，届时在APPS上将有80%的AI，将超越除了最优秀程序员之外的所有人类。黑客Jacob预测，GPT2030的黑客能力将随着编程能力的提高而提高，而且，ML模型可以比人类更有规模、更认真地搜索大型代码库中的漏洞。事实上，ChatGPT早已被用于帮助生成漏洞。ChatGPT生成的网络钓鱼邮件数学Minerva在竞赛数学基准（MATH）上的准确率达到50%，优于大多数人类竞争对手。而且，它的进步速度很快（一年内>30%），而且通过自动形式化、减少算法错误、改进思维链和更好的数据的加持，取得了显著的成果。Metaculus预测，到2025年GPT的数学成绩将达到92%，AI在国际数学奥赛中获得金牌的中位数为2028年，能够比肩全世界成绩最拔尖的高中生。Jacob个人预计，GPT2030在证明定理方面将优于大多数专业数学家。信息处理回忆事实和处理大型语料库，是语言模型的记忆能力和大型上下文窗口的自然结果。根据经验，GPT-4在MMLU上的准确率达到86%，这是一套广泛的标准化考试，包括律师考试、MCAT以及大学数学、物理、生物化学和哲学；即使考虑到可能存在测试污染，这也超出了任何人类的知识广度。关于大型语料库，有研究人员使用GPT-3构建了一个系统，该系统发现了大型文本数据集中的几种以前未知的模式，以及某篇工作中的缩放率，这表明模型很快就会成为“超人”。这两项工作都利用了LLM的大型上下文窗口，目前该窗口已超过100,000个token，并且还在不断增长。更一般地说，机器学习模型具有与人类不同的技能特征，因为人类和机器学习适应的是非常不同的数据源（前者是通过进化，后者是通过海量的互联网数据）。当模型在视频识别等任务上达到人类水平时，它们在许多其他任务（例如数学、编程和黑客攻击）上可能会成为超人。此外，随着时间的推移，会出现更大的模型和更好的数据，这会让模型功能变得更为强大，不太可能低于人类水平。虽然当前的深度学习方法可能在某些领域达不到人类水平，但在数学这类人类进化并不擅长的领域，它们很可能会显著超越人类。02推理速度为了研究ML模型的速度，研究人员将测量ML模型生成文本的速度，以每分钟想到380个单词的人类思维速度为基准。使用OpenAI的chatcompletionsAPI，GPT-3.5每分钟可以生成1200个单词(wpm)，而GPT-4可以生成370wpm，截至2023年4月上旬。像Pythia-12B这样的小型开源模型，通过在A100GPU上使用开箱即用的工具，至少可以生成1350个单词wpm，，通过进一步优化，可能还会达到2倍。因此，如果我们考虑截至4月份的OpenAI模型，它要么大约是人类速度的3倍，要么等于人类速度。因为加速推理存在强大的商业化压力，未来模型的推理速度还会更快。事实上，根据FabienRoger的跟踪数据，在撰写本文之前的一周，GPT-4的速度已经提高到约540wpm（12个token/秒）；这表明空间仍然很大。Steinhard的中位数预测是，模型每分钟生成的单词数将是人类的5倍（范围：[0.5x,20x]），这大致是进一步增加的实际收益会递减的地方。重要的是，机器学习模型的速度不是固定的。模型的串行推理速度可以提高k^2，但代价是吞吐量降低k倍（换句话说，模型的$$k^3$$并行副本可以替换为速度快$$k^2$$倍的单个模型）这可以通过并行平铺方案来完成，理论上该方案甚至适用于$$k^2$$这样的大值，可能至少为100，甚至更多。因此，通过设置k=5，可以将5倍人类速度的模型，加速到125倍的人类速度。当然，速度并不一定与质量相匹配：GPT2030将具有与人类不同的技能特征，在一些我们认为容易的任务上，它会失败，而在我们认为困难的任务上，它会表现出色。因此，我们不应将GPT2030视为“加速的人类”，而应将其视为有潜力发展出一些违反直觉技能的“超级加速工人”。尽管如此，加速仍然很有用。对于提速125倍的语言模型，只要在GPT2030的技能范围之内，我们需要一天时间的学会的认知动作，它可能在几分钟内就会完成。运用前面提到的黑客攻击，机器学习系统可以快速生成漏洞或攻击，而人类却生成得很缓慢。03吞吐量和并行副本模型可以根据可用的计算和内存任意复制，因此它们可以快速完成任何可以有效并行的工作。此外，一旦一个模型被微调到特别有效，更改就可以立即传播到其他实例。模型还可以针对特定的任务进行蒸馏，从而运行得更快、更便宜。一旦模型经过训练，可能会有足够的资源来运行模型的多个副本。因为训练模型就需要运行它的许多并行副本，并且组织在部署时，仍然拥有这些资源。因此，我们可以通...PC版：https://www.cnbeta.com.tw/articles/soft/1376713.htm手机版：https://m.cnbeta.com.tw/view/1376713.htm

6月20日消息，斯坦福大学基础模型研究中心主任PercyLiang发文表示，阿里通义千问Qwen2-72B模型成为排名最高的开源

6月20日消息，斯坦福大学基础模型研究中心主任PercyLiang发文表示，阿里通义千问Qwen2-72B模型成为排名最高的开源大模型，性能超越Llama3-70B模型。日前，斯坦福大学基础模型研究中心主任PercyLiang在社交平台发布了HELMMMLU最新榜单，阿里巴巴的通义千问开源模型Qwen2-72B排名第5，仅次于Claude3Opus、GPT-4o、Gemini1.5pro、GPT-4，是排名第一的开源大模型，也是排名最高的中国大模型。据悉，通义千问Qwen2于6月初开源，包含5个尺寸的预训练和指令微调模型，目前Qwen系列模型下载量已经突破1600万。

Google 推出开源大模型更新 Gemma 2

Google推出开源大模型更新Gemma2Google今天发布了其下一代开源大模型Gemma2，有9B和27B两种参数大小。与第一代相比，其性能更高、推理效率更高，并且内置了显著的安全改进。Google称，27B的模型性能可以与比其大两倍的模型相媲美。这些大模型可在单个NVIDIAH100GPU或TPU主机实现全精度推理，从而显著降低部署成本。Gemma2也可以在CPU上使用量化版本进行本地推理，或者在配备NVIDIARTX或GeForceRTX的个人电脑上使用。——

作为当下最受欢迎的开源 AI 大模型解决方案，GitHub 上一个开源项目 Colossal-AI 建立了一整套完整的 RLHF

作为当下最受欢迎的开源AI大模型解决方案，GitHub上一个开源项目Colossal-AI建立了一整套完整的RLHF流程，包括：监督数据集收集->监督微调->奖励模型训练->强化学习微调。并且，技术团队以LLaMA为基础预训练模型，正式推出了ColossalChat，这也是目前最接近ChatGPT原始技术方案的实用开源项目。该项目包括但不限于以下功能：-Demo：可直接在线体验模型效果，无需注册或waitinglist；-训练代码：开源完整RLHF训练代码，已开源至含7B和13B两种模型；-数据集：开源104K中、英双语数据集；-推理部署：4bit量化推理70亿参数模型仅需4GB显存；-模型权重：仅需单台服务器少量算力即可快速复现；-更大规模模型、数据集、其他优化等将保持高速迭代添加。目前，相关代码已开源至GitHub，感兴趣的同学可以看下。项目还有提供完整的中文教程，进一步降低学习门槛，让大家能更快上手开发。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人