英伟达掌握AI时代“摩尔定律” 会加大中美AI公司差距么?

英伟达掌握AI时代“摩尔定律”会加大中美AI公司差距么?作为GTC大会的核心,英伟达发布了BlackwellGPU,它分为B200和GB200系列,后者集成了1个GraceCPU和2个B200GPU。NVIDIAGB200NVL72大型机架系统使用GB200芯片,搭配NVIDIABlueField-3数据处理单元、第五代NVLink互联等技术,对比相同数量H100Tensor核心的系统,在推理上有高达30倍的性能提升,并将成本和能耗降低了25倍。在AI应用方面,英伟达推出ProjectGR00T机器人基础模型及Isaac机器人平台的重要更新。英伟达展示其AI芯片的算力在过去8年里实现了1000倍的增长,这代表AI时代的摩尔定律(算力快速增长,算力成本快速下降)正在形成。01实现10万亿参数AI模型的训练和实时推理在GTC大会上,英伟达不仅发布了算力方面的更新,也介绍了其在应用方面的进展。1.更强的训练算力,更快、成本更低的推理Blackwell不仅是一块芯片,也是一个平台。英伟达的目标是让规模达到10万亿参数的AI模型可以轻松训练和实时推理。它最小的单元是B200,内置2080亿个晶体管,使用定制的4NPTSMC工艺制造,采用Chiplet架构,两个GPUdies通过每秒10TB的芯片到芯片链接连接成一个统一的GPU。GB200超级芯片则将两个B200Tensor核心GPU通过每秒900GB的超低功耗NVLink芯片到芯片互连技术与NVIDIAGraceCPU连接。再往上一层,则是NVIDIAGB200NVL72,这是一个多节点、液冷的机架系统,它内含36个GraceBlackwell超级芯片,包括72个BlackwellGPU和36个GraceCPU,在NVIDIABlueField-3数据处理单元的支持下,它能实现云网络加速、可组合存储、零信任安全性以及在超大规模AI云中的GPU计算弹性。这个系统可以被作为"单个GPU"工作,这时它能提供1.4exaflops的AI性能和30TB的快速内存。据称,一个GB200NVL72就最高支持27万亿参数的模型。最大规模的系统则是DGXSuperPOD,NVIDIAGB200NVL72是DGXSuperPOD的构建单元,这些系统通过NVIDIAQuantumInfiniBand网络连接,可扩展到数万个GB200超级芯片。此外,NVIDIA还提供HGXB200服务器板,通过NVLink将八个B200GPU连接起来,支持基于x86的生成式AI平台。HGXB200通过NVIDIAQuantum-2InfiniBand和Spectrum-X以太网网络平台支持高达400Gb/s的网络速度。GB200还将在NVIDIADGX云上提供给客户,这是一个与AWS、Google云和甲骨文云等领先的云服务提供商共同设计的AI平台,为企业开发者提供专用访问权限,以构建和部署先进的生成式AI模型所需的基础设施和软件。英伟达以实际的模型训练为例,训练一个GPT-MoE-1.8T模型(疑似指GPT-4),此前使用Hopper系列芯片需要8000块GPU训练90天,现在使用GB200训练同样的模型,只需要2000块GPU,能耗也只有之前的四分之一。由GB200组成的系统,相比相同数量的NVIDIAH100Tensor核心GPU组成的系统,推理性能提升30倍,成本和能耗降低25倍。在背后支持这些AI芯片和AI算力系统的是一系列新技术,包括提升性能的第二代Transformer引擎(支持双倍的计算和模型大小)、第五代NVLink(提供了每个GPU1.8TB/s的双向吞吐量);提升可靠性的RAS引擎(使AI算力系统能够连续运行数周甚至数月);以及安全AI(保护AI模型和客户数据)等。在软件方面,Blackwell产品组合得到NVIDIAAIEnterprise的支持,这是一个端到端的企业级AI操作系统。NVIDIAAIEnterprise包括NVIDIANIM推理微服务,以及企业可以在NVIDIA加速的云、数据中心和工作站上部署的AI框架、库和工具。NIM推理微服务可对来自英伟达及合作伙伴的数十个AI模型进行优化推理。综合英伟达在算力方面的创新,我们看到它在AI模型训练和推理方面的显著进步。在AI的模型训练方面,更强的芯片和更先进的芯片间通讯技术,让英伟达的算力基础设施能够以相对较低的成本训练更大的模型。GPT-4V和Sora代表了生成式AI的未来,即多模态模型和包括视频在内的视觉大模型,英伟达的进步让规模更大、更多模态和更先进的模型成为可能。在AI推理方面,目前越来越大的模型规模和越来越高的实时性要求,对于推理算力的挑战十分严苛。英伟达的AI算力系统推理性能提升30倍,成本和能耗降低25倍。不仅让大型模型的实时推理成为可能,而且解决了以往的并不算优秀的能效和成本问题。2.着重发力具身智能英伟达在GTC大会上公布了一系列应用方面的新成果,例如生物医疗、工业元宇宙、机器人、汽车等领域。其中机器人(具身智能)是它着重发力的方向。它推出了针对仿生机器人的ProjectGR00T基础模型及Isaac机器人平台的重要更新。ProjectGR00T是面向仿生机器人的通用多模态基础模型,充当机器人的“大脑”,使它们能够学习解决各种任务的技能。Isaac机器人平台为开发者提供新型机器人训练模拟器、JetsonThor机器人计算机、生成式AI基础模型,以及CUDA加速的感知与操控库Isaac机器人平台的客户包括1X、AgilityRobotics、Apptronik、BostonDynamics、FigureAI和XPENGRobotics等领先的仿生机器人公司。英伟达也涉足了工业机器人和物流机器人。IsaacManipulator为机械臂提供了最先进的灵巧性和模块化AI能力。它在路径规划上提供了高达80倍的加速,并通过ZeroShot感知(代表成功率和可靠性)提高了效率和吞吐量。其早期生态系统合作伙伴包括安川电机、PickNikRobotics、Solomon、READYRobotics和FrankaRobotics。IsaacPerceptor提供了多摄像头、3D环绕视觉能力,这些能力对于自动搬运机器人特别有用,它帮助ArcBest、比亚迪等在物料处理操作等方面实现新的自动化水平。02英伟达算力井喷后,对创业公司有何影响?在发展方式上,英伟达与OpenAI等公司有明显的不同。OpenAI以及Anthropic、Meta等公司是以AI模型为核心,然后运营平台和生态;英伟达则以算力为核心,并拓展到软件平台和AI的相关应用。并且在应用方面,它并没有表现出一家垄断的态势,而是与各种行业的合作伙伴共创,其目的是建立一个软硬件结合的庞大生态。此次英伟达在算力方面的进步,对于AI创业公司们也产生了深刻影响。对于大模型领域创业公司,例如OpenAI等,这显然是利好,因为他们能以更快的频率,更低的成本训练规模更大,模态更多的模型,并且有机会进一步降低API的价格,扩展客户群体。对于AI应用领域的创业公司,英伟达不仅将推理算力性能提高了数十倍,而且降低了能耗和成本。这让AI应用公司们能在成本可承担的前提下,拓展业务规模,随着AI算力的进一步增长,未来AI应用公司的运营成本还可能进一步降低。对于AI芯片领域的创业公司,英伟达的大更新让他们感受到了明显压力,而且英伟达提供的是一套完整的系统,包括算力芯片,芯片间通信技术,打破内存墙的网络芯片等。AI芯片创业公司必须找到自己真正能建立优势的方向,而不是因为英伟达这类巨头的一两次更新就失去存在价值。中国的AI创业公司,因为各种各样的原因,很难使用最新最强的英伟达AI芯片,作为替代的国产AI芯片在算力和能效比上目前仍有差距,这可能导致专注大模型领域的公司们在模型的规模扩展和迭代速度上与海外的差距拉大。对于中国的AI应用公司,则仍有机会。因为它们不仅可以用国内的基础模型,也可以用海外的先进开源模型。中国拥有全球顶尖的AI工程师和产品经理,他们打造的产品足可以参与全球竞争,这让AI应用公司们进可以开拓海外市场,还有足够庞大的国内市场做基本盘,AI时代的字节跳动、米哈游很可能在它们中间产生。...PC版:https://www.cnbeta.com.tw/articles/soft/1424411.htm手机版:https://m.cnbeta.com.tw/view/1424411.htm

相关推荐

封面图片

NVIDIA“最强AI芯片”Blackwell B200 GPU令业内惊呼新的摩尔定律诞生

NVIDIA“最强AI芯片”BlackwellB200GPU令业内惊呼新的摩尔定律诞生在GTC直播中,黄仁勋左手举着B200GPU,右手举着H100此外,将两个B200GPU与单个GraceCPU结合在一起的GB200,可以为LLM推理工作负载提供30倍的性能,并且显著提高效率。黄仁勋还强调称:“与H100相比,GB200的成本和能耗降低了25倍!关于市场近期颇为关注的能源消耗问题,B200GPU也交出了最新的答卷。黄仁勋表示,此前训练一个1.8万亿参数模型,需要8000个HopperGPU并消耗15MW电力。但如今,2000个BlackwellGPU就可以实现这一目标,耗电量仅为4MW。在拥有1750亿参数的GPT-3大模型基准测试中,GB200的性能是H100的7倍,训练速度是H100的4倍。值得一提的是,B200GPU的重要进步之一,是采用了第二代Transformer引擎。它通过对每个神经元使用4位(20petaflopsFP4)而不是8位,直接将计算能力、带宽和模型参数规模翻了一倍。而只有当这些大量的GPU连接在一起时,第二个重要区别才会显现,那就是新一代NVLink交换机可以让576个GPU相互通信,双向带宽高达1.8TB/秒。而这就需要英伟达构建一个全新的网络交换芯片,其中包括500亿个晶体管和一些自己的板载计算:拥有3.6teraflopsFP8处理能力。在此之前,仅16个GPU组成的集群,就会耗费60%的时间用于相互通信,只有40%的时间能用于实际计算。一石激起千层浪,“最强AI芯片”的推出让网友纷纷赞叹。其中英伟达高级科学家JimFan直呼:Blackwell新王诞生,新的摩尔定律已经应运而生。DGXGrace-BlackwellGB200:单个机架的计算能力超过1Exaflop。黄仁勋交付给OpenAI的第一台DGX是0.17Petaflops。GPT-4的1.8T参数可在2000个Blackwell上完成90天的训练。还有网友感叹:1000倍成就达成!Blackwell标志着在短短8年内,NVIDIAAI芯片的计算能力实现了提升1000倍的历史性成就。2016年,“Pascal”芯片的计算能力仅为19teraflops,而今天Blackwell的计算能力已经达到了20000teraflops。相关文章:全程回顾黄仁勋GTC演讲:Blackwell架构B200芯片登场英伟达扩大与中国车企合作为比亚迪提供下一代车载芯片英伟达进军机器人领域发布世界首款人形机器人通用基础模型台积电、新思科技首次采用NVIDIA计算光刻平台:最快加速60倍NVIDIA共享虚拟现实环境技术将应用于苹果VisionPro黄仁勋GTC演讲全文:最强AI芯片Blackwell问世推理能力提升30倍...PC版:https://www.cnbeta.com.tw/articles/soft/1424217.htm手机版:https://m.cnbeta.com.tw/view/1424217.htm

封面图片

黄仁勋剧透下一代GPU芯片 新演讲又把摩尔定律按在地上摩擦

黄仁勋剧透下一代GPU芯片新演讲又把摩尔定律按在地上摩擦好好好,像做iPhone一样造芯片。到这一代Blackwell为止,英伟达已经把AI模型有效扩展到万亿参数。(还给token定了个译名:词元)。1.8万亿参数GPT4的训练能耗,8年降低至原来的1/350。推理能耗,8年降低至原来的1/45000。看着这一波亮相和剧透,网友真相了:英伟达没有竞争对手,而是选择将摩尔定律放在地上摩擦……老黄是在书写自己的定律。所以应该叫老黄定律?还是英伟达定律?ComputeX前夜,老黄一开场就展开了一波隐形卖货,他自称不太准确的“CEO数学”:买得越多,省得越多……Themoreyoubuy,themoreyousave.经典语录依然引发现场欢呼大笑:虽然不太准确,但好像有些道理……除此之外,还有一些新产品亮相,包括能够模拟气冲的天气预测模型CorriDiff、数字人微服务、BlackWell系统、Spectrum-X、机器人平台Isaac……好了话不多说,这就来看看老黄这次到底搞了哪些事情“AIFactoryIsgenerating”谈到当前新的产业革命,老黄表示:新的计算时代正在开始;而AIFactory正在诞生。他在现场展示了BlackWell系统。3月份GTC大会上还遮遮掩掩地说是GPT-MoE-1.8T模型,这下彻底摊牌了:GPT-4参数就是1.8T。跟DGXHopper相比。现场还看到了它的真身,大概有两米那么高吧…而真正的AIFactory大概会长这样,大概有32000GPU。AI加速每个应用程序AI对于企业的影响,老黄认为AI加速每一个应用程序。他首先谈到了NIM推理微服务,这是一个帮助开发者或者企业轻松构建AI应用,简化大模型部署程序。不管是聊天机器人、还是生活/驾驶助手等,部署时间都能从几周缩短到几分钟。运行MetaLlama3-8B的NIM可以产生比不使用NIM多3倍的tokens。企业和开发者可以使用NIM运行生成文本、图像、视频、语音和数字人类的应用程序。而背后源于丰富的技术合作生态——近200家技术合作伙伴,包括Cadence、Cloudera、Cohesity、DataStax、NetApp、ScaleAI和Synopsys等,正在将NIM集成到他们的平台中。此次在这个NIM中还有上新,也就是ACE生成式AI微服务,数字人AI技术套件。除了原有自动语音识别、文本到语音的转换和翻译、Nemotron语言模型、Audio2Face等套件,还增加了两个技术:一个是可以基于音轨生成身体姿势Audio2Gesture;一个Nemotron-34.5B,这是英伟达首款SLM(小爱语言模型),专为低延迟端侧设备而生。∂接下来,这一数字人微服务将部署在一亿台RTXAIPC上面。当前英伟达在新的合作伙伴,比如华硕、MSI的加入下,已经拥有超过200种RTXAIPC型号。还推出了RTXAIToolkit,一个工具和SDK集合,帮助Windows开发者定制优化本地部署模型。同Mac相比,部署了RTX的Windows的StableDiffusion推理速度是Mac的7倍。每一台带有RTX的PC,都是一台RTXAIPC。用于机器人开发的技术平台Isaac这次一同亮相的,还有用于机器人开发的技术平台,NVIDIAIsaac。为啥搞这玩意儿呢,老黄给出的理由是这样的:机器人时代已经到来。有朝一日,所有会移动的东西,都将实现自主化。这个Isaac平台具体长啥样呢?Isaac平台提供一系列英伟达加速库、AI基础模型和仿真技术,供机器人制造商集成到自己的技术栈中。注意,平台是模块化的,允许公司单独或一起采用多种技术。具体而言,其中包括:NVIDIAIsaacROS:一系列模块化的ROS2包,为ROS社区开发者带来NVIDIA加速和AI模型NVIDIAIsaacPerceptor:一个参考工作流程,提供基于AI的自主移动机器人的多摄像头3D环视能力NVIDIAIsaacManipulator:一个简化AI启用机械臂开发的参考工作流程NVIDIAIsaacSim:一款参考应用程序,用于在基于NVIDIAOmniverse平台的物理环境中模拟、测试和验证机器人,并生成合成数据NVIDIAIsaacLab:IsaacSim中的参考应用程序,针对AI机器人基础模型训练的强化、模仿和迁移学习进行了优化据介绍,目前,包括比亚迪电子、西门子、泰瑞达机器人和Intrinsic(Alphabet的子公司)在内,全球超多名列前茅的机器人开发团队,都在采用Isaac平台。这些团队用上Isaac,一边提高制造工厂、仓库和配送中心的效率,同时确保人类同事的安全;一边也能充当重复劳动和超精确任务的执行者。现场放出了很多demo,很多工厂在英伟达Omniverse里建造了一个完全模拟现实的自助工厂,以及基于Isaac平台开发的AI机器人。官网悄悄推出游戏Agent助手除了现场老黄亲自发布的上述内容外,我们在英伟达官网还找到了一个彩蛋,一个巨久远的callback。ProjectG-Assist。时间回到2017年愚人节,英伟达官网开了个大玩笑:宣称自家发布了一款支持10080款游戏的USB人工智能超算卡GeForceGTXG-Assist。重点在于它很AI。GeForceGTXG-Assist像是个AI游戏助手,可以帮助玩家自动完成游戏操作,甚至代打击败Boss。今天,英伟达真的将这个愚人节玩笑变为现实——英伟达官网上线ProjectG-Assist,一套工具和模型的集合而成的AIAgent系统,供游戏和应用程序开发者使用。通过前后剧情,ProjectG-Assist利用大模型对游戏输出响应,能够检查游戏性能和系统设置,建议用户优化以充分利用可用硬件,或者适当升级角色。玩家这边呢,还可以通过ProjectG-Assist找到最好的武器,也可以查询到最牛的攻略,然后就可以或制作武器材料,或一路杀怪通关。总而言之,ProjectG-Assist可以让人有个Agent外挂,但是不会让你完全挂机,官网还贴心表示:G-Assist项目不会像我们在2017年愚人节预言视频中那样完全替代您玩游戏,但它可以帮助您从您最喜欢的游戏中获得更多收益。游戏体验再上大分!据介绍,ProjectG-Assist支持各种模态的输入。可以是来自玩家的文本提示,或声音指令;可以是屏幕上显示框架的上下文;可以是来自应用程序或系统本身的API。△演示人员语音输入中这些数据都通过连接了游戏知识数据库的大模型处理,然后使用RAG(检索增强生成)生成和用户相关的查询结果——没错,ProjectG-Assist允许玩家使用PC或云端RTXAI驱动的知识库。ProjectG-Assist开发工具将出现在即将推出的RTXAI开发套件中,具体会用在哪些游戏上,还需要游戏开发商来决定并提供支持。为了让大家更好地使用ProjectG-Assist,英伟达贴心地附上视频教学大礼包,需要可自取。OneMoreThing整场发布会,老黄还整了不少活儿。比如AI老黄似乎已经成了发布会常客。在介绍天气预测模型时,他坦白承认在视频中那么流利讲普通话的那位是AI生成的,因为自己中文不太好。而本场重磅的BlackWell系统、AIFactory的核心构成,也被他各种搬来搬去……除了下一代GPU取名Rubin,我们还看到VeraCPU,他们共同出现在新的VeraRubin加速器上。而这一名称来源,实际上是来自美国一位女天文学家VeraRubin,她是研究暗物质先驱。以及,COMPUTEX2024不愧是6月开头就炸场的AI终端大戏。除了黄院士外,英特尔、AMD、高通等老板都悉数到场,接下来几天会挨个发表演讲。这些主题演讲,绝大部分都跟AIPC有关。大家一起蹲一蹲吧~...PC版:https://www.cnbeta.com.tw/articles/soft/1433340.htm手机版:https://m.cnbeta.com.tw/view/1433340.htm

封面图片

英特尔CEO:别听老黄瞎忽悠 摩尔定律依然有效

英特尔CEO:别听老黄瞎忽悠摩尔定律依然有效他说:“与黄仁勋让你们相信的不同,摩尔定律依然活着,而且还活得很好。”基辛格同时强调,作为PC芯片的领先供应商,英特尔将在AI的普及中发挥重要作用。他说:“我认为,它就像25年前的互联网,规模和潜力庞大。我们相信,这是推动半导体行业在2030年之前达到1万亿美元的动力。”在本届台北国际电脑展上,英特尔展示了其最新的至强6(Xeon6)数据中心处理器。该处理器具有更高效的内核,将使运营商能够将给定任务所需的空间减少到前一代硬件的1/3。盖辛格还称,英特尔的Gaud系统将由戴尔和英业达(Inventec)等合作伙伴提供。Gaud系统将英特尔的芯片编译成多处理器套件,专门用于处理生成式AI的训练。一套配备八个英特尔Gaud2加速器的套装售价为65,000美元,而由八个英特尔Gaud3加速器组成的功能更强大的套件将标价12.5万美元。英特尔预计,这两款产品都比竞争对手的产品更实惠。这些Gaudi3集群中的每一个都由8192个加速器组成,英特尔预计,与同等规模的英伟达H100GPU集群相比,英特尔产品的AI模型训练时间最多快40%。另外,在执行AI推理任务方面,Gaudi3的执行速度将比英伟达的H100快一倍,这是从Meta和Mistral等流行模型的测试结果中得出的结论。但是,这些优势可能还不足以推翻英伟达在数据中心AI处理方面的领先地位。NextCurve的分析师LeonardLee称:“每个加速器的表现不再是最重要的事情。英伟达的最大优势在于拥有一个凝聚和集成的生态系统,以及像NVLink这样的专有技术,确保其计算集群作为一个整体工作。”几十年来,英特尔一直领导着计算机行业。但由于逐渐落后于竞争对手,其营收在过去两年里有所下滑。三年前,基辛格被任命为英特尔CEO,肩负着重新夺回芯片设计和制造领导地位的使命。虽然英特尔的销售额已经停止萎缩,但分析师预计还不会迅速反弹。据预计,英特尔今年的营收将比2021年减少200亿美元。与此同时,英伟达的销售额预计将翻一番,AMD的增长率也将超过10%,这两家公司均更好地利用了AI计算硬件的开支狂潮。基辛格称:“这是我们职业生涯中最重要的时刻。”他重申了英特尔与合作伙伴合作的重要性,并称“我们是为这一刻而生的。”...PC版:https://www.cnbeta.com.tw/articles/soft/1433550.htm手机版:https://m.cnbeta.com.tw/view/1433550.htm

封面图片

新版摩尔定律来?ChatGPT之父:AI算量18个月翻倍

新版摩尔定律来?ChatGPT之父:AI算量18个月翻倍1965年,时任仙童半导体工程师、后来创立了Intel的戈登·摩尔发文指出,每隔18个月,半导体芯片的晶体管密度就会翻倍,被称为摩尔定律,后续又被时间间隔修正为24个月,也就是两年时间芯片密度翻倍,成本降低一半。至于ChatGPT,它目前使用的是GPT-3大模型,有1750亿参数,已经积累了1亿用户,日活超过1300万,训练阶段总算力消耗约为3640PF-days(即1PetaFLOP/s效率跑3640天),成本预计在500万美元/次。未来会升级到GPT-4模型,有100万亿参数,算力性能需要指数级提升。...PC版:https://www.cnbeta.com.tw/articles/soft/1346599.htm手机版:https://m.cnbeta.com.tw/view/1346599.htm

封面图片

昆仑万维方汉:AI “摩尔定律” 已出现 端侧推理才是最终解决方案

昆仑万维方汉:AI“摩尔定律”已出现端侧推理才是最终解决方案12月14日,昆仑万维董事长、总经理方汉在2023智能未来大会上表示,参考互联网时代发展历程,基于免费模式才能使得AI大模型最大程度普及,这需要通过技术迭代、端侧推理和内容革命等方面实现。目前人工智能(AI)的“摩尔定律”已经出现,即大模型的能力是每年10倍的往上涨,推断成本是每年10倍的往下降。另外,只有端侧推理才是最终的解决方案,随着手机移动设备实现更高参数的推理能力,真正杀手级应用才会出现。据介绍,昆仑万维已经推出了AI游戏、AI音乐和AI漫画。

封面图片

大模型增速远超摩尔定律 MIT最新研究:人类快要喂不饱AI了

大模型增速远超摩尔定律MIT最新研究:人类快要喂不饱AI了论文地址:https://arxiv.org/pdf/2403.05812.pdfLLM的能力提升大部分来自于算力,而摩尔定律代表着硬件算力的发展,——也就是说,随着时间的推移,终有一天我们将无法满足LLM所需要的算力!如果那个时候AI有了意识,不知道会不会自己想办法找饭吃?上图表示不同领域的算法改进对有效计算翻倍的估计。蓝点表示中心估计值或范围;蓝色三角形对应于不同大小(范围从1K到1B)的问题的倍增时间;紫色虚线对应于摩尔定律表示的2年倍增时间。摩尔定律和比尔盖茨摩尔定律(Moore'slaw)是一种经验或者观察结果,表示集成电路(IC)中的晶体管数量大约每两年翻一番。1965年,仙童半导体(FairchildSemiconductor)和英特尔的联合创始人GordonMoore假设集成电路的组件数量每年翻一番,并预测这种增长率将至少再持续十年。1975年,展望下一个十年,他将预测修改为每两年翻一番,复合年增长率(CAGR)为41%。虽然Moore没有使用经验证据来预测历史趋势将继续下去,但他的预测自1975年以来一直成立,所以也就成了“定律”。因为摩尔定律被半导体行业用于指导长期规划和设定研发目标,所以在某种程度上,成了一种自我实现预言。数字电子技术的进步,例如微处理器价格的降低、内存容量(RAM和闪存)的增加、传感器的改进,甚至数码相机中像素的数量和大小,都与摩尔定律密切相关。数字电子的这些持续变化一直是技术和社会变革、生产力和经济增长的驱动力。不过光靠自我激励肯定是不行的,虽然行业专家没法对摩尔定律能持续多久达成共识,但根据微处理器架构师的报告,自2010年左右以来,整个行业的半导体发展速度已经放缓,略低于摩尔定律预测的速度。下面是维基百科给出的晶体管数量增长趋势图:到了2022年9月,英伟达首席执行官黄仁勋直言“摩尔定律已死”,不过英特尔首席执行官PatGelsinger则表示不同意。从下图我们可以看出,英特尔还在努力用各种技术和方法为自己老祖宗提出的定律续命,并表示,问题不大,你看我们还是直线没有弯。AndyandBill'sLaw关于算力的增长,有一句话是这样说的:“安迪给的,比尔都拿走(WhatAndygiveth,Billtakethaway)”。这反映了当时的英特尔首席执行官AndyGrove每次向市场推出新芯片时,微软的CEO比尔·盖茨(BillGates)都会通过升级软件来吃掉芯片提升的性能。——而以后吃掉芯片算力的就是大模型了,而且根据MIT的这项研究,大模型以后根本吃不饱。研究方法如何定义LLM的能力提升?首先,研究人员对模型的能力进行了量化。基本的思想就是:如果一种算法或架构在基准测试中以一半的计算量获得相同的结果,那么就可以说,它比另一种算法或架构好两倍。有了比赛规则之后,研究人员招募了200多个语言模型来参加比赛,同时为了确保公平公正,比赛所用的数据集是WikiText-103和WikiText-2以及PennTreebank,代表了多年来用于评估语言模型的高质量文本数据。专注于语言模型开发过程中使用的既定基准,为比较新旧模型提供了连续性。需要注意的是,这里只量化了预训练模型的能力,没有考虑一些“训练后增强”手段,比如思维链提示(COT)、微调技术的改进或者集成搜索的方法(RAG)。模型定义研究人员通过拟合一个满足两个关键目标的模型来评估其性能水平:(1)模型必须与之前关于神经标度定律的工作大致一致;(2)模型应允许分解提高性能的主要因素,例如提高模型中数据或自由参数的使用效率。这里采用的核心方法类似于之前提出的缩放定律,将DenseTransformer的训练损失L与其参数N的数量和训练数据集大小D相关联:其中L是数据集上每个token的交叉熵损失,E、A、B、α和β是常数。E表示数据集的“不可减少损失”,而第二项和第三项分别代表由于模型或数据集的有限性而导致的错误。因为随着时间的推移,实现相同性能水平所需的资源(N和D)会减少。为了衡量这一点,作者在模型中引入了“有效数据”和“有效模型大小”的概念:其中的Y表示年份,前面的系数表示进展率,代入上面的缩放定律,可以得到:通过这个公式,就可以估计随着时间的推移,实现相同性能水平所需的更少资源(N和D)的速度。数据集参与测评的包含400多个在WikiText-103(WT103)、WikiText-2(WT2)和PennTreebank(PTB)上评估的语言模型,其中约60%可用于分析。研究人员首先从大约200篇不同的论文中检索了相关的评估信息,又额外使用框架执行了25个模型的评估。然后,考虑数据的子集,其中包含拟合模型结构所需的信息:token级测试困惑度(决定交叉熵损失)、发布日期、模型参数数量和训练数据集大小,最终筛选出231个模型供分析。这231个语言模型,跨越了超过8个数量级的计算,上图中的每个形状代表一个模型。形状的大小与训练期间使用的计算成正比,困惑度评估来自于现有文献以及作者自己的评估测试。在某些情况下,会从同一篇论文中检索到多个模型,为了避免自相关带来的问题,这里每篇论文最多只选择三个模型。实证结果根据缩放定律,以及作者引入的有效数据、有效参数和有效计算的定义来进行评估,结果表明:有效计算的中位倍增时间为8.4个月,95%置信区间为4.5至14.3个月。上图表示通过交叉验证选择的模型的算法进度估计值。图a显示了倍增时间的汇总估计值,图b显示了从左到右按交叉验证性能递减(MSE测试损耗增加)排序。上图比较了2016年至2020年前后的算法有效计算的估计倍增时间。相对于前期,后期的倍增时间较短,表明在该截止年之后算法进步速度加快。参考资料:https://twitter.com/emollick/status/1767717692608217407...PC版:https://www.cnbeta.com.tw/articles/soft/1423970.htm手机版:https://m.cnbeta.com.tw/view/1423970.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人