最强AI芯片WSE-3发布:4万亿个晶体管,90万核,125 PetaFLOPS算力
最强AI芯片WSE-3发布:4万亿个晶体管,90万核,125PetaFLOPS算力基于5nm的4万亿晶体管WSE-3专为训练业界最大的AI模型而构建,为CerebrasCS-3AI超级计算机提供动力,通过900,000个AI优化计算核心提供125petaflops的峰值AI性能。一颗惊人的芯片,约等于62颗H100CerebrasSystems表示,这款新器件使用台积电的5nm工艺打造,包含4万亿个晶体管;90万个AI核心;44GB片上SRAM;;外部存储器为1.5TB、12TB或1.2PB;峰值性能为125FP16PetaFLOPS。Ceberas的WSE-3将用于训练一些业界最大的人工智能模型,能训练多达24万亿个参数的AI模型;其打造的集群规模高达2048个CS-3系统。值得一提的是,当Cerebras提到内存时,他们谈论的更多是SRAM,而不是片外HBM3E或DDR5。内存与核心一起分布,目的是使数据和计算尽可能接近。为了展示这颗新芯片的规模,Cerebras还将其与英伟达的H100进行了对比。除了将这款巨型芯片推向市场之外,Cerebras取得成功的原因之一是它所做的事情与NVIDIA不同。NVIDIA、AMD、英特尔等公司采用大型台积电晶圆并将其切成更小的部分来制造芯片,而Cerebras将晶圆保留在一起。在当今的集群中,可能有数以万计的GPU或AI加速器来处理一个问题,将芯片数量减少50倍以上可以降低互连和网络成本以及功耗。在具有Infiniband、以太网、PCIe和NVLink交换机的NVIDIAGPU集群中,大量的电力和成本花费在重新链接芯片上。Cerebras通过将整个芯片保持在一起来解决这个问题。凭借WSE-3,Cerebras可以继续生产世界上最大的单芯片。它呈正方形,边长为21.5厘米,几乎使用整个300毫米硅片来制造一个芯片。你可以在WSE芯片的相继推出中看到摩尔定律的作用。第一个于2019年首次亮相,采用台积电的16纳米技术制造。对于2021年推出的WSE-2,Cerebras转而采用台积电的7纳米工艺。WSE-3采用这家代工巨头的5纳米技术制造。自第一个巨型芯片问世以来,晶体管的数量增加了两倍多。与此同时,它们的用途也发生了变化。例如,芯片上的人工智能核心数量已显着趋于平稳,内存量和内部带宽也是如此。尽管如此,每秒浮点运算(flops)方面的性能改进已经超过了所有其他指标。需要注意的一点是,Cerebras使用片上内存,而不是NVIDIA的封装内存,因此我们不会以H100上的80GBHBM3为例。最新的Cerebras软件框架为PyTorch2.0和最新的AI模型和技术(如多模态模型、视觉转换器、专家混合和扩散)提供原生支持。Cerebras仍然是唯一为动态和非结构化稀疏性提供本机硬件加速的平台,将训练速度提高了8倍。您可能已经看到Cerebras表示其平台比NVIDIA的平台更易于使用。造成这种情况的一个重要原因是Cerebras存储权重和激活的方式,并且它不必扩展到系统中的多个GPU,然后扩展到集群中的多个GPU服务器。除了代码更改很容易之外,Cerebras表示它的训练速度比MetaGPU集群更快。当然,目前这似乎是理论上的CerebrasCS-3集群,因为我们没有听说有任何2048个CS-3集群启动并运行,而Meta已经有了AIGPU集群。总体而言,这里发生了很多事情,但我们知道的一件事是,如今越来越多的人使用基于NVIDIA的集群。CerebrasSystems进一步指出,由于每个组件都针对AI工作进行了优化,CS-3比任何其他系统都能以更小的空间和更低的功耗提供更高的计算性能。虽然GPU功耗逐代翻倍,但CS-3的性能翻倍,功耗却保持不变。CS-3具有卓越的易用性,与适用于大模型的GPU相比,CS-3需要的代码减少97%,并且能够在纯数据并行模式下训练从1B到24T参数的模型。GPT-3大小的模型的标准实现在Cerebras上只需要565行代码——这同样也是行业记录。一个庞大的系统,冷却超乎想象CerebrasCS-3是第三代WaferScale系统。其顶部具有MTP/MPO光纤连接,以及用于冷却的电源、风扇和冗余泵。CerebrasSystems在新闻稿中指出,如上所述,CS-3拥有高达1.2PB的巨大内存系统,旨在训练比GPT-4和Gemini大10倍的下一代前沿模型。24万亿参数模型可以存储在单个逻辑内存空间中,无需分区或重构,从而极大地简化了训练工作流程并提高了开发人员的工作效率。在CS-3上训练一万亿参数模型就像在GPU上训练十亿参数模型一样简单。CS-3专为满足企业和超大规模需求而打造。紧凑的四系统配置可以在一天内微调70B模型,而使用2048个系统进行全面调整,Llama70B可以在一天内从头开始训练——这对于生成AI来说是前所未有的壮举。Cerebras需要为巨型芯片提供电力、数据和冷却,同时还要管理相对较大区域的热膨胀等问题。这是该公司的另一项重大工程胜利。芯片内部采用液体冷却,热量可以通过风扇或设施水排出。该系统及其新芯片在相同的功耗和价格下实现了大约2倍的性能飞跃。从第一代的16纳米到如今的5纳米,Cerebras从每个工艺步骤中都获得了巨大的优势。与具有八个NVIDIAH100GPU以及内部NVSwitch和PCIe交换机的NVIDIADGXH100系统相比,它只是一个更大的构建块。这是带有Supermicro1U服务器的CS-3。这是另一个使用Supermciro1U服务器拍摄的Cerebras集群。Cerebras通常使用AMDEPYC来获得更高的核心数量,这可能是因为Cerebras团队的很多成员来自被AMD收购的SeaMicro。我们在这次迭代中注意到的一点是,Cerebras也有HPE服务器的解决方案。这有点奇怪,因为一般来说,SupermicroBigTwin比HPE的2U4节点产品领先一步。看待CerebrasCS-2/CS-3的一种方式是,它们是巨大的计算机器,但许多数据预处理、集群级任务等都发生在传统的x86计算上,以提供优化的人工智能芯片。由于这是一个液冷数据中心,因此风冷HPE服务器配备了来自Legrand子品牌ColdLogik的后门热交换器设置。这是Cerebras如何利用液冷设施的一个很好的例子,但它不必为每个服务器节点配备冷板。这一代的一大特点是更大的集群,多达2048个CS-3,可实现高达256exaFLOPs的AI计算。12PB内存是一款高端超大规模SKU,专为快速训练GPT-5尺寸模型而设计。Cerebras还可以缩小到类似于单个CS-2的规模,并支持服务器和网络。部分内存不仅是片上内存(44GB),还包括支持服务器中的内存。因此,Cerebras集群可以训练比以前更大的模型。关于整个系统,在SC22的时候,该公司就曾基于CerebrasCS-2的系统展示了看起来像一堆金属的东西,其中有一些印刷电路板伸出来。该公司称其为发动机组(EngineBlock)。在Cerebras看来,这是一项巨大的工程壮举。弄清楚如何封装、供电和冷却大型芯片是一个关键的工程挑战。让代工厂制造特殊的晶圆是一回事,让晶圆开机、不过热并做有用的工作是另一回事。这是另一边的样子。当我们谈论由于密度而必须转向液体冷却的服务器时,我们谈论的是2kW/U服务器或可能具有8x800W或8x1kW部件的加速器托盘。对于WSE/WSE-2,所有电力和冷却都需要传输到单个大晶圆上,这意味着即使是不同材料的热膨胀率等因素也很重要。另一个含义是,实际上该组件上的所有部件都采用液冷方式。最上面一排木板非常密集。展位上的Cerebras代表告诉我,这些是电源,这是有道理的,因为我们看到它们的连接器密度相对较低。CerebrasCondorGalaxy的更新在去年七月,Cerebras宣布其CS-2系统取得重大胜利。它拥有一台价值1亿美元的人工智能超级计算机,正在与阿布扎比的G42一起使用。这里的关键是,这不仅仅是一个IT合作伙伴,也是一个客户。当前的第一阶段有32个CS-2和超过550个AMDEPYC7003“Milan”CPU(注:Cerebras首席执行官Andrew...PC版:https://www.cnbeta.com.tw/articles/soft/1423657.htm手机版:https://m.cnbeta.com.tw/view/1423657.htm
在Telegram中查看相关推荐
🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人