世界第一AI芯片“WSE-3”升级4万亿晶体管、90万核心

世界第一AI芯片“WSE-3”升级4万亿晶体管、90万核心2021年的第二代WSE-2升级台积电7nm工艺,面积不变还是46225平方毫米,晶体管增至2.6万亿个,核心数增至85万个,缓存扩至40GB,内存带宽20PB/s,互连带宽220Pb/s。如今的第三代WSE-3再次升级为台积电5nm工艺,面积没说但应该差不多,毕竟需要一块晶圆才能造出一颗芯片,不可能再大太多了。晶体管数量继续增加达到惊人的4万亿个,AI核心数量进一步增加到90万个,缓存容量达到44GB,外部搭配内存容量可选1.5TB、12TB、1200TB。乍一看,核心数量、缓存容量增加的不多,但性能实现了飞跃,峰值AI算力高达125PFlops,也就是每秒12.5亿亿次浮点计算,堪比顶级超算。它可以训练相当于GPT-4、Gemini十几倍的下一代AI大模型,能在单一逻辑内存空间内存储24万亿参数,无需分区或者重构。用它来训练1万亿参数大模型的速度,相当于用GPU训练10亿参数。四颗并联,它能在一天之内完成700亿参数的调教,而且支持最多2048路互连,一天就可以完成Llama700亿参数的训练。WSE-3的具体功耗、价格没公布,根据上代的情况看应该在200多万美元。...PC版:https://www.cnbeta.com.tw/articles/soft/1423559.htm手机版:https://m.cnbeta.com.tw/view/1423559.htm

相关推荐

封面图片

【世界第一AI芯片WSE-3面世,一天就可以完成Llama 700亿参数的训练】

【世界第一AI芯片WSE-3面世,一天就可以完成Llama700亿参数的训练】#美国加州半导体公司CerebrasSystems发布第三代晶圆级AI加速芯片“WSE-3”(WaferScaleEngine3),规格参数更加疯狂,而且在功耗、价格不变的前提下性能翻了一番。WSE-3再次升级为台积电5nm工艺,面积没说但应该差不多,然而,晶体管数量继续增加达到惊人的4万亿个,AI核心数量进一步增加到90万个,缓存容量达到44GB,外部搭配内存容量可选1.5TB、12TB、1200TB。核心数量、缓存容量增加的不多,但性能实现了飞跃,峰值AI算力高达125PFlops,也就是每秒12.5亿亿次浮点计算,堪比顶级超算。它可以训练相当于GPT-4、Gemini十几倍的下一代AI大模型,能在单一逻辑内存空间内存储24万亿参数,无需分区或者重构。四颗并联,它能在一天之内完成700亿参数的调教,而且支持最多2048路互连,一天就可以完成Llama700亿参数的训练。WSE-3的具体功耗、价格没公布,根据上代的情况看应该在200多万美元。

封面图片

Cerebras Systems 发布第三代晶圆级 AI 加速芯片 “WSE-3”(Wafer Scale Engine 3),

CerebrasSystems发布第三代晶圆级AI加速芯片“WSE-3”(WaferScaleEngine3),再次升级为台积电5nm工艺,面积没说但应该差不多,然而,晶体管数量继续增加达到惊人的4万亿个,AI核心数量进一步增加到90万个,缓存容量达到44GB,外部搭配内存容量可选1.5TB、12TB、1200TB。核心数量、缓存容量增加的不多,但性能实现了飞跃,峰值AI算力高达125PFlops,也就是每秒12.5亿亿次浮点计算,堪比顶级超算。它可以训练相当于GPT-4、Gemini十几倍的下一代AI大模型,能在单一逻辑内存空间内存储24万亿参数,无需分区或者重构。四颗并联,它能在一天之内完成700亿参数的调教,而且支持最多2048路互连,一天就可以完成Llama700亿参数的训练。WSE-3的具体功耗、价格没公布,根据上代的情况看应该在200多万美元。注:该公司2019年的第一代WSE-1基于台积电16nm工艺,面积46225平方毫米,晶体管1.2万亿个,拥有40万个AI核心、18GBSRAM缓存,支持9PB/s内存带宽、100Pb/s互连带宽,功耗高达15千瓦。2021年的第二代WSE-2升级台积电7nm工艺,面积不变还是46225平方毫米,晶体管增至2.6万亿个,核心数增至85万个,缓存扩至40GB,内存带宽20PB/s,互连带宽220Pb/s。

封面图片

最强AI芯片WSE-3发布:4万亿个晶体管,90万核,125 PetaFLOPS算力

最强AI芯片WSE-3发布:4万亿个晶体管,90万核,125PetaFLOPS算力基于5nm的4万亿晶体管WSE-3专为训练业界最大的AI模型而构建,为CerebrasCS-3AI超级计算机提供动力,通过900,000个AI优化计算核心提供125petaflops的峰值AI性能。一颗惊人的芯片,约等于62颗H100CerebrasSystems表示,这款新器件使用台积电的5nm工艺打造,包含4万亿个晶体管;90万个AI核心;44GB片上SRAM;;外部存储器为1.5TB、12TB或1.2PB;峰值性能为125FP16PetaFLOPS。Ceberas的WSE-3将用于训练一些业界最大的人工智能模型,能训练多达24万亿个参数的AI模型;其打造的集群规模高达2048个CS-3系统。值得一提的是,当Cerebras提到内存时,他们谈论的更多是SRAM,而不是片外HBM3E或DDR5。内存与核心一起分布,目的是使数据和计算尽可能接近。为了展示这颗新芯片的规模,Cerebras还将其与英伟达的H100进行了对比。除了将这款巨型芯片推向市场之外,Cerebras取得成功的原因之一是它所做的事情与NVIDIA不同。NVIDIA、AMD、英特尔等公司采用大型台积电晶圆并将其切成更小的部分来制造芯片,而Cerebras将晶圆保留在一起。在当今的集群中,可能有数以万计的GPU或AI加速器来处理一个问题,将芯片数量减少50倍以上可以降低互连和网络成本以及功耗。在具有Infiniband、以太网、PCIe和NVLink交换机的NVIDIAGPU集群中,大量的电力和成本花费在重新链接芯片上。Cerebras通过将整个芯片保持在一起来解决这个问题。凭借WSE-3,Cerebras可以继续生产世界上最大的单芯片。它呈正方形,边长为21.5厘米,几乎使用整个300毫米硅片来制造一个芯片。你可以在WSE芯片的相继推出中看到摩尔定律的作用。第一个于2019年首次亮相,采用台积电的16纳米技术制造。对于2021年推出的WSE-2,Cerebras转而采用台积电的7纳米工艺。WSE-3采用这家代工巨头的5纳米技术制造。自第一个巨型芯片问世以来,晶体管的数量增加了两倍多。与此同时,它们的用途也发生了变化。例如,芯片上的人工智能核心数量已显着趋于平稳,内存量和内部带宽也是如此。尽管如此,每秒浮点运算(flops)方面的性能改进已经超过了所有其他指标。需要注意的一点是,Cerebras使用片上内存,而不是NVIDIA的封装内存,因此我们不会以H100上的80GBHBM3为例。最新的Cerebras软件框架为PyTorch2.0和最新的AI模型和技术(如多模态模型、视觉转换器、专家混合和扩散)提供原生支持。Cerebras仍然是唯一为动态和非结构化稀疏性提供本机硬件加速的平台,将训练速度提高了8倍。您可能已经看到Cerebras表示其平台比NVIDIA的平台更易于使用。造成这种情况的一个重要原因是Cerebras存储权重和激活的方式,并且它不必扩展到系统中的多个GPU,然后扩展到集群中的多个GPU服务器。除了代码更改很容易之外,Cerebras表示它的训练速度比MetaGPU集群更快。当然,目前这似乎是理论上的CerebrasCS-3集群,因为我们没有听说有任何2048个CS-3集群启动并运行,而Meta已经有了AIGPU集群。总体而言,这里发生了很多事情,但我们知道的一件事是,如今越来越多的人使用基于NVIDIA的集群。CerebrasSystems进一步指出,由于每个组件都针对AI工作进行了优化,CS-3比任何其他系统都能以更小的空间和更低的功耗提供更高的计算性能。虽然GPU功耗逐代翻倍,但CS-3的性能翻倍,功耗却保持不变。CS-3具有卓越的易用性,与适用于大模型的GPU相比,CS-3需要的代码减少97%,并且能够在纯数据并行模式下训练从1B到24T参数的模型。GPT-3大小的模型的标准实现在Cerebras上只需要565行代码——这同样也是行业记录。一个庞大的系统,冷却超乎想象CerebrasCS-3是第三代WaferScale系统。其顶部具有MTP/MPO光纤连接,以及用于冷却的电源、风扇和冗余泵。CerebrasSystems在新闻稿中指出,如上所述,CS-3拥有高达1.2PB的巨大内存系统,旨在训练比GPT-4和Gemini大10倍的下一代前沿模型。24万亿参数模型可以存储在单个逻辑内存空间中,无需分区或重构,从而极大地简化了训练工作流程并提高了开发人员的工作效率。在CS-3上训练一万亿参数模型就像在GPU上训练十亿参数模型一样简单。CS-3专为满足企业和超大规模需求而打造。紧凑的四系统配置可以在一天内微调70B模型,而使用2048个系统进行全面调整,Llama70B可以在一天内从头开始训练——这对于生成AI来说是前所未有的壮举。Cerebras需要为巨型芯片提供电力、数据和冷却,同时还要管理相对较大区域的热膨胀等问题。这是该公司的另一项重大工程胜利。芯片内部采用液体冷却,热量可以通过风扇或设施水排出。该系统及其新芯片在相同的功耗和价格下实现了大约2倍的性能飞跃。从第一代的16纳米到如今的5纳米,Cerebras从每个工艺步骤中都获得了巨大的优势。与具有八个NVIDIAH100GPU以及内部NVSwitch和PCIe交换机的NVIDIADGXH100系统相比,它只是一个更大的构建块。这是带有Supermicro1U服务器的CS-3。这是另一个使用Supermciro1U服务器拍摄的Cerebras集群。Cerebras通常使用AMDEPYC来获得更高的核心数量,这可能是因为Cerebras团队的很多成员来自被AMD收购的SeaMicro。我们在这次迭代中注意到的一点是,Cerebras也有HPE服务器的解决方案。这有点奇怪,因为一般来说,SupermicroBigTwin比HPE的2U4节点产品领先一步。看待CerebrasCS-2/CS-3的一种方式是,它们是巨大的计算机器,但许多数据预处理、集群级任务等都发生在传统的x86计算上,以提供优化的人工智能芯片。由于这是一个液冷数据中心,因此风冷HPE服务器配备了来自Legrand子品牌ColdLogik的后门热交换器设置。这是Cerebras如何利用液冷设施的一个很好的例子,但它不必为每个服务器节点配备冷板。这一代的一大特点是更大的集群,多达2048个CS-3,可实现高达256exaFLOPs的AI计算。12PB内存是一款高端超大规模SKU,专为快速训练GPT-5尺寸模型而设计。Cerebras还可以缩小到类似于单个CS-2的规模,并支持服务器和网络。部分内存不仅是片上内存(44GB),还包括支持服务器中的内存。因此,Cerebras集群可以训练比以前更大的模型。关于整个系统,在SC22的时候,该公司就曾基于CerebrasCS-2的系统展示了看起来像一堆金属的东西,其中有一些印刷电路板伸出来。该公司称其为发动机组(EngineBlock)。在Cerebras看来,这是一项巨大的工程壮举。弄清楚如何封装、供电和冷却大型芯片是一个关键的工程挑战。让代工厂制造特殊的晶圆是一回事,让晶圆开机、不过热并做有用的工作是另一回事。这是另一边的样子。当我们谈论由于密度而必须转向液体冷却的服务器时,我们谈论的是2kW/U服务器或可能具有8x800W或8x1kW部件的加速器托盘。对于WSE/WSE-2,所有电力和冷却都需要传输到单个大晶圆上,这意味着即使是不同材料的热膨胀率等因素也很重要。另一个含义是,实际上该组件上的所有部件都采用液冷方式。最上面一排木板非常密集。展位上的Cerebras代表告诉我,这些是电源,这是有道理的,因为我们看到它们的连接器密度相对较低。CerebrasCondorGalaxy的更新在去年七月,Cerebras宣布其CS-2系统取得重大胜利。它拥有一台价值1亿美元的人工智能超级计算机,正在与阿布扎比的G42一起使用。这里的关键是,这不仅仅是一个IT合作伙伴,也是一个客户。当前的第一阶段有32个CS-2和超过550个AMDEPYC7003“Milan”CPU(注:Cerebras首席执行官Andrew...PC版:https://www.cnbeta.com.tw/articles/soft/1423657.htm手机版:https://m.cnbeta.com.tw/view/1423657.htm

封面图片

美国加州半导体公司CerebrasSystems发布第三代晶圆级AI加速芯片“WSE-3”(WaferScaleEngine3)

美国加州半导体公司CerebrasSystems发布第三代晶圆级AI加速芯片“WSE-3”(WaferScaleEngine3),规格参数更加疯狂,而且在功耗、价格不变的前提下性能翻了一番。WSE-3再次升级为台积电5nm工艺,面积没说但应该差不多,然而,晶体管数量继续增加达到惊人的4万亿个,AI核心数量进一步增加到90万个,缓存容量达到44GB,外部搭配内存容量可选1.5TB、12TB、1200TB。核心数量、缓存容量增加的不多,但性能实现了飞跃,峰值AI算力高达125PFlops,也就是每秒12.5亿亿次浮点计算,堪比顶级超算。它可以训练相当于GPT-4、Gemini十几倍的下一代AI大模型,能在单一逻辑内存空间内存储24万亿参数,无需分区或者重构。四颗并联,它能在一天之内完成700亿参数的调教,而且支持最多2048路互连,一天就可以完成Llama700亿参数的训练。WSE-3的具体功耗、价格没公布,根据上代的情况看应该在200多万美元。

封面图片

国内第一算力通用GPU芯片集成770亿晶体管 一次点亮成功

国内第一算力通用GPU芯片集成770亿晶体管一次点亮成功8月9日下午,国内科技创新企业壁仞科技(Birentech)正式发布BR100系列通用计算GPU,号称算力国内第一,多向指标媲美设置超越国际旗舰产品。根据介绍,壁仞科技BR100芯片采用台积电7nm工艺制造、2.5DCoWoS封装技术、Chiplet小芯片技术,集成了多达770亿晶体管,规模上堪比人类大脑神经细胞,已经非常接近800亿个晶体管的NVIDIAGH100计算核心。性能方面,INT8整数计算2048Tops(每秒2048万亿次)、BF16浮点计算1024TFlops(每秒1024万亿次)、TF32+浮点计算512TFlops(每秒512万亿次)、FP32双精度浮点256TFlops(每秒256万亿次)。其他方面,它还集成了超过300MB片上缓存、64GBHBM2E片上内存,外部IO带宽达2.3TB/s,支持64路编码、512路解码,还支持PCIe5.0、CXL互连协议,一次全部给到位。更难得的是,壁仞科技创始人、董事长、CEO张文在发布会上披露,BR100系列芯片一次就点亮成功了!我们知道,芯片设计是一个漫长复杂的过程,最为关键的就是流片,一旦失败就要推倒重来,即便是Intel、NVIDIA、AMD这些顶级巨头也不能保证一次完成,壁仞科技如此庞大规模、顶级算力的设计一次就搞定,属实难得。PC版:https://www.cnbeta.com/articles/soft/1302535.htm手机版:https://m.cnbeta.com/view/1302535.htm

封面图片

AMD正研发千亿晶体管芯片 AI是未来10年最重要的事

AMD正研发千亿晶体管芯片AI是未来10年最重要的事在日前的Adobe峰会上,AMDCEO苏姿丰也谈到了对AI的看法,她认为AI是未来10年最重要的事,将帮助人类提高生产力,对AMD来说也一样重要,可以提高企业生产力。苏姿丰强调AI目前还处于早期阶段,未来需要提高50%甚至80%的生产力,还需要很多工作要做。AI提升还需要大量的算力,苏姿丰称AMD正在制造超过1000亿晶体管的芯片,从无到有需要3年时间,这时候AI才可以成为一个重要的工具,帮助开发人员缩短一半的工作时间,简化开发过程。AMD所说的这个1000亿晶体管的大杀器实际上就是前不久发布的InstinctMI300,这是新一代超算/AI加速卡,首次整合了CPU及GPU两种芯片。MI300采用多芯片、多IP整合封装设计,5nm先进制造工艺,晶体管数量多达疯狂的1460亿个!它同时集成CDNA3架构的GPU单元(具体核心数量未公开)、Zen4架构的24个CPU核心、大容量的InfinityCache无限缓存,还有8192-bit位宽、128GB容量的HBM3高带宽内存。...PC版:https://www.cnbeta.com.tw/articles/soft/1351361.htm手机版:https://m.cnbeta.com.tw/view/1351361.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人