最强AI芯片WSE-3发布:4万亿个晶体管,90万核,125 PetaFLOPS算力

最强AI芯片WSE-3发布:4万亿个晶体管,90万核,125PetaFLOPS算力基于5nm的4万亿晶体管WSE-3专为训练业界最大的AI模型而构建,为CerebrasCS-3AI超级计算机提供动力,通过900,000个AI优化计算核心提供125petaflops的峰值AI性能。一颗惊人的芯片,约等于62颗H100CerebrasSystems表示,这款新器件使用台积电的5nm工艺打造,包含4万亿个晶体管;90万个AI核心;44GB片上SRAM;;外部存储器为1.5TB、12TB或1.2PB;峰值性能为125FP16PetaFLOPS。Ceberas的WSE-3将用于训练一些业界最大的人工智能模型,能训练多达24万亿个参数的AI模型;其打造的集群规模高达2048个CS-3系统。值得一提的是,当Cerebras提到内存时,他们谈论的更多是SRAM,而不是片外HBM3E或DDR5。内存与核心一起分布,目的是使数据和计算尽可能接近。为了展示这颗新芯片的规模,Cerebras还将其与英伟达的H100进行了对比。除了将这款巨型芯片推向市场之外,Cerebras取得成功的原因之一是它所做的事情与NVIDIA不同。NVIDIA、AMD、英特尔等公司采用大型台积电晶圆并将其切成更小的部分来制造芯片,而Cerebras将晶圆保留在一起。在当今的集群中,可能有数以万计的GPU或AI加速器来处理一个问题,将芯片数量减少50倍以上可以降低互连和网络成本以及功耗。在具有Infiniband、以太网、PCIe和NVLink交换机的NVIDIAGPU集群中,大量的电力和成本花费在重新链接芯片上。Cerebras通过将整个芯片保持在一起来解决这个问题。凭借WSE-3,Cerebras可以继续生产世界上最大的单芯片。它呈正方形,边长为21.5厘米,几乎使用整个300毫米硅片来制造一个芯片。你可以在WSE芯片的相继推出中看到摩尔定律的作用。第一个于2019年首次亮相,采用台积电的16纳米技术制造。对于2021年推出的WSE-2,Cerebras转而采用台积电的7纳米工艺。WSE-3采用这家代工巨头的5纳米技术制造。自第一个巨型芯片问世以来,晶体管的数量增加了两倍多。与此同时,它们的用途也发生了变化。例如,芯片上的人工智能核心数量已显着趋于平稳,内存量和内部带宽也是如此。尽管如此,每秒浮点运算(flops)方面的性能改进已经超过了所有其他指标。需要注意的一点是,Cerebras使用片上内存,而不是NVIDIA的封装内存,因此我们不会以H100上的80GBHBM3为例。最新的Cerebras软件框架为PyTorch2.0和最新的AI模型和技术(如多模态模型、视觉转换器、专家混合和扩散)提供原生支持。Cerebras仍然是唯一为动态和非结构化稀疏性提供本机硬件加速的平台,将训练速度提高了8倍。您可能已经看到Cerebras表示其平台比NVIDIA的平台更易于使用。造成这种情况的一个重要原因是Cerebras存储权重和激活的方式,并且它不必扩展到系统中的多个GPU,然后扩展到集群中的多个GPU服务器。除了代码更改很容易之外,Cerebras表示它的训练速度比MetaGPU集群更快。当然,目前这似乎是理论上的CerebrasCS-3集群,因为我们没有听说有任何2048个CS-3集群启动并运行,而Meta已经有了AIGPU集群。总体而言,这里发生了很多事情,但我们知道的一件事是,如今越来越多的人使用基于NVIDIA的集群。CerebrasSystems进一步指出,由于每个组件都针对AI工作进行了优化,CS-3比任何其他系统都能以更小的空间和更低的功耗提供更高的计算性能。虽然GPU功耗逐代翻倍,但CS-3的性能翻倍,功耗却保持不变。CS-3具有卓越的易用性,与适用于大模型的GPU相比,CS-3需要的代码减少97%,并且能够在纯数据并行模式下训练从1B到24T参数的模型。GPT-3大小的模型的标准实现在Cerebras上只需要565行代码——这同样也是行业记录。一个庞大的系统,冷却超乎想象CerebrasCS-3是第三代WaferScale系统。其顶部具有MTP/MPO光纤连接,以及用于冷却的电源、风扇和冗余泵。CerebrasSystems在新闻稿中指出,如上所述,CS-3拥有高达1.2PB的巨大内存系统,旨在训练比GPT-4和Gemini大10倍的下一代前沿模型。24万亿参数模型可以存储在单个逻辑内存空间中,无需分区或重构,从而极大地简化了训练工作流程并提高了开发人员的工作效率。在CS-3上训练一万亿参数模型就像在GPU上训练十亿参数模型一样简单。CS-3专为满足企业和超大规模需求而打造。紧凑的四系统配置可以在一天内微调70B模型,而使用2048个系统进行全面调整,Llama70B可以在一天内从头开始训练——这对于生成AI来说是前所未有的壮举。Cerebras需要为巨型芯片提供电力、数据和冷却,同时还要管理相对较大区域的热膨胀等问题。这是该公司的另一项重大工程胜利。芯片内部采用液体冷却,热量可以通过风扇或设施水排出。该系统及其新芯片在相同的功耗和价格下实现了大约2倍的性能飞跃。从第一代的16纳米到如今的5纳米,Cerebras从每个工艺步骤中都获得了巨大的优势。与具有八个NVIDIAH100GPU以及内部NVSwitch和PCIe交换机的NVIDIADGXH100系统相比,它只是一个更大的构建块。这是带有Supermicro1U服务器的CS-3。这是另一个使用Supermciro1U服务器拍摄的Cerebras集群。Cerebras通常使用AMDEPYC来获得更高的核心数量,这可能是因为Cerebras团队的很多成员来自被AMD收购的SeaMicro。我们在这次迭代中注意到的一点是,Cerebras也有HPE服务器的解决方案。这有点奇怪,因为一般来说,SupermicroBigTwin比HPE的2U4节点产品领先一步。看待CerebrasCS-2/CS-3的一种方式是,它们是巨大的计算机器,但许多数据预处理、集群级任务等都发生在传统的x86计算上,以提供优化的人工智能芯片。由于这是一个液冷数据中心,因此风冷HPE服务器配备了来自Legrand子品牌ColdLogik的后门热交换器设置。这是Cerebras如何利用液冷设施的一个很好的例子,但它不必为每个服务器节点配备冷板。这一代的一大特点是更大的集群,多达2048个CS-3,可实现高达256exaFLOPs的AI计算。12PB内存是一款高端超大规模SKU,专为快速训练GPT-5尺寸模型而设计。Cerebras还可以缩小到类似于单个CS-2的规模,并支持服务器和网络。部分内存不仅是片上内存(44GB),还包括支持服务器中的内存。因此,Cerebras集群可以训练比以前更大的模型。关于整个系统,在SC22的时候,该公司就曾基于CerebrasCS-2的系统展示了看起来像一堆金属的东西,其中有一些印刷电路板伸出来。该公司称其为发动机组(EngineBlock)。在Cerebras看来,这是一项巨大的工程壮举。弄清楚如何封装、供电和冷却大型芯片是一个关键的工程挑战。让代工厂制造特殊的晶圆是一回事,让晶圆开机、不过热并做有用的工作是另一回事。这是另一边的样子。当我们谈论由于密度而必须转向液体冷却的服务器时,我们谈论的是2kW/U服务器或可能具有8x800W或8x1kW部件的加速器托盘。对于WSE/WSE-2,所有电力和冷却都需要传输到单个大晶圆上,这意味着即使是不同材料的热膨胀率等因素也很重要。另一个含义是,实际上该组件上的所有部件都采用液冷方式。最上面一排木板非常密集。展位上的Cerebras代表告诉我,这些是电源,这是有道理的,因为我们看到它们的连接器密度相对较低。CerebrasCondorGalaxy的更新在去年七月,Cerebras宣布其CS-2系统取得重大胜利。它拥有一台价值1亿美元的人工智能超级计算机,正在与阿布扎比的G42一起使用。这里的关键是,这不仅仅是一个IT合作伙伴,也是一个客户。当前的第一阶段有32个CS-2和超过550个AMDEPYC7003“Milan”CPU(注:Cerebras首席执行官Andrew...PC版:https://www.cnbeta.com.tw/articles/soft/1423657.htm手机版:https://m.cnbeta.com.tw/view/1423657.htm

相关推荐

封面图片

世界第一AI芯片“WSE-3”升级4万亿晶体管、90万核心

世界第一AI芯片“WSE-3”升级4万亿晶体管、90万核心2021年的第二代WSE-2升级台积电7nm工艺,面积不变还是46225平方毫米,晶体管增至2.6万亿个,核心数增至85万个,缓存扩至40GB,内存带宽20PB/s,互连带宽220Pb/s。如今的第三代WSE-3再次升级为台积电5nm工艺,面积没说但应该差不多,毕竟需要一块晶圆才能造出一颗芯片,不可能再大太多了。晶体管数量继续增加达到惊人的4万亿个,AI核心数量进一步增加到90万个,缓存容量达到44GB,外部搭配内存容量可选1.5TB、12TB、1200TB。乍一看,核心数量、缓存容量增加的不多,但性能实现了飞跃,峰值AI算力高达125PFlops,也就是每秒12.5亿亿次浮点计算,堪比顶级超算。它可以训练相当于GPT-4、Gemini十几倍的下一代AI大模型,能在单一逻辑内存空间内存储24万亿参数,无需分区或者重构。用它来训练1万亿参数大模型的速度,相当于用GPU训练10亿参数。四颗并联,它能在一天之内完成700亿参数的调教,而且支持最多2048路互连,一天就可以完成Llama700亿参数的训练。WSE-3的具体功耗、价格没公布,根据上代的情况看应该在200多万美元。...PC版:https://www.cnbeta.com.tw/articles/soft/1423559.htm手机版:https://m.cnbeta.com.tw/view/1423559.htm

封面图片

一万亿晶体管GPU将到来 台积电董事长撰文解读

一万亿晶体管GPU将到来台积电董事长撰文解读值得一提的是,本文署名作者MARKLIU(刘德音)和H.-S.PHILIPWONG,其中刘德音是台积电董事长。H.-SPhilipWong则是斯坦福大学工程学院教授、台积电首席科学家。在这里,我们将此文翻译出来,以飨读者。以下为文章正文:1997年,IBM深蓝超级计算机击败了国际象棋世界冠军GarryKasparov。这是超级计算机技术的突破性演示,也是对高性能计算有一天可能超越人类智能水平的首次展示。在接下来的10年里,我们开始将人工智能用于许多实际任务,例如面部识别、语言翻译以及推荐电影和商品。再过十五年,人工智能已经发展到可以“合成知识”(synthesizeknowledge)的地步。生成式人工智能,如ChatGPT和StableDiffusion,可以创作诗歌、创作艺术品、诊断疾病、编写总结报告和计算机代码,甚至可以设计与人类制造的集成电路相媲美的集成电路。人工智能成为所有人类事业的数字助手,面临着巨大的机遇。ChatGPT是人工智能如何使高性能计算的使用民主化、为社会中的每个人带来好处的一个很好的例子。所有这些奇妙的人工智能应用都归功于三个因素:高效机器学习算法的创新、训练神经网络的大量数据的可用性,以及通过半导体技术的进步实现节能计算的进步。尽管它无处不在,但对生成式人工智能革命的最后贡献却没有得到应有的认可。在过去的三十年里,人工智能的重大里程碑都是由当时领先的半导体技术实现的,没有它就不可能实现。DeepBlue采用0.6微米和0.35微米节点芯片制造技术的混合实现;赢得ImageNet竞赛的深度神经网络并开启了当前机器学习时代的设备使了用40纳米技术打造的芯片;AlphaGo使用28纳米技术征服了围棋游戏;ChatGPT的初始版本是在采用5纳米技术构建的计算机上进行训练的。;ChatGPT的最新版本由使用更先进的4纳米技术的服务器提供支持。所涉及的计算机系统的每一层,从软件和算法到架构、电路设计和设备技术,都充当人工智能性能的乘数。但可以公平地说,基础晶体管器件技术推动了上面各层的进步。如果人工智能革命要以目前的速度继续下去,它将需要半导体行业做出更多贡献。十年内,它将需要一个1万亿晶体管的GPU,也就是说,GPU的设备数量是当今典型设备数量的10倍。AI模型大小的不断增长,让人工智能训练所需的计算和内存访问在过去五年中增加了几个数量级。例如,训练GPT-3需要相当于一整天每秒超过50亿次的计算操作(即5,000petaflops/天),以及3万亿字节(3TB)的内存容量。新的生成式人工智能应用程序所需的计算能力和内存访问都在持续快速增长。我们现在需要回答一个紧迫的问题:半导体技术如何跟上步伐?从集成器件到集成小芯片自集成电路发明以来,半导体技术一直致力于缩小特征尺寸,以便我们可以将更多晶体管塞进缩略图大小的芯片中。如今,集成度已经上升了一个层次;我们正在超越2D缩放进入3D系统集成。我们现在正在将许多芯片组合成一个紧密集成、大规模互连的系统。这是半导体技术集成的范式转变。在人工智能时代,系统的能力与系统中集成的晶体管数量成正比。主要限制之一是光刻芯片制造工具被设计用于制造不超过约800平方毫米的IC,即所谓的光罩限制(reticlelimit)。但我们现在可以将集成系统的尺寸扩展到光刻掩模版极限之外。通过将多个芯片连接到更大的中介层(一块内置互连的硅片)上,我们可以集成一个系统,该系统包含的设备数量比单个芯片上可能包含的设备数量要多得多。例如,台积电的CoWoS(chip-on-wafer-on-substrate)技术就可以容纳多达六个掩模版区域的计算芯片,以及十几个高带宽内存(HBM)芯片。CoWoS是台积电的硅晶圆上芯片先进封装技术,目前已在产品中得到应用。示例包括NVIDIAAmpere和HopperGPU。当中每一个都由一个GPU芯片和六个高带宽内存立方体组成,全部位于硅中介层上。计算GPU芯片的尺寸大约是芯片制造工具当前允许的尺寸。Ampere有540亿个晶体管,Hopper有800亿个。从7纳米技术到更密集的4纳米技术的转变使得在基本相同的面积上封装的晶体管数量增加了50%。Ampere和Hopper是当今大型语言模型(LLM)训练的主力。训练ChatGPT需要数万个这样的处理器。HBM是对AI日益重要的另一项关键半导体技术的一个例子:通过将芯片堆叠在一起来集成系统的能力,我们在台积电称之为SoIC(system-on-integrated-chips)。HBM由控制逻辑IC顶部的一堆垂直互连的DRAM芯片组成。它使用称为硅通孔(TSV)的垂直互连来让信号通过每个芯片和焊料凸点以形成存储芯片之间的连接。如今,高性能GPU广泛使用HBM。展望未来,3DSoIC技术可以为当今的传统HBM技术提供“无凸块替代方案”(bumplessalternative),在堆叠芯片之间提供更密集的垂直互连。最近的进展表明,HBM测试结构采用混合键合技术堆叠了12层芯片,这种铜对铜连接的密度高于焊料凸块所能提供的密度。该存储系统在低温下粘合在较大的基础逻辑芯片之上,总厚度仅为600µm。对于由大量运行大型人工智能模型的芯片组成的高性能计算系统,高速有线通信可能会很快限制计算速度。如今,光学互连已被用于连接数据中心的服务器机架。我们很快就会需要基于硅光子学的光学接口,并与GPU和CPU封装在一起。这将允许扩大能源效率和面积效率的带宽,以实现直接的光学GPU到GPU通信,这样数百台服务器就可以充当具有统一内存的单个巨型GPU。由于人工智能应用的需求,硅光子将成为半导体行业最重要的使能技术之一。迈向万亿晶体管GPU如前所述,用于AI训练的典型GPU芯片已经达到了标线区域极限(reticlefieldlimit)。他们的晶体管数量约为1000亿个。晶体管数量增加趋势的持续将需要多个芯片通过2.5D或3D集成互连来执行计算。通过CoWoS或SoIC以及相关的先进封装技术集成多个芯片,可以使每个系统的晶体管总数比压缩到单个芯片中的晶体管总数大得多。如AMDMI300A就是采用这样的技术制造的。AMDMI300A加速处理器单元不仅利用了CoWoS,还利用了台积电的3D技术SoIC。MI300A结合了GPU和CPU内核,旨在处理最大的人工智能工作负载。GPU为AI执行密集的矩阵乘法运算,而CPU控制整个系统的运算,高带宽存储器(HBM)统一为两者服务。采用5纳米技术构建的9个计算芯片堆叠在4个6纳米技术基础芯片之上,这些芯片专用于缓存和I/O流量。基础芯片和HBM位于硅中介层之上。处理器的计算部分由1500亿个晶体管组成。我们预测,十年内,多芯片GPU将拥有超过1万亿个晶体管。我们需要在3D堆栈中将所有这些小芯片连接在一起,但幸运的是,业界已经能够快速缩小垂直互连的间距,从而增加连接密度。而且还有足够的空间容纳更多。我们认为互连密度没有理由不能增长一个数量级,甚至更高。GPU的节能性能趋势那么,所有这些创新的硬件技术如何提高系统的性能呢?如果我们观察一个称为节能性能的指标的稳步改进,我们就可以看到服务器GPU中已经存在的趋势。EEP是系统能源效率和速度(theenergyefficiencyandspeedofasystem)的综合衡量标准。过去15年来,半导体行业的能效性能每两年就提高了三倍左右。我们相信这一趋势将以历史速度持续下去。它将受到多方面创新的推动,包括新材料、器件和集成技术、极紫外(EUV)光刻、电路设计、系统架构设计以及所有这些技术元素的共同优化等。特别是,EEP的增加将通过我们在此讨论的...PC版:https://www.cnbeta.com.tw/articles/soft/1425470.htm手机版:https://m.cnbeta.com.tw/view/1425470.htm

封面图片

GTC 2024硬件一览:史上最强AI芯片GB200发布 高达2080亿晶体管

GTC2024硬件一览:史上最强AI芯片GB200发布高达2080亿晶体管今年的GTC峰会主题完全围绕AI展开,2个小时的时间,老黄又一次带来了AI的变革时刻。当然除了老黄的开幕演讲外,后面还有900多场鼓舞人心的会议在等着你。同时此次GTC大会还吸引了超过200家展商,汇聚了数千名不同行业领域的从业人员一同参与。丰富多彩的技术分享、越见非凡的创新技术,称它是AI的盛会都不为过。想必你也好奇老黄究竟在GTC上带来了什么惊喜吧,别着急,本篇带你一睹GTC峰会上的那些硬件产品。见证AI的变革时刻峰会伊始,我们熟悉的皮衣刀客准时出场。一上来就直奔今天的主题——AI,并表示“加速式计算机的生产力已经到达了一个转折点,生成式AI正在加速发展,而我们需要以一种全新的方式进行计算,才能够进一步提高计算机生产力。”并且还贴心的展示了其自己亲手画出的关于计算机生产力的演变流程,最后一项正是今天的重点!改变形态的BlackwellGPU没错,老黄在GTC宣布推出新一代GPUBlackwell。这里先介绍一下Blackwell架构,此前NVIDIA推出的显卡一般是两种架构,其中游戏显卡例如我们熟悉的RTX40系则是AdaLovelace架构,而面向AI、大数据等应用的专业级显卡则采用Hopper架构。而老黄在大会上则表示“Blackwell不是一个芯片,它是一个平台的名字。”意思是Blackwell架构将同时用于以上两种类型的产品。借助这一架构,NVIDIA将推出涵盖多个应用领域的显卡,即RTX50系显卡也会是这个架构。并且从老黄手上的芯片可以看出,新的BlackwellGPU的体积明显比上代HopperGPU要更大一些。至于这个架构名字的由来,则要追溯到美国科学院首位黑人院士、加州大学伯克利分校首位黑人终身教授戴维·布莱克维尔(DavidBlackwell),它是著名的数学家、统计学家,不过很可惜的是这位教授在2010年因病去世。恐怖的2080亿晶体管言归正传,让我们继续关注此次BlackwellGPU。“我们需要更大的GPU,如果不能更大,就把更多GPU组合在一起,变成更大的虚拟GPU。”老黄在GTC上也确实这么干了。Blackwell架构的首个GPU为B200,由于目前4nm制程工艺已经接近极限,所以NVIDIA也玩起了“拼图”,B200采用台积电的4纳米(4NP)工艺蚀刻而成,由两个芯片通过NVLink5.0组合在一起,以10TB每秒的满血带宽互联,总的晶体管数量更是达到了恐怖的2080亿。第二代Transformer引擎除了芯片形态的变化外,Blackwell还有5大创新,首先就是第二代Transformer引擎。它支持FP4和FP6精度计算。得益于此,BlackwellGPU的FP4与FP6分别是Hopper的5倍与2.5倍。第五代NVLink互连第五代NVLink互连则是将多个BlackwellGPU组合起来的重要工具。它与传统的PCIe交换机不同,NVLink带宽有限,可以在服务器内的GPU之间实现高速直接互连。目前第五代NVLink可每个GPU提供了1.8TB/s双向吞吐量,确保多达576个GPU之间的无缝高速通信。RAS可靠性引擎这个RAS可靠性引擎则是基于AI实现,Blackwell透过专用的可靠性、可用性和可维护性(RAS)引擎,可增加智慧复原能力,及早辨认出可能发生的潜在故障,尽可能缩短停机时间。SecureAI安全AI功能SecureAI负责提供机密运算功能,同时Blackwell也是业界第一款支持EE-I/O的GPU,它可以在不影响性能的前提下,维护你的数据安全,这对于金融、医疗以及AI方面有极大作用。专用解压缩引擎最后一项创新技术则是关于解压缩层面,资料分析和资料库工作流程此前更多是仰赖CPU进行运算。如果放到GPU中进行则可大幅提升端对端分析的效能,加速创造价值,同时降低成本。Blackwell配备了专用的解压缩引擎,使用过程中可以配合内置的GraceCPU实现每秒900GB的双向频宽,并且还能兼顾最新的压缩格式(如LZ4、Snappy和Deflate等)。超级核弹GB200而两个B200GPU与GraceCPU结合就成为今天“火热”的GB200超级芯片。这款超级芯片的性能更加惊人,你以为H100已经很快了?不!GB200更快,过去,在90天内训练一个1.8万亿参数的MoE架构GPT模型,需要8000个Hopper架构GPU。现在,你只要2000个BlackwellGPU就可以完成。官方称,在标准的1750亿参数GPT-3基准测试中,GB200的性能是H100的7倍,提供的训练算力是H100的4倍。不止是性能更快更强,BlackwellGPU还相当节能。还是同样的操作,90天内训练一个1.8万亿参数的MoE架构GPT模型,8000个HopperGPU要耗费15兆瓦功耗,如今的BlackwellGPU仅需1/4的能耗就能实现。如果你需要更强劲的GPU,NVIDIA也面向有大型需求的企业提供成品服务,提供完整的服务器。例如:GB200NVL72,它将36个CPU和72个GPU插入一个液冷机架中,总共可实现720petaflops的AI训练性能或1,440petaflops(1.4exaflops)的推理。与相同数量的72个H100相比,GB200NVL72的性能绝对是逆天的存在,大模型推理性能可以提升30倍,并且成本和能耗只有前者的1/25。当然,最炸裂的要数适用于DGXGB200的DGXSuperpod,它将八个GB200NVL72合二为一,总共有288个CPU、576个GPU、240TB内存和11.5exaflops的FP4计算能力。老黄更是在GTC上直言“DGXSuperpod就是AI的革命工厂!”结语以上就是本次GTC2024的硬件相关报道,可能有玩家会说,怎么没有游戏显卡?其实按照过往惯例,NVIDIA并没有在GTC上推出消费级显卡的习惯。不过本次NVIDIA在GTC2024上推出的B100显卡所使用的架构是Blackwell,上面我们也讲过了,这是一个跨越数据中心与消费级产品的架构,这也就意味着我们熟悉的GeForce显卡应该也是同一架构的产品,不出意外的话,下半年我们就有望看到心心念念的RTX50系显卡了!...PC版:https://www.cnbeta.com.tw/articles/soft/1424219.htm手机版:https://m.cnbeta.com.tw/view/1424219.htm

封面图片

国内第一算力通用GPU芯片集成770亿晶体管 一次点亮成功

国内第一算力通用GPU芯片集成770亿晶体管一次点亮成功8月9日下午,国内科技创新企业壁仞科技(Birentech)正式发布BR100系列通用计算GPU,号称算力国内第一,多向指标媲美设置超越国际旗舰产品。根据介绍,壁仞科技BR100芯片采用台积电7nm工艺制造、2.5DCoWoS封装技术、Chiplet小芯片技术,集成了多达770亿晶体管,规模上堪比人类大脑神经细胞,已经非常接近800亿个晶体管的NVIDIAGH100计算核心。性能方面,INT8整数计算2048Tops(每秒2048万亿次)、BF16浮点计算1024TFlops(每秒1024万亿次)、TF32+浮点计算512TFlops(每秒512万亿次)、FP32双精度浮点256TFlops(每秒256万亿次)。其他方面,它还集成了超过300MB片上缓存、64GBHBM2E片上内存,外部IO带宽达2.3TB/s,支持64路编码、512路解码,还支持PCIe5.0、CXL互连协议,一次全部给到位。更难得的是,壁仞科技创始人、董事长、CEO张文在发布会上披露,BR100系列芯片一次就点亮成功了!我们知道,芯片设计是一个漫长复杂的过程,最为关键的就是流片,一旦失败就要推倒重来,即便是Intel、NVIDIA、AMD这些顶级巨头也不能保证一次完成,壁仞科技如此庞大规模、顶级算力的设计一次就搞定,属实难得。PC版:https://www.cnbeta.com/articles/soft/1302535.htm手机版:https://m.cnbeta.com/view/1302535.htm

封面图片

Cerebras推出1350万核超级AI计算机Andromeda

Cerebras推出1350万核超级AI计算机Andromeda这些芯片被安置在16个CS-2系统中。每个芯片为人工智能核心提供高达12.1TB/s的内部带宽(96.8Terabits),但数据是通过分布在16个机架上的124个服务器节点的100GbE网络输送给CS-2处理器的。这些服务器总共由284个第三代EPYC米兰处理器提供动力,每个处理器有64个核心,总共有18176个核心。全套系统功耗500千瓦,这比某种程度上可比的使用GPU加速的超级计算机的功率要低得多。然而,在这种大规模并行的超级计算机上扩展工作负载长期以来一直是主要的抑制因素之一--在某一点上,扩展往往会被打破,因此增加更多的硬件会导致回报点迅速减少。Cerebras表示,它的实现与GPT级大型语言模型匹配,如GPT-3、GPT-J和GPT-NeoX,且几乎是线性扩展。Andromeda还可以处理25亿和250亿个参数的模型,由于内存的限制,标准的GPU集群根本无法处理。CerebrasWSE-2是世界上最大的单芯片处理器,每颗7纳米的芯片都是专门为解决人工智能工作负载而设计的,85万个人工智能专用内核分布在46225平方毫米的硅片上,装着2.6万亿个晶体管。该芯片有40GB的片上SRAM内存,20PB的内存带宽,以及220PB的聚合结构带宽。每个WSE-2消耗15千瓦的电力。在大多数大型系统中,工作负载的扩展会导致回报的减少,这通常是由于代码、内存、结构和/或网络的限制。然而,Cerebras已经表明,其CS-2系统通过数据并行化,在不改变底层代码的情况下几乎可以实现线性扩展,该公司的仙女座超级计算机在完全启动后的10分钟内就开始压缩工作负载。16台CS-2使用该公司的MemoryX和Swarm-X互连来简化和协调跨系统的模型分割。这种方法将模型参数存储在MemoryX机柜中的片外,同时将模型保留在片上,允许单个系统计算比以前更大的人工智能模型,并解决通常限制处理器组扩展性的典型延迟和内存带宽问题,这使得该系统可以在多达192个CS-2系统上近乎线性地扩展。Andromeda部署在加州圣克拉拉的Colovore数据中心。该公司已经向客户和学术研究人员开放了算力,包括阿贡国家实验室,该实验室称它已经将整个COVID-19基因组放入一个序列窗口,并以"近乎完美的线性扩展"在多达16个节点上运行该工作负载。该项目现在是著名的ACM戈登贝尔特别奖的入围者,其他用户包括JaperAI和剑桥大学。...PC版:https://www.cnbeta.com.tw/articles/soft/1332865.htm手机版:https://m.cnbeta.com.tw/view/1332865.htm

封面图片

AMD为美国打造200亿亿次超算 1460亿晶体管超级APU开始安装

AMD为美国打造200亿亿次超算1460亿晶体管超级APU开始安装目前(公开)世界第一超算是“Frontier”,隶属于美国能源部橡树岭国家实验室,最大性能每秒119亿亿次,峰值性能168亿亿次,采用AMD第三代霄龙7A5364核心处理器、InstinctMI250XGPU加速器。Intel则在联合美国能源部阿贡国家实验室打造“Aurora”,采用AMD第四代至强Max处理器、PonteVecchioMaxGPU加速器,预计性能超过200亿亿次,现已完成安装,并转入调试阶段。ElCapitan采用了代号Genoa、Zen4架构的AMD第四代霄龙处理器,搭档InstinctMI300A加速器,并借鉴Frontier超算中的各种定制改进技术,针对AI、HPC负载而优化,在数据分析方面实现飞跃,从而能够创建更快速、更准确并且能够量化预测不确定性的模型。InstinctMI300A是全球首款面向HPC、AI的APU加速器,集成多达13颗小芯片,包括nm工艺的24个Zen4CPU核心、CDNA3GPU核心、128GBHBM3内存,还有6nm工艺的中介层,整体晶体管数量多达1460亿个。ElCapitan超级计算机,也是InstinctMI300A加速器的第一个客户项目。同时,AMD还在打造InstinctMI300X,就是将MI300A里的CPU部分也替换成GPU,同时升级192GBHBM3E,晶体管增加到1530亿个,第三季度出样。MI300X...PC版:https://www.cnbeta.com.tw/articles/soft/1369389.htm手机版:https://m.cnbeta.com.tw/view/1369389.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人