黄仁勋抛出2700W功耗的真核弹 还有240TB显存的AI超级计算机

黄仁勋抛出2700W功耗的真核弹还有240TB显存的AI超级计算机BlackwellB200GPU首次采用了chiplet晶粒封装,包含两颗B100,而B200之间再通过带宽翻倍达1.8TB/s的第五代NVLink5总线互连,最多可连接576块。B100采用专门定制的台积电4NP工艺制造(H100/RTX404N工艺的增强版),已经达到双倍光刻极限尺寸,彼此通过10TB/s带宽的片间互联带宽,连接成一块统一的B200GPU。B100集成多达1040亿个晶体管,比上代H100800亿个增加了足足30%,B200整体就是2080亿个晶体管。核心面积未公布,考虑到工艺极限应该不会比814平方毫米的H100大太多。CUDA核心数量也没说,但肯定会大大超过H10016896个,不知道能不能突破2万个?每颗B100连接四颗24GBHBM3E显存/内存,等效频率8GHz,位宽4096-bit,带宽达4TB/s。如此一来,B200就有多达192GBHBM3E,总位宽8096-bit,总带宽8TB/s,相比H100分别增加1.4倍、58%、1.4倍。性能方面,B200新增支持FP4Tensor数据格式,性能达到9PFlops(每秒9千万亿次),INT/FP8、FP16、TF32Tensor性能分别达到4.5、2.25、1.1PFlops,分别提升1.2倍、1.3倍、1.3倍,但是FP64Tensor性能反而下降了40%(依赖GB200),FP32、FP64Vector性能则未公布。BlackwellGPU还支持第二代Transformer引擎,支持全新的微张量缩放,在搭配TensorRT-LLM、NeMoMegatron框架中的先进动态范围管理算法,从而在新型4位浮点AI推理能力下实现算力和模型大小的翻倍。其他还有RAS可靠性专用引擎、安全AI、解压缩引擎等。至于功耗,B100控制在700W,和上代H100完全一致,B200则首次达到了1000W。NVIDIA宣称,BlackwellGPU能够在10万亿参数的大模型上实现AI训练和实时大语言模型推理。GB200GraceBlackwell是继GraceHopper之后的新一代超级芯片(Superchip),从单颗GPU+单颗CPU升级为两颗GPU加一颗CPU,其中GPU部分就是B200,CPU部分不变还是Grace,彼此通过900GB/s的带宽实现超低功耗片间互联。在大语言模型推理工作负载方面,GB200超级芯片的性能对比H100提升了多达30倍。不过代价也很大,GB200的功耗最高可达2700W,可以使用分冷,更推荐使用液冷。基于GB200超级芯片,NVIDIA打造了新一代的AI超级计算机“DGXSuperPOD”,配备36块超级芯片,也就是包含36颗GraceCPU、72颗B200GPU,彼此通过NVLink5组合在一起,还有多达240TBHBM3E。这台AI超级计算机可以处理万亿参数的大模型,能保证超大规模生成式AI训练和推理工作负载的持续运行,FP4精度下的性能高达11.5EFlops(每秒1150亿亿次)。DGXSuperPOD还具有极强的扩展性,可通过Quantum-X800InfiniBand网络连接,扩展到数万颗GB200超级芯片,并加入BlueField-3DPU数据处理单元,而每颗GPU都能获得1.8TB/s的高带宽。第四代可扩展分层聚合和规约协议(SHARP)技术,可提供14.4TFlops的网络计算能力,比上代提升4倍。此外,NVIDIA还发布了第六代通用AI超级计算平台“DGXB200”,包含两颗Intel五代至强处理器、八颗B200GPU,具备1.4TBHBM3E、64TB/s带宽,FP4精度性能144PFlops(每秒14亿亿次),万亿参数模型实时推理速度提升15倍。DGXB200系统还集成八个NVIDIAConnectX-7网卡、两个BlueField-3DPU高性能网络,每个连接带宽高达400Gb/s,可通过Quantum-2InfiniBand、Spectrum?-X以太网网络平台,扩展支持更高的AI性能。基于BlackwellGPU的产品将在今年晚些时候陆续上市,亚马逊云、戴尔、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉、xAI等都会采纳。亚马逊云、谷歌云、微软Azeure、甲骨文云将是首批提供BlackwellGPU驱动实例的云服务提供商,NVIDIA云合作伙伴计划的中的AppliedDigital、CoreWeave、Crusoe、IBMCloud、Lambda也将提供上述服务。IndosatOoredooHutchinson、Nebius、NexgenCloud、甲骨文欧盟主权云、甲骨文美国/英国/澳大利亚政府云、Scaleway、新加坡电信、NorthernDataGroup旗下的TaigaCloud、YottaDataServices旗下的ShaktiCloud、YTLPowerInternational等主权AI云,也将提供基于Blackwell架构的云服务和基础设施。...PC版:https://www.cnbeta.com.tw/articles/soft/1424251.htm手机版:https://m.cnbeta.com.tw/view/1424251.htm

相关推荐

封面图片

NVIDIA发布AI超算DGX GH200:144TB内存、1.8万核CPU

NVIDIA发布AI超算DGXGH200:144TB内存、1.8万核CPUAI运算对内存容量的要求更高,所以DGXGH200通过最新的NVLink、NVLinkSwitch等技术连接了256块GraceHooper超级芯片,实现了极为夸张的性能及内存。GraceHooper我们之前报道过,这是一块CPU+GPU合体的超级芯片,CPU是NVIDIA自研的72核处理器,NeoverseV2内核,拥有480GBLPDDR5内存,512GB/s带宽。GPU部分是H100,FP64性能34TFLOPS,但更强的是INT8性能,AI运算能力达到了3958TFLOPS,带96GBHBM3内存。GH200总计有256块GraceHooper芯片,因此总计18432个CPU核心,144TBHBM3内存,AI性能达到了1exaFLOPS,也就是100亿亿次。这是什么概念,当前最强的TOP500超算也就是百亿亿次性能,只不过这个性能是HPC计算的,NVIDIA的是百亿亿次AI性能。为了让256个超级芯片互联,GH200还使用了256块单口400Gb/sInfiniBand互联芯片,256个双口200Gb/sInfiniBand芯片,还有96组L1NVLink、36组L2NVLink开关等等,设计非常复杂。NVIDIA表示,谷歌、Meta及微软是首批获得DGXH200系统的公司,后续他们还会开放给更多客户,运行客户定制。不过DGXH200还不是最强的,NVIDIA今年晚些时候会推出名为NVIDIAHelios的AI超算系统,由4组GH200组成,总计1024个GraceHooper超级芯片,576TBHBM内存。...PC版:https://www.cnbeta.com.tw/articles/soft/1362277.htm手机版:https://m.cnbeta.com.tw/view/1362277.htm

封面图片

NVIDIA CPU+GPU超级芯片终于量产 搭配144TB内存

NVIDIACPU+GPU超级芯片终于量产搭配144TB内存再加上GraceCPU、HopperGPU、AdaLovelaceGPU、BlueFieldDPU等全套系统方案,NVIDIA现在已经有400多种配置,可满足市场对生成式AI的激增需求。欧洲和美国的超大规模云服务商、超算中心,将会成为接入GH200系统的首批客户。同时,黄仁勋还公布了GraceHopper的更多细节,尤其是它的CPU、GPU之间使用NVLink-C2C互连技术,总带宽高达900GB/s,相比传统的PCIe5.0通道超出足足7倍,能够满足要求最苛刻的生成式AI和HPC应用,功耗也降低了超过80%。GraceCPU拥有72个Armv9CPU核心,缓存容量198MB,支持LPDDR5XECC内存,带宽高达1TB/s,还支持PCIe5.0。HopperGPU则采用台积电4nm定制工艺,集成多达800亿个晶体管,号称世界上最先进的芯片,集成18432个CUDA核心、576个Tenor核心、60MB二级缓存,支持6144-bitHBM3/2e高带宽内存。同时,NVIDIA宣布推出一款新型大内存AI超级计算机“DGXGH200”,可用于开发面向生成式AI语言应用、推荐系统和数据分析工作负载的下一代大模型。它配备了多达256颗GH200GraceHopper超级芯片,彼此NVLinkSwitchSystem互相连接,带宽提升48倍以上,对外可作为单个GPU使用,浮点性能高达1PFlops(每秒1千万亿次浮点计算)。同时还有144TB共享内存,相比2020年的上一代DGXA100增大了近500倍。...PC版:https://www.cnbeta.com.tw/articles/soft/1362341.htm手机版:https://m.cnbeta.com.tw/view/1362341.htm

封面图片

谷歌配备 Nvidia H100 GPU 的新型 A3 GPU 超级计算机将于下个月全面上市

谷歌配备NvidiaH100GPU的新型A3GPU超级计算机将于下个月全面上市尽管价格超过30,000美元,Nvidia的H100GPU仍然是一种热门商品,以至于通常会出现缺货的情况。今年早些时候,谷歌云宣布推出其H100支持的A3GPU虚拟机的私人预览版,该虚拟机将Nvidia的芯片与谷歌定制设计的200Gpbs基础设施处理单元(IPU)结合在一起。现在,在CloudNext会议上,谷歌宣布将于下个月全面推出A3。去年发布A3时,谷歌云表示它将提供高达26exaflops的AI性能,并且部分得益于定制IPU,与上一代A2机器相比,网络带宽提高了10倍。投稿:@ZaiHuaBot频道:@TestFlightCN

封面图片

评估认为NASA的超级计算机严重落后 拥有18000颗CPU却只搭配48颗GPU

评估认为NASA的超级计算机严重落后拥有18000颗CPU却只搭配48颗GPU目前,NASA拥有五台超算,安放在加州艾莫斯的NASA先进超算中心(NAS)、马里兰州戈达德的NASA气候模拟中心(NCCS)。性能最好的是Aitken,性能也只有13.12PFlops(每秒1.312亿亿次浮点计算),美国重返月球项目用的就是它。还有Electra8.32PFlops、Discover8.1PFlops、Pleiades7.09PFlops、Endeavour15.48TFlops。这些超算不但性能平平,而且架构技术都不算先进,仍然几乎完全依赖传统CPU处理器。NAS拥有总计超过18000颗GPU,却只有48颗GPU,NCSS部署的GPU更少。NASA在报告中称,超算基础设置的严重落伍,严重影响了NASA的项目进展,而且管理方式落后,利用效率低下,还存在很多安全隐患,因此强烈建议转向GPU为主的新型超算。两个字总结:打钱!...PC版:https://www.cnbeta.com.tw/articles/soft/1423996.htm手机版:https://m.cnbeta.com.tw/view/1423996.htm

封面图片

黄仁勋向台积电放核弹:干掉40000台CPU服务器 计算光刻提速40倍

黄仁勋向台积电放核弹:干掉40000台CPU服务器计算光刻提速40倍总体来看,此次演讲可总结成一大‘亮点’和一大‘重点’。‘亮点’是英伟达秘密研发四年、向芯片制造业甩出一枚技术“核弹”——通过突破性的光刻计算库cuLitho,将计算光刻加速40倍以上,使得2nm及更先进芯片的生产成为可能。全球最大晶圆厂台积电、全球光刻机霸主阿斯麦、全球最大EDA巨头新思科技均参与合作并引入这项技术。老黄还直接上了一堂光刻机小课堂,配合动画讲解芯片制造的最关键设备光刻机是如何运作的。‘重点’毫无疑问是生成式AI。老黄对OpenAI的ChatGPT赞不绝口,夸它“震惊世界”,代表着“崭新的计算平台已经诞生,AI的‘iPhone时刻’已经到来”。据英伟达透露,OpenAI将在微软Azure超级计算机上使用英伟达H100GPU,AI文生图明星创企Stability.ai是H100GPU的早期访问客户。为了加速生成式AI开发及部署,老黄宣布推出3款全新推理GPU,分别擅长AI视频、图像生成、ChatGPT等大型语言模型的推理加速。此外,英伟达还发布了AI超级计算服务DGXCloud、加速企业创建大模型和生成式AI的云服务NVIDIAAIFoundations等,并宣布与日本三菱联合打造了日本第一台用于加速药研的生成式AI超级计算机。英伟达也发布了一系列面向元宇宙、汽车、量子计算领域的新进展,包括PaaS服务NVIDIAOmniverseCloud现已向特定企业开放、与宝马集团扩大合作建设虚拟工厂、比亚迪更多车型将采用NVIDIADRIVEOrin平台,以及与QuantumMachines合作推出了全球首个GPU加速量子计算系统。老黄宣布,英伟达已经更新了100个加速库,目前英伟达全球生态系统已覆盖400万开发人员、4万家公司和1.4万家初创公司。01.芯片制造炸场!将计算光刻提速40倍三大半导体巨头站台我们先来看看今天的“惊喜弹”:英伟达发布了一个造福先进芯片制造的突破性技术——NVIDIAcuLitho计算光刻库。光刻是芯片制造过程中最复杂、最昂贵、最关键的环节,其成本约占整个硅片加工成本的1/3甚至更多。计算光刻模拟了光通过光学元件并与光刻胶相互作用时的行为,应用逆物理算法来预测掩膜板上的图案,以便在晶圆上生成最终图案。简而言之,计算光刻是提高光刻分辨率、推动芯片制造达到2nm及更先进节点的关键手段。“计算光刻是芯片设计和制造领域中最大的计算工作负载,每年消耗数百亿CPU小时。”黄仁勋讲解道,“大型数据中心24x7全天候运行,以便创建用于光刻系统的掩膜板。这些数据中心是芯片制造商每年投资近2000亿美元的资本支出的一部分。”而cuLitho能够将计算光刻的速度提高到原来的40倍。老黄说,英伟达H100GPU需要89块掩膜板,在CPU上运行时,处理单个掩膜板需要两周时间,而在GPU上运行cuLitho只需8小时。此外,台积电可通过在500个DGXH100系统上使用cuLitho加速,将功率从35MW降至5MW,替代此前用于计算光刻的40000台CPU服务器。使用cuLitho的晶圆厂,每天可以生产3-5倍多的光掩膜,仅使用当前配置电力的1/9。全球最大晶圆厂台积电、全球最大光刻机制造商阿斯麦(ASML)、全球最大EDA公司新思科技(Synopsys)都为这项新技术站台。老黄透露道,cuLitho历时四年研发,与这三家芯片大厂进行了密切合作。台积电将于6月开始对cuLitho进行生产资格认证。台积电CEO魏哲家夸赞它为台积电在芯片制造中广泛地部署光刻解决方案开辟了新的可能性,为半导体规模化做出重要贡献。阿斯麦CEOPeterWennink说阿斯麦计划将对GPU的支持集成到其所有的计算光刻软件产品中。新思科技董事长兼CEOAartdeGeus称,在英伟达的cuLitho平台上运行新思科技的光学邻近校正(OPC)软件,将性能从几周加速到几天。cuLitho将有助于晶圆厂缩短原型周期时间、提高产量、减少碳排放,为2nm及更先进的工艺奠定基础,并使得曲线掩模、highNAEUV、亚原子级光刻胶模型等新技术节点所需的新型解决方案和创新技术成为可能。02.发布ChatGPT专用推理GPU登浏览器即可访问AI超级计算机围绕生成式AI,英伟达发布了一系列加速模型训练和推理的软硬件新品及服务。老黄首先讲述了英伟达在生成式AI革命之初是如何进入AI领域的。“英伟达加速计算始于DGX(AI超级计算机),这是大型语言模型实现突破背后的引擎。”他谈道,“(2016年)我亲手将全球首款DGX交给了OpenAI,自此以后,《财富》100强企业中有一半安装了DGXAI超级计算机。DGX已成为AI领域的必备工具。”“生成式AI将重塑几乎所有行业。”老黄说,ChatGPT、StableDiffusion、DALL-E和Midjourney唤醒了世界对生成式AI的认知。在他看来,生成式AI是一种新型计算机、一种可以用人类语言进行编程的计算机,与个人电脑(PC)、互联网、移动设备和云类似,这种能力影响深远,每个人都可以命令计算机来解决问题,现在每个人都可以是程序员。1、训练:生成式AI明星企业都在用,AI超级计算机已全面投产训练方面,英伟达H100GPU基于Hopper架构及其内置TransformerEngine,针对生成式AI、大型语言模型和推荐系统的开发、训练和部署进行了优化,利用FP8精度在大型语言模型上比上一代A100提供了快9倍的AI训练和快30倍的AI推理。DGXH100拥有8个H100GPU模组,在FP8精度下可提供32PetaFLOPS的算力,并提供完整的英伟达AI软件堆栈,助力简化AI开发。黄仁勋宣布,NVIDIADGXH100AI超级计算机已全面投入生产,很快将面向全球企业。微软宣布Azure将向其H100AI超级计算机开放私人预览版。黄仁勋说,云计算巨头现在正在提供英伟达H100 GPU,生成式AI领域的多家明星企业都在用H100加速工作。比如,OpenAI用H100的上一代A100训练和运行AI聊天机器人ChatGPT,并将在微软Azure超级计算机上使用H100;AI文生图明星创企Stability.ai是AWS上的H100早期访问客户。最近刚推出开源大模型的社交软件巨头Meta开发了基于Hopper架构的AI超级计算机GrandTeton系统。相比其前代Zion,该系统的算力大幅提升,可同时支持推荐模型和内容理解的训练和推理。英伟达与其主要合作伙伴宣布推出强大的GPUNVIDIAH100TensorCoreGPU新产品和服务,以满足生成式AI训练和推理需求。AWS宣布即将推出的EC2超级集群(EC2P5实例)可扩展至20000个互连的H100。OracleCloudInfrastructure(OCI)宣布限量推出采用H100的全新OCICompute裸金属GPU实例。为企业和开发者提供多模态视频理解的平台TwelveLabs计划在OCISupercluster上使用H100实例来即时、智能和容易搜索视频。2、推理:发布3款GPU、3类云服务推理方面,英伟达推出全新GPU推理平台:4种配置(L4TensorCoreGPU、L40GPU、H100NVLGPU、GraceHopper超级芯片)、一个体系架构、一个软件栈,分别用于加速AI视频、图像生成、大型语言模型部署和推荐系统。(1)L4:针对AI视频设计的通用GPU,可提供比CPU高120倍的AI视频性能,能效提高99%;优化了视频解码与转码、视频内容审核、视频通话等功能,如背景替换、重新打光、眼神交流、转录和实时翻译等。一台8-GPUL4服务器将取代100多台用于处理AI视频的双插槽CPU服务器。(2)L40:用于图像生成,针对图形和AI支持的2D、视频和3D图像生成进行了优化,推理性能是英伟达最受欢迎的云推理GPUT4的10倍。(3)H100NVL:针对ChatGPT等大型语言模型的大规模部署,配备双GPUNVLink,将两张拥有94GBHBM3显存的PCIeH100GPU拼接在一起,可处理拥有1750亿参数的GPT-3大模型,同时支持商用PCIe服务器轻松扩展。老黄说,目前在云上唯一可以实际处理ChatGPT的GPU是HGXA100。与适用于GPT-3处理的HGXA100相比,一台搭载4对H100及双GPUNVLink的标准服务器的速度要快10倍,...PC版:https://www.cnbeta.com.tw/articles/soft/1350547.htm手机版:https://m.cnbeta.com.tw/view/1350547.htm

封面图片

1万颗NVIDIA H100 GPU为价值3亿美元的特斯拉超级计算机提供算力

1万颗NVIDIAH100GPU为价值3亿美元的特斯拉超级计算机提供算力据报道,特斯拉已经升级了英伟达的A100s,计算性能提高了约五倍,达到了340FP64PFLOPS,与业内其他超级计算机相比,性能明显提高。埃隆-马斯克将目光投向了FSD,并表示这是特斯拉的未来。该公司已将资源投入到该功能的发展中,目前仍处于初始阶段。到2024年,随着耗资10亿美元的Dojo超级计算机的启动,特斯拉将拥有巨大的计算能力,这将使其比其他汽车制造商更具优势,尤其是在利用人工智能力量的功能方面。特斯拉计划斥资40多亿美元发展FSD和AI车型,这表明该行业的未来令人兴奋。然而,在如此巨大的雄心背后,英伟达公司的AIGPU却难以获得,原因是巨大的需求和供应链瓶颈。埃隆曾表示,人工智能GPU比"毒品"还难买,这也是行业现状的最终写照。汽车行业的未来是光明的,尤其是借助人工智能,将其融入我们的日常生活,特斯拉在FSD方面的雄心壮志将被证明是该行业的革命性变革,它的开发和测试过程都非常有章法。...PC版:https://www.cnbeta.com.tw/articles/soft/1380849.htm手机版:https://m.cnbeta.com.tw/view/1380849.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人