1.8万核心GPU、144核心CPU NVIDIA大杀器将揭开面纱

1.8万核心GPU、144核心CPUNVIDIA大杀器将揭开面纱HotChips年度芯片行业盛会将在本月底举行，Intel、AMD、NVIDIA和众多业内芯片巨头都将拿出各家的拳头产品，秀秀肌肉。NVIDIA这次会有多场分享，重点覆盖HopperGPU计算加速器、GraceCPU服务器处理器、NVLink高速总线，届时会有多位高级工程师分享内部架构设计、性能数据。HopperGPU采用定制版台积电4nm工艺、全新架构，集成多达800亿个晶体管、18432个CUDA核心、576个Tensor核心，支持6144-bit位宽的80GBHBM3/HBM2e高带宽内存，并支持PCIe5.0、第四代NVLIink，性能号称四倍于上代A100，功耗最高700W。GraceCPU采用双芯合体设计，攻击144个Arm架构核心，集成396MB缓存，支持LPDDR5XECC内存，带宽达1TB/s，同样支持PCIe5.0，功耗500W。NVIDIA还打造了一颗超级芯片，HopperGPU、GraceCPU二合一，通过NVLink-C2C高速总线互连，带宽达900GB/s。PC版：https://www.cnbeta.com/articles/soft/1306753.htm手机版：https://m.cnbeta.com/view/1306753.htm

在Telegram中查看

相关推荐

NVIDIA 144核心超级CPU揭秘：3.5倍能效碾压AMD 128核心

NVIDIA144核心超级CPU揭秘：3.5倍能效碾压AMD128核心GraceCPU二合一GraceCPU＋HopperGPU二合一它通过NVLink-C2C芯片间互连总线，将两颗GraceCPU整合在一块基板上，彼此之间的双向带宽多达900GB/s。GraceCPU基于Armv9-A9.0架构、NeoverseV264位内核，以4个128-bit功能单元的方式配置了两组SIMD矢量指令集，一是SVE2(缩放矢量扩展第二版)，二是NEON(高级SIMD)。它还支持LSE(大型系统扩展)，可提供低成本的原子操作，改进CPU通信吞吐。NVIDIA声称，这种核心的能效，是如今服务器常见x86核心的2倍。GraceCPU单颗集成72个核心，互相通过3.2TB/s超高带宽的NVIDIA缩放一致性Fabric总线互连，而二合一的超级芯片上就是144个核心。每核心64KB一级指令缓存、64KB一级数据缓存、1MB二级缓存，一颗超级芯片的所有核心共享234MB三级缓存。内存整合封装了LPDDR5X，最大容量960GB，最高带宽1TB/s(每一颗500GB/s)，还支持ECC。对比传统的八通道DDR5，这种设计不但带宽高出53％，单位功耗也只有1/8。对比海量带宽的HBM2e，单位成本只有1/3，容量则可达8倍。扩展支持八组PCIe5.0x16，总带宽1TB/s，还有用于管理的低速PCIe通道。性能方面，一颗超级芯片的FP64双精度峰值浮点性能可达7.1TFlops(每秒7.1万亿次计算)，热设计功耗500W。NVIDIA对比了AMDZen3架构的霄龙776364核心，双路组成128核心，号称性能可领先1.5-2.5倍，能效可领先2.0-3.5倍！当然，AMD已经有了Zen4架构、最多96核心的霄龙9004系列，NVIDIAGrace依然还没有商用。...PC版：https://www.cnbeta.com.tw/articles/soft/1340283.htm手机版：https://m.cnbeta.com.tw/view/1340283.htm

NVIDIA CPU+GPU超级芯片终于量产搭配144TB内存

NVIDIACPU+GPU超级芯片终于量产搭配144TB内存再加上GraceCPU、HopperGPU、AdaLovelaceGPU、BlueFieldDPU等全套系统方案，NVIDIA现在已经有400多种配置，可满足市场对生成式AI的激增需求。欧洲和美国的超大规模云服务商、超算中心，将会成为接入GH200系统的首批客户。同时，黄仁勋还公布了GraceHopper的更多细节，尤其是它的CPU、GPU之间使用NVLink-C2C互连技术，总带宽高达900GB/s，相比传统的PCIe5.0通道超出足足7倍，能够满足要求最苛刻的生成式AI和HPC应用，功耗也降低了超过80％。GraceCPU拥有72个Armv9CPU核心，缓存容量198MB，支持LPDDR5XECC内存，带宽高达1TB/s，还支持PCIe5.0。HopperGPU则采用台积电4nm定制工艺，集成多达800亿个晶体管，号称世界上最先进的芯片，集成18432个CUDA核心、576个Tenor核心、60MB二级缓存，支持6144-bitHBM3/2e高带宽内存。同时，NVIDIA宣布推出一款新型大内存AI超级计算机“DGXGH200”，可用于开发面向生成式AI语言应用、推荐系统和数据分析工作负载的下一代大模型。它配备了多达256颗GH200GraceHopper超级芯片，彼此NVLinkSwitchSystem互相连接，带宽提升48倍以上，对外可作为单个GPU使用，浮点性能高达1PFlops(每秒1千万亿次浮点计算)。同时还有144TB共享内存，相比2020年的上一代DGXA100增大了近500倍。...PC版：https://www.cnbeta.com.tw/articles/soft/1362341.htm手机版：https://m.cnbeta.com.tw/view/1362341.htm

NVIDIA自研4nm CPU跑分超越阿里128核CPU登顶第一

NVIDIA自研4nmCPU跑分超越阿里128核CPU登顶第一在自研CPU上，NVIDIA去年就公布了GraceCPU服务器处理器，这是一款高达144核的ARM处理器，日前在hotchips会议上NVIDIA又公布了Grace的架构细节及跑分，SPECrate2017_int_base最高可达740分，不仅超过了AMD及Intel的x86旗舰，也超过了前不久拿下第一的阿里倚天710处理器。GraceCPU之前说是5nm工艺，现在确认是5nm改良版的4nm定制版，单核心可达72核，双芯下可达144核，L3缓存117MB（双芯下234MB），内部芯片互联带宽可达3.2TB/s，支持68路PCIe5.0，支持16通道LPDDR5X内存，带宽超过1TB/s，C2C-NVlink总线带宽高达900GB/s，是PCIe5.0的7倍性能，5倍能效。此外，NVIDIA还公布了GraceCPU的性能，单芯72核的SPECrate2017_int_base性能是370分，双芯下可达740分，并行效率非常高，基本上是线性提升。这个性能是什么概念呢？hardwarexxx网站汇总了多个SPECrate2017_int_base分数，AMD及Intel的36核或者64核x86处理器，同时也超过了阿里的倚天710。740分的SPECrate2017_int_base性能是目前最高的，不仅遥遥领先倚天710是阿里自研的5nm128核ARM服务器处理器，之前以510分的成绩成为SPECrate2017_int_base第一，现在被NVIDIA的144核CPU超越了也是正常，毕竟在内存及互连架构上NVIDIA的设计更恐怖。PC版：https://www.cnbeta.com/articles/soft/1307053.htm手机版：https://m.cnbeta.com/view/1307053.htm

NVIDIA发布AI超算DGX GH200：144TB内存、1.8万核CPU

NVIDIA发布AI超算DGXGH200：144TB内存、1.8万核CPUAI运算对内存容量的要求更高，所以DGXGH200通过最新的NVLink、NVLinkSwitch等技术连接了256块GraceHooper超级芯片，实现了极为夸张的性能及内存。GraceHooper我们之前报道过，这是一块CPU+GPU合体的超级芯片，CPU是NVIDIA自研的72核处理器，NeoverseV2内核，拥有480GBLPDDR5内存，512GB/s带宽。GPU部分是H100，FP64性能34TFLOPS，但更强的是INT8性能，AI运算能力达到了3958TFLOPS，带96GBHBM3内存。GH200总计有256块GraceHooper芯片，因此总计18432个CPU核心，144TBHBM3内存，AI性能达到了1exaFLOPS，也就是100亿亿次。这是什么概念，当前最强的TOP500超算也就是百亿亿次性能，只不过这个性能是HPC计算的，NVIDIA的是百亿亿次AI性能。为了让256个超级芯片互联，GH200还使用了256块单口400Gb/sInfiniBand互联芯片，256个双口200Gb/sInfiniBand芯片，还有96组L1NVLink、36组L2NVLink开关等等，设计非常复杂。NVIDIA表示，谷歌、Meta及微软是首批获得DGXH200系统的公司，后续他们还会开放给更多客户，运行客户定制。不过DGXH200还不是最强的，NVIDIA今年晚些时候会推出名为NVIDIAHelios的AI超算系统，由4组GH200组成，总计1024个GraceHooper超级芯片，576TBHBM内存。...PC版：https://www.cnbeta.com.tw/articles/soft/1362277.htm手机版：https://m.cnbeta.com.tw/view/1362277.htm

NVIDIA开源HPCG AI基准支持Grace CPU以及Ampere和Hopper GPU

NVIDIA开源HPCGAI基准支持GraceCPU以及Ampere和HopperGPU自英伟达之前宣布为GeForceRTX20系列及以后的产品使用开源GPU内核以来，英伟达一直在寻求向更开源的方向转变，以促进其平台的开发，并在Linux方面大步迈进。这一次，该公司决定通过开源英伟达HPCG来帮助人工智能行业，该HPCG面向GraceSuperchips和Hopper系列架构等人工智能硬件。NVIDIA的HPCG是一个专为高性能计算应用设计的基准测试，主要通过多种数学运算来测试特定硬件在不同场景下的性能。这不仅能让NVIDIA展示其GPU的能力，而且该软件包在优化HPC系统方面发挥了重要作用。在人工智能和高性能计算应用大幅增长的时代，NVIDIAHPCG的开源意味着该公司决心看到资源的发展。以下是该公司自己详细介绍的主要功能：GitHub：https://github.com/NVIDIA/nvidia-hpcg主要特点NVIDIAHPCG基准利用NVIDIA高性能数学库：cuSPARSE和NVPLSparse，在NVIDIAGPU和GraceCPU上实现稀疏矩阵向量乘法(SpMV)和稀疏矩阵三角求解器(SpSV)的最高性能。NVIDIAHPCG基准支持高度可配置的命令行参数，以决定：GPU和GraceCPU的问题大小三维等级网格形状执行模式：纯CPU、纯GPU和异构点对点通信：MPI_Host（发送/回传）、MPI_Host_Alltoallv、MPI_CUDA_Aware、MPI_CUDA_Aware_Alltoallv和NCCLNUMA相关配置在兼容性方面，NVIDIAHPCG支持GraceCPU系统以及Ampere和HopperGPU架构。该软件也只能在Linux下运行，这限制了它的使用范围。不过，这仍然是一个有趣举动，它表明了NVIDIA公司对资产开源的承诺。...PC版：https://www.cnbeta.com.tw/articles/soft/1433279.htm手机版：https://m.cnbeta.com.tw/view/1433279.htm

黄仁勋：NVIDIA只用两年就研制出比x86快1.3倍的CPU处理器

黄仁勋：NVIDIA只用两年就研制出比x86快1.3倍的CPU处理器他坦言，相对于友商需要花费很多年，NVIDIA只用两年时间就研制出GraceCPU，这的确是相对短的时间。据悉，GraceCPU基于ARMv9指令集打造，144核设计，缓存容量396MB，支持LPDDR5XECC内存，带宽高达1TB/s，还支持PCIe5.0、NVLink-C2C互连等。号称比竞品x86处理器（AMDZen4Genoa）快了1.3倍，节省60%的能耗。连同GPU，一块20.3x12.7厘米就能放下，两个一组可以放入1U风冷服务器机架。...PC版：https://www.cnbeta.com.tw/articles/soft/1350827.htm手机版：https://m.cnbeta.com.tw/view/1350827.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人