NVIDIA 144核心超级CPU揭秘:3.5倍能效碾压AMD 128核心

NVIDIA144核心超级CPU揭秘:3.5倍能效碾压AMD128核心GraceCPU二合一GraceCPU+HopperGPU二合一它通过NVLink-C2C芯片间互连总线,将两颗GraceCPU整合在一块基板上,彼此之间的双向带宽多达900GB/s。GraceCPU基于Armv9-A9.0架构、NeoverseV264位内核,以4个128-bit功能单元的方式配置了两组SIMD矢量指令集,一是SVE2(缩放矢量扩展第二版),二是NEON(高级SIMD)。它还支持LSE(大型系统扩展),可提供低成本的原子操作,改进CPU通信吞吐。NVIDIA声称,这种核心的能效,是如今服务器常见x86核心的2倍。GraceCPU单颗集成72个核心,互相通过3.2TB/s超高带宽的NVIDIA缩放一致性Fabric总线互连,而二合一的超级芯片上就是144个核心。每核心64KB一级指令缓存、64KB一级数据缓存、1MB二级缓存,一颗超级芯片的所有核心共享234MB三级缓存。内存整合封装了LPDDR5X,最大容量960GB,最高带宽1TB/s(每一颗500GB/s),还支持ECC。对比传统的八通道DDR5,这种设计不但带宽高出53%,单位功耗也只有1/8。对比海量带宽的HBM2e,单位成本只有1/3,容量则可达8倍。扩展支持八组PCIe5.0x16,总带宽1TB/s,还有用于管理的低速PCIe通道。性能方面,一颗超级芯片的FP64双精度峰值浮点性能可达7.1TFlops(每秒7.1万亿次计算),热设计功耗500W。NVIDIA对比了AMDZen3架构的霄龙776364核心,双路组成128核心,号称性能可领先1.5-2.5倍,能效可领先2.0-3.5倍!当然,AMD已经有了Zen4架构、最多96核心的霄龙9004系列,NVIDIAGrace依然还没有商用。...PC版:https://www.cnbeta.com.tw/articles/soft/1340283.htm手机版:https://m.cnbeta.com.tw/view/1340283.htm

相关推荐

封面图片

1.8万核心GPU、144核心CPU NVIDIA大杀器将揭开面纱

1.8万核心GPU、144核心CPUNVIDIA大杀器将揭开面纱HotChips年度芯片行业盛会将在本月底举行,Intel、AMD、NVIDIA和众多业内芯片巨头都将拿出各家的拳头产品,秀秀肌肉。NVIDIA这次会有多场分享,重点覆盖HopperGPU计算加速器、GraceCPU服务器处理器、NVLink高速总线,届时会有多位高级工程师分享内部架构设计、性能数据。HopperGPU采用定制版台积电4nm工艺、全新架构,集成多达800亿个晶体管、18432个CUDA核心、576个Tensor核心,支持6144-bit位宽的80GBHBM3/HBM2e高带宽内存,并支持PCIe5.0、第四代NVLIink,性能号称四倍于上代A100,功耗最高700W。GraceCPU采用双芯合体设计,攻击144个Arm架构核心,集成396MB缓存,支持LPDDR5XECC内存,带宽达1TB/s,同样支持PCIe5.0,功耗500W。NVIDIA还打造了一颗超级芯片,HopperGPU、GraceCPU二合一,通过NVLink-C2C高速总线互连,带宽达900GB/s。PC版:https://www.cnbeta.com/articles/soft/1306753.htm手机版:https://m.cnbeta.com/view/1306753.htm

封面图片

NVIDIA CPU+GPU超级芯片终于量产 搭配144TB内存

NVIDIACPU+GPU超级芯片终于量产搭配144TB内存再加上GraceCPU、HopperGPU、AdaLovelaceGPU、BlueFieldDPU等全套系统方案,NVIDIA现在已经有400多种配置,可满足市场对生成式AI的激增需求。欧洲和美国的超大规模云服务商、超算中心,将会成为接入GH200系统的首批客户。同时,黄仁勋还公布了GraceHopper的更多细节,尤其是它的CPU、GPU之间使用NVLink-C2C互连技术,总带宽高达900GB/s,相比传统的PCIe5.0通道超出足足7倍,能够满足要求最苛刻的生成式AI和HPC应用,功耗也降低了超过80%。GraceCPU拥有72个Armv9CPU核心,缓存容量198MB,支持LPDDR5XECC内存,带宽高达1TB/s,还支持PCIe5.0。HopperGPU则采用台积电4nm定制工艺,集成多达800亿个晶体管,号称世界上最先进的芯片,集成18432个CUDA核心、576个Tenor核心、60MB二级缓存,支持6144-bitHBM3/2e高带宽内存。同时,NVIDIA宣布推出一款新型大内存AI超级计算机“DGXGH200”,可用于开发面向生成式AI语言应用、推荐系统和数据分析工作负载的下一代大模型。它配备了多达256颗GH200GraceHopper超级芯片,彼此NVLinkSwitchSystem互相连接,带宽提升48倍以上,对外可作为单个GPU使用,浮点性能高达1PFlops(每秒1千万亿次浮点计算)。同时还有144TB共享内存,相比2020年的上一代DGXA100增大了近500倍。...PC版:https://www.cnbeta.com.tw/articles/soft/1362341.htm手机版:https://m.cnbeta.com.tw/view/1362341.htm

封面图片

NVIDIA自研4nm CPU跑分超越阿里128核CPU登顶第一

NVIDIA自研4nmCPU跑分超越阿里128核CPU登顶第一在自研CPU上,NVIDIA去年就公布了GraceCPU服务器处理器,这是一款高达144核的ARM处理器,日前在hotchips会议上NVIDIA又公布了Grace的架构细节及跑分,SPECrate2017_int_base最高可达740分,不仅超过了AMD及Intel的x86旗舰,也超过了前不久拿下第一的阿里倚天710处理器。GraceCPU之前说是5nm工艺,现在确认是5nm改良版的4nm定制版,单核心可达72核,双芯下可达144核,L3缓存117MB(双芯下234MB),内部芯片互联带宽可达3.2TB/s,支持68路PCIe5.0,支持16通道LPDDR5X内存,带宽超过1TB/s,C2C-NVlink总线带宽高达900GB/s,是PCIe5.0的7倍性能,5倍能效。此外,NVIDIA还公布了GraceCPU的性能,单芯72核的SPECrate2017_int_base性能是370分,双芯下可达740分,并行效率非常高,基本上是线性提升。这个性能是什么概念呢?hardwarexxx网站汇总了多个SPECrate2017_int_base分数,AMD及Intel的36核或者64核x86处理器,同时也超过了阿里的倚天710。740分的SPECrate2017_int_base性能是目前最高的,不仅遥遥领先倚天710是阿里自研的5nm128核ARM服务器处理器,之前以510分的成绩成为SPECrate2017_int_base第一,现在被NVIDIA的144核CPU超越了也是正常,毕竟在内存及互连架构上NVIDIA的设计更恐怖。PC版:https://www.cnbeta.com/articles/soft/1307053.htm手机版:https://m.cnbeta.com/view/1307053.htm

封面图片

日本富士通宣布下代超级CPU“Monaka” 能效2倍于Intel/AMD

日本富士通宣布下代超级CPU“Monaka”能效2倍于Intel/AMD富士通A64FX采用台积电7nm工艺制造,集成87.86亿个晶体管,Arm架构,集成52个核心,包括48个计算核心(分为四组每组8MB二级缓存)、4个结构管理核心,主频2.2GHz,并集成HBM2高带宽内存。富岳超算一共用了近16万颗A64FX处理器,总核心数量多达7630848个。去年11月,富士通就曾披露,将设计更先进的处理器,采用台积电2nm工艺,预计2026年推出。现在,富士通官方宣布,下代超级处理器代号“Monaka”(日本点心最中/もなか),依然基于Arm架构指令集(可能Armv9或更高),重点提升能效。Monaka现定于2027年推出,号称对比届时的竞品,应用性能可领先1.7倍,能效可领先2倍,包括Intel、AMD的方案。同时,它的应用潜力和范围也会更广,包括超大规模运算、HPC高性能计算、AI人工智能、数据分析等等。不过,官方未公开制造工艺、核心数量等细节。日本也会基于富士通Monaka,打造下一代超算,暂时名为FugakuNext,日本理化学研究所正在进行设计评估。...PC版:https://www.cnbeta.com.tw/articles/soft/1349173.htm手机版:https://m.cnbeta.com.tw/view/1349173.htm

封面图片

黄仁勋:NVIDIA只用两年 就研制出比x86快1.3倍的CPU处理器

黄仁勋:NVIDIA只用两年就研制出比x86快1.3倍的CPU处理器他坦言,相对于友商需要花费很多年,NVIDIA只用两年时间就研制出GraceCPU,这的确是相对短的时间。据悉,GraceCPU基于ARMv9指令集打造,144核设计,缓存容量396MB,支持LPDDR5XECC内存,带宽高达1TB/s,还支持PCIe5.0、NVLink-C2C互连等。号称比竞品x86处理器(AMDZen4Genoa)快了1.3倍,节省60%的能耗。连同GPU,一块20.3x12.7厘米就能放下,两个一组可以放入1U风冷服务器机架。...PC版:https://www.cnbeta.com.tw/articles/soft/1350827.htm手机版:https://m.cnbeta.com.tw/view/1350827.htm

封面图片

两颗128核心的AMD EPYC 轻松碾压四颗60核心的Intel至强

两颗128核心的AMDEPYC轻松碾压四颗60核心的Intel至强CPUBench大家可能比较陌生,它其实就是参考行业权威基准测试工具SPECCPU开发设计的,因此具有极高的参考价值,而且不收费,任何人都可以免费使用。本次测试活动第一批次收到79份报告,涉及15款处理器产品,包括AMDEPYC、Intel至强,以及国产的华为鲲鹏/麒麟、飞腾腾锐、阿里平头哥倚天等不同系列。根据测试结果,搭载AMDEPYC9754处理器的新华三UniServerR5500G6拿到了最好成绩,Typical典型分数达到572.8,同款处理器的UniServerR4950G6也得到了571.1分,遥遥领先。同时,基于AMDEPYC9554处理器的UniServerR5350G6得分为422.5,排名第五。Intel平台最好成绩排第四,基于至强铂金8490H处理器的新华三R6900G6成绩为449.1,AMD比之领先多达27.5%。凭借128核心的极高密度,EPYC9754的双路多核性能超过双路至强铂金8490H121%,即使面对四路至强铂金8490H,也有着27.5%的优势。64核心的EPYC9554,凭借更多核心、更高频率,在双路多核性能测试中,也可以领先双路至强铂金8490H63%之多。AMDEPYC在前10名中占了8个位置,前20名中多达16个位置,上榜型号还有这一代的EPYC9654、上一代的MilanEPYC7763(多核性能堪比双路至强铂金8490H并超越双路至强铂金838052%之多)、上上代的RomeEPYC7H12(多核性能超越双路至强铂金838024%)。如果按照Extreme极限分数排序,AMDEPYC9754同样高居第一,而且前四名都是AMDEPYC。Intel最好的成绩是第五名,来自至强铂金8362,比第一名慢了多达76%。EPYC9754是AMDBergamo家族中的旗舰,5nm工艺,Zen4c架构,128核心256线程,三级缓存256MB,主频2.25-3.1GHz,默认热设计功耗320W,千颗批发价11900美元。EPYC9554则是AMDGenoa家族中的主流型号,5nm工艺,Zen4架构,64核心128线程,三级缓存256MB,主频3.1-3.75GHz,默认热设计功耗360W,千颗批发价9087美元。至强铂金8490H是IntelSapphireRapids家族中的旗舰型号,Intel7工艺,60核心120线程,三级缓存112.5MB,主频1.9-3.5GHz,默认热设计功耗350W,千颗批发价17000美元。毋庸置疑,AMDEPYC是目前性能最为强劲的处理器,凭借先进的制程工艺、架构技术,以及更多的核心、更高的频率,无论是整体综合性,还是多核整数性能、多核浮点性能,都稳稳拿下第一,并大幅领先Intel至强,真的是赢麻了。当然,Intel也在奋起直追,今年底会有升级版第五代可扩展至强EmeraldRapids,明年还有Intel3新工艺第六代,包括纯大核的GraniteRapids、纯小核的SierraForest。AMD则早就公布了Zen5新架构的Turin,从目前的情况预计仍然会有极强的领先优势。值得一提的是,在这次的测试中,国产处理器也有不俗的表现。...PC版:https://www.cnbeta.com.tw/articles/soft/1383025.htm手机版:https://m.cnbeta.com.tw/view/1383025.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人