Hot Chips 34：摆脱x86束缚英伟达详解Grace服务器CPU设计

HotChips34：摆脱x86束缚英伟达详解Grace服务器CPU设计在HotChips大会期间，英伟达详细介绍了该公司的GraceCPU设计。作为一种经典意义上的中央处理器，其旨在取代英特尔至强（Xeon）/AMD霄龙（EPYC）竞品，以在预先构建的高性能计算（HPC）服务器中扮演串行处理的角色——因为每台服务器的六张GPU加速卡需要通过CPU进行互连。（viaWCCFTech）据悉，该公司不仅研究了CPU层面的I/O与机器架构的瓶颈，还意识到了其计算服务器需要专门为这样的应用场景而定制中央处理器。得益于针对NVIDIAAPI的高度架构优化，GraceCPU就此应运而生。作为该公司首款服务器CPU产品，其效用可与Intel/AMD竞品一较高下。作为一款单芯片，其采用了台积电N4（4nmEUV）工艺制造，且英伟达将带有一两颗GraceCPU+一颗H100的板子称作Superchip或GraceHopper超级芯片。可知每个GraceCPU包含了一个900GB/s的交换结构，以及一个带宽达到PCIe5.0x16七倍的CoherentInterface接口。后者也是将相伴的H100或节点上相邻的超级芯片、与一致的内存访问连接起来的关键。GraceCPU的串行处理能力，由72核心的ARMv964-bitCPU提供，而一枚超级芯片则包含了144个核心。主内存采用了LPDDR5x接口（支持ECC），每个‘插槽’的带宽高达1TB/s——媲美超过24个通道的DDR5方案。此外具有68条PCIe5.0扮演了关键的串行IO接口角色，其主要被用于连接NVMe存储设备，且芯片的标称峰值TDP功耗达到了500W。随着GraceCPU的亮相，英伟达展示了该公司为企业和HPC应用场景设计大型多核处理器方面的强大工程实力。TechPowerUp指出：鉴于ARM已大幅缩小与x86-64平台的性能、效率和IPC表现差距，我们也不难理解绿厂为何没能拿到蓝厂的x86许可，原本它有望交付出与英特尔相媲美的企业级处理器。即便如此，英伟达的DGX计算节点、以及后续的更多预构建工作站/服务器（涵盖众多应用场景），势必将逐渐摆脱传统x86CPU、并用Grace及其继任者取而代之。相关文章:NVIDIA推出用于HPC和AI场景的Grace和GraceHopper超算芯片NVIDIAGrace处理器详情公布：功耗500W、性能不及Zen2...PC版：https://www.cnbeta.com/articles/soft/1308515.htm手机版：https://m.cnbeta.com/view/1308515.htm

在Telegram中查看

相关推荐

NVIDIA准备将基于Arm的Grace CPU作为独立的企业级产品发布

NVIDIA准备将基于Arm的GraceCPU作为独立的企业级产品发布Grace采用的是双芯片封装，有GPU+CPU和纯CPU两种产品。然而，这在一定程度上限制了客户，因为他们现在被"限制"必须要用Hopper架构或两个CPU，而他们可能只需要一个芯片。不过，英伟达确实有计划单独提供其高端GraceCPU。英伟达目前的GPU路线图仍然显示，该公司希望通过即将推出的GH200、GB200和GX200等架构，将其超级芯片设计扩展到CPU+GPU套件中，不过我们可能会在即将举行的GTC上现，该公司正在将GraceCPU或其后续产品引入独立服务器领域。英伟达公司首席财务官科莱特-克雷斯（ColetteKress）在富国银行（WellsFargo）活动上发言时，被问及公司是否有计划为服务器行业提供独立CPU中的Grace架构，回答非常明确，以下是她的发言：是否会推出GraceHopper、GH200、GH300等后续版本？还是只有一个Grace？英伟达公司基于ARM的CPU是否有市场？只推出Grace是有可能的。我们可能会在数据中心看到新的产品方案，我们也可能会看到Grace的机会。-科莱特-克雷斯（英伟达公司首席财务官）虽然NVIDIA首席财务官还没有正式确认，但从行业未来的发展来看，该公司似乎有计划单独提供GraceCPU。就GraceCPU的性能而言，它共有144个内核（每个芯片72个ArmNeoverseV2），支持960GB的LPDDR5X内存，原始带宽1TB/s，综合功耗为500W。其他规格包括117MB三级缓存和58条Gen5通道，全部采用台积电4N工艺节点。鉴于NVIDIA人工智能产品已经深入市场，以独立封装的方式提供GraceCPU可能会改变数据中心的运算方式。此外，这也意味着英特尔和英伟达等公司的x86解决方案将面临更激烈的竞争，因为官方基准测试显示，GraceCPU的效率和性能与业界同类产品相比极具竞争力。服务器并不是英伟达计划推出独立CPU的唯一市场，该公司预计到2025年将推出基于Arm的解决方案，进军个人电脑消费市场。...PC版：https://www.cnbeta.com.tw/articles/soft/1401035.htm手机版：https://m.cnbeta.com.tw/view/1401035.htm

黄仁勋：NVIDIA只用两年就研制出比x86快1.3倍的CPU处理器

黄仁勋：NVIDIA只用两年就研制出比x86快1.3倍的CPU处理器他坦言，相对于友商需要花费很多年，NVIDIA只用两年时间就研制出GraceCPU，这的确是相对短的时间。据悉，GraceCPU基于ARMv9指令集打造，144核设计，缓存容量396MB，支持LPDDR5XECC内存，带宽高达1TB/s，还支持PCIe5.0、NVLink-C2C互连等。号称比竞品x86处理器（AMDZen4Genoa）快了1.3倍，节省60%的能耗。连同GPU，一块20.3x12.7厘米就能放下，两个一组可以放入1U风冷服务器机架。...PC版：https://www.cnbeta.com.tw/articles/soft/1350827.htm手机版：https://m.cnbeta.com.tw/view/1350827.htm

国产化x86 CPU 兆芯成立股份公司正推进上市进程

国产化x86CPU兆芯成立股份公司正推进上市进程上海兆芯集成电路有限公司2013年4月成立，基于威盛x86CPU技术授权，发展出了开先ZX/KX系列PC与嵌入式处理器、开胜ZX/KH系列处理器、ZX系列芯片组与扩展芯片。2019年6月，开先KX-6000、开胜KH-30000系列处理器正式发布，主频高达3.0GHz，率先在国产通用处理器主频指标上实现关键突破。2022年11月，开先KX-6000G、开胜KH-40000系列处理器正式发布，全新设计的自主架构，核心数量最多达32个，图形性能也实现了4倍的飞跃。2021年4月，兆芯曾获得上海集成电路产业投资基金等入股，注册资本增至约11.7亿美元。...PC版：https://www.cnbeta.com.tw/articles/soft/1352057.htm手机版：https://m.cnbeta.com.tw/view/1352057.htm

NVIDIA Grace处理器详情公布：功耗500W、性能不及Zen2

NVIDIAGrace处理器详情公布：功耗500W、性能不及Zen2NVIDIA设计CPU产品已经有段时间了，不过Tegra从手机、平板到盒子折腾一番后，最终发现自己的归宿在汽车自动驾驶以及任天堂Switch游戏机上。抛开Tegra，NVIDIA在今年的GTC2022上还公布了名为Grace的处理器，主要用于服务器、高性能计算等领域。在本次HotChips34大会上，NV公布了Grace的更多详情，感兴趣的不妨了解下。据悉，Grace处理器采用台积电4nm工艺制造，72核ARMv9指令集架构。注意，NV不是直接套用的ARMCortex公版（比如X1/X2、A710等），而是和苹果一样，纯自行研制CPU核。因为NVIDIA只卖两种Grace处理器集成方案，一是两颗CPU的双芯平台，一是GraceCPU+HopperGPU的联合平台，所以一套系统就能做到144核规模。此外，处理器还支持最大512GB的LPDDR5X内存（ECC），提供68条PCIe5.0通道，三级缓存多达117MB。性能方面，72核在Spec_Int中可拿到370分，大约是AMDEPYC7742的一半水平（128核Zen2）。PC版：https://www.cnbeta.com/articles/soft/1308339.htm手机版：https://m.cnbeta.com/view/1308339.htm

NVIDIA自研4nm CPU跑分超越阿里128核CPU登顶第一

NVIDIA自研4nmCPU跑分超越阿里128核CPU登顶第一在自研CPU上，NVIDIA去年就公布了GraceCPU服务器处理器，这是一款高达144核的ARM处理器，日前在hotchips会议上NVIDIA又公布了Grace的架构细节及跑分，SPECrate2017_int_base最高可达740分，不仅超过了AMD及Intel的x86旗舰，也超过了前不久拿下第一的阿里倚天710处理器。GraceCPU之前说是5nm工艺，现在确认是5nm改良版的4nm定制版，单核心可达72核，双芯下可达144核，L3缓存117MB（双芯下234MB），内部芯片互联带宽可达3.2TB/s，支持68路PCIe5.0，支持16通道LPDDR5X内存，带宽超过1TB/s，C2C-NVlink总线带宽高达900GB/s，是PCIe5.0的7倍性能，5倍能效。此外，NVIDIA还公布了GraceCPU的性能，单芯72核的SPECrate2017_int_base性能是370分，双芯下可达740分，并行效率非常高，基本上是线性提升。这个性能是什么概念呢？hardwarexxx网站汇总了多个SPECrate2017_int_base分数，AMD及Intel的36核或者64核x86处理器，同时也超过了阿里的倚天710。740分的SPECrate2017_int_base性能是目前最高的，不仅遥遥领先倚天710是阿里自研的5nm128核ARM服务器处理器，之前以510分的成绩成为SPECrate2017_int_base第一，现在被NVIDIA的144核CPU超越了也是正常，毕竟在内存及互连架构上NVIDIA的设计更恐怖。PC版：https://www.cnbeta.com/articles/soft/1307053.htm手机版：https://m.cnbeta.com/view/1307053.htm

出口禁令促使俄罗斯使用中国的 X86 CPU 替代品

出口禁令促使俄罗斯使用中国的X86CPU替代品随着俄罗斯与外国处理器制造商英特尔和AMD的关系被切断，该国一直在争相转向更多的本地CPU和组件。俄罗斯在确保新电脑供应链方面的最新步骤是新发布的台式机主板，旨在支持中国芯片设计商昭信公司生产的x86兼容CPU，昭信公司是台湾维亚科技和上海市政府的合资企业。根据俄语新闻聚合网站Habr上周发表的一篇文章，这款名为MBX-Z60A的新主板由电子制造商Dannie制造，该公司在俄罗斯和中国设有总部。该主板旨在帮助俄罗斯取代因美国和其他国家的出口禁令而无法再从英特尔和AMD获得的x86处理器。Habr说，Dannie公司在俄罗斯的分部，有能力每月生产数万块主板，而且随着时间的推移可能会扩大。——theregister

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人