黄仁勋：CPU性能扩展速度下降处理密集型应用应得到加速

黄仁勋：CPU性能扩展速度下降处理密集型应用应得到加速在黄仁勋看来，如果我们需要处理的数据继续呈指数级增长，但处理的性能却没有提升，我们将经历计算膨胀和计算成本的提升。他指出，有一种更好的方法增强计算机的处理性能，那便是通过计算机增强CPU提供加速工作，通过专用处理器做得更好。“现在，随着CPU扩展速度放缓，最终基本停止，我们应该加快让每一个处理密集型应用程序都得到加速，每个数据中心也肯定会得到加速，加速计算是非常明智的，这是很普通的常识。”黄仁勋表示。他指出，计算机图形学是一门完全可以并行操作的学科。计算机图形学、图像处理、物理模拟、组合优化、图形处理、数据库处理，以及深度学习中非常著名的线性代数，许多类型的算法都非常适合通过并行处理来加速。因此，英伟达通过为CPU添加专用的辅助处理器，来实现了对于密集型应用程序的加速。“由于这两个处理器可以并行工作，它们都是自治的，具有更多独立的值，我们可以将100个单位的时间加速到1个单位的时间，速度快得令人难以置信。”黄仁勋表示。...PC版：https://www.cnbeta.com.tw/articles/soft/1433281.htm手机版：https://m.cnbeta.com.tw/view/1433281.htm

在Telegram中查看

相关推荐

NVIDIA创始人兼CEO黄仁勋表示，随着中央处理器（CPU）扩展速度放缓，最终基本停止，我们应该加快让每一个处理密集型应用程序

NVIDIA创始人兼CEO黄仁勋表示，随着中央处理器（CPU）扩展速度放缓，最终基本停止，我们应该加快让每一个处理密集型应用程序都得到加速，每个数据中心也肯定会得到加速，加速计算是非常明智的，这是很普通的常识。英伟达通过为CPU添加专用的辅助处理器，来实现了对于密集型应用程序的加速。“由于这两个处理器可以并行工作，它们都是自治的，具有更多独立的值，我们可以将100个单位的时间加速到1个单位的时间，速度快得令人难以置信。”黄仁勋表示。

英伟达黄仁勋：生成式 AI 彻底改变电脑架构，显卡将远比 CPU 重要

英伟达黄仁勋：生成式AI彻底改变电脑架构，显卡将远比CPU重要据CNBC报道，英伟达CEO黄仁勋在接受其专访时表示，英伟达将迎来创纪录的一年，生成式AI将彻底改变电脑架构。黄仁勋指出，CPU的进步已经放缓，GPU加速计算才是未来，生成式AI便是一项杀手级应用。英伟达相信电脑的架构正在进行明显的转变，这可能会带来更多的成长。数据中心的零部件甚至可能成为一个万亿美元的市场。黄仁勋解释称，传统上电脑或服务器最重要的CPU，这个市场主要玩家包括英特尔和AMD。但随着需要大量计算能力的AI应用出现，GPU将成为主角，英伟达主导了当前全球AIGPU市场。黄仁勋表示，过去的数据中心主要靠CPU完成文件检索，但未来将变为生成式数据。这也意味着检索全部数据的方式将变化为由AI生成大部分数据，因此黄仁勋断言未来数据中心和超级计算机无需数百万个CPU集群，只需少量CPU即可应对，但这些CPU将与数百万个GPU进行整合。()频道：@TestFlightCN

黄仁勋COMPUTEX2024演讲1.6万字全程实录：我们正在经历计算通货膨胀

黄仁勋COMPUTEX2024演讲1.6万字全程实录：我们正在经历计算通货膨胀这场演讲涵盖了从AI基础技术到未来机器人和生成式AI在各个行业的应用，全面展示了英伟达在推动计算技术变革方面的卓越成就。黄仁勋表示，英伟达位于计算机图形、模拟和AI的交汇处，这是英伟达的灵魂。今天展示给我们的一切都是模拟的，它是数学、科学、计算机科学、令人惊叹的计算机架构的结合。这些都不是动画，而是自制的，英伟达把它全部融入了Omniverse虚拟世界。▍加速计算与AI黄仁勋表示，我们所看到的一切的基础是两项基本技术，加速计算和在Omniverse内部运行的AI，这两股计算的基本力量，将重新塑造计算机行业。计算机行业已有60年的历史。在很多方面，今天所做的一切都是在1964年黄仁勋出生后一年发明的。IBMSystem360引入了中央处理单元、通用计算、通过操作系统实现硬件和软件的分离、多任务处理、IO子系统、DMA以及今天使用的各种技术。架构兼容性、向后兼容性、系列兼容性，所有今天对计算机了解的东西，大部分在1964年就已经描述出来了。当然，PC革命使计算民主化，把它放在了每个人的手中和家中。2007年，iPhone引入了移动计算，把计算机放进了我们的口袋。从那时起，一切都在连接并随时运行通过移动云。这60年来，我们只见证了两三次，确实不多，其实就两三次，主要的技术变革，计算的两三次构造转变，而我们即将再次见证这一切的发生。有两件基本的事情正在发生。首先是处理器，即计算机行业运行的引擎，中央处理单元的性能提升显著放缓。然而，我们需要进行的计算量仍然在迅速增长，呈指数级增长。如果处理需求，数据需要处理的量继续指数级增长但性能没有，计算通货膨胀将会发生。事实上，现在就看到了这一点。全球数据中心使用的电力量正在大幅增长。计算成本也在增长。我们正在经历计算通货膨胀。当然，这种情况不能继续下去。数据量将继续以指数级增长，而CPU性能提升将永远不会恢复。我们有更好的方法。近二十年来，英伟达一直在研究加速计算。CUDA增强了CPU，卸载并加速了专用处理器可以更好完成的工作。事实上，性能非常出色，现在很明显，随着CPU性能提升放缓并最终显著停止，应该加速一切。黄仁勋预测，所有需要大量处理的应用程序都会被加速，当然每个数据中心在不久的将来都会被加速。现在加速计算是非常合理的。如果你看看一个应用程序，这里100t代表100单位时间，它可能是100秒，也可能是100小时。在很多情况下，如你所知，现在正在研究运行100天的AI应用程序。1T代码是指需要顺序处理的代码，其中单线程CPU是非常关键的。操作系统控制逻辑非常重要，需要一条指令接着一条指令地执行。然而，有很多算法，比如计算机图形处理，可以完全并行操作。计算机图形处理、图像处理、物理模拟、组合优化、图处理、数据库处理，当然还有深度学习中非常著名的线性代数，这些算法都非常适合通过并行处理来加速。因此，发明了一种架构，通过在CPU上添加GPU来实现。专用处理器可以将耗时很长的任务加速到极快的速度。因为这两个处理器可以并肩工作，它们都是自主的，独立的，可以将原本需要100个时间单位的任务加速到1个时间单位，速度的提升是难以置信的，效果非常显著，速度提升了100倍，但功耗只增加了大约三倍，成本只增加了约50%。在PC行业一直这样做，英伟达在1000美元PC上加一个500美元GeForceGPU，性能会大幅提升。英伟达在数据中心也这样做，一个价值十亿美元的数据中心，加上5亿美元的GPU，突然间它就变成了一个AI工厂，这种情况正在全球各地发生。节省的成本非常惊人。每花一美元就能获得60倍的性能提升，速度提升了100倍，而功耗只增加了三倍，成本只增加了1.5倍。这种节省是难以置信的。节省的成本可以用美元来衡量。很明显，许多公司在云端处理数据上花费了数亿美元。如果这些过程被加速，不难想象可以节省数亿美元。这是因为在通用计算上已经经历了很长时间的通货膨胀。现在终于决定加速计算，有大量被捕获的损失可以现在回收，许多被保留的浪费可以从系统中释放出来。这将转化为金钱的节省和能源的节省，这也是为什么黄仁勋常说‘买得越多，省得越多’。黄仁勋还表示，加速计算确实带来了非凡的成果，但它并不容易。为什么它能省这么多钱，但这么长时间以来人们却没有这样做呢？原因是因为这非常难。没有一种软件可以通过C编译器运行，突然间应用程序就快了100倍。这甚至不合逻辑。如果可以做到这一点，他们早就改造CPU了。事实上，必须重写软件，这是最难的部分。软件必须完全重写，以便能够重新表达在CPU上编写的算法，使其能够被加速、卸载并行运行。这种计算机科学的练习极其困难。黄仁勋表示，在过去20年里，英伟达让全世界变得更容易。当然，非常著名cuDNN，即处理神经网络的深度学习库。英伟达有一个AI物理库，可以用于流体动力学和许多其他应用中，神经网络必须遵守物理定律。英伟达有一个叫ArialRan新的伟大库，它是一个CUDA加速5G无线电，能够像定义世界网络互联网一样定义和加速电信网络。加速的能力使我们能够将所有的电信转变为与云计算平台相同类型的平台。cuLITHO是一个计算光刻平台，能够处理芯片制造中最计算密集的部分——制作掩膜。台积电正在使用cuLITHO进行生产，节省了大量的能源和金钱。台积电的目标是加速他们的堆栈，以便为进一步的算法和更深入、更窄的晶体管的计算做好准备。Parabricks是英伟达基因测序库，它是世界上吞吐量最高的基因测序库。cuOpt是一个用于组合优化、路线规划优化的令人难以置信的库，用于解决旅行商问题，非常复杂。科学家们普遍认为需要量子计算机来解决这个问题。英伟达创造了一个在加速计算上运行的算法，运行速度极快，创下了23项世界纪录。cuQuantum是一个量子计算机的模拟系统。如果你想设计一个量子计算机，你需要一个模拟器。如果你想设计量子算法，你需要一个量子模拟器。如果量子计算机不存在，你如何设计这些量子计算机，创建这些量子算法呢？你使用今天世界上最快的计算机，当然就是NVIDIACUDA。在上面，英伟达有一个模拟器，可以模拟量子计算机。它被全世界数十万研究人员使用，并集成到所有领先的量子计算框架中，广泛用于科学超级计算中心。cuDF是一个令人难以置信的数据处理库。数据处理消耗了今天云端支出的绝大部分，所有这些都应该被加速。cuDF加速了世界上使用的主要库，比如Spark，许多公司可能都在使用Spark，Pandas，一个新的叫做Polars的库，当然还有NetworkX，一个图处理数据库库。这些只是一些例子，还有很多其他的。黄仁勋表示，英伟达必须创建这些库，以便让生态系统能够利用加速计算。如果英伟达没有创建cuDNN，光有CUDA是不可能让全世界的深度学习科学家使用的，因为CUDA、TensorFlow和PyTorch中使用的算法之间的距离太远了。这几乎像是在没有OpenGL情况下做计算机图形处理，或者没有SQL的情况下进行数据处理。这些特定领域的库是英伟达的珍宝，总共有350个库。正是这些库使英伟达能够打开如此多的市场。上周，Google宣布在云端加速Pandas，这是世界上最流行的数据科学库。你们中的许多人可能已经在使用Pandas，它被全球1000万数据科学家使用，每月下载1.7亿次。PC版：https://www.cnbeta.com.tw/articles/soft/1433308.htm手机版：https://m.cnbeta.com.tw/view/1433308.htm

NVIDIA黄仁勋：CPU用得越来越少 GPU才是关键

NVIDIA黄仁勋：CPU用得越来越少GPU才是关键推动这一切的不是高价买RTX40系“臭打游戏的人群”，而是一群舍得几十万甚至百万买显卡的人——搞AI的，Q2财季中主要的增长就来自数据中心GPU的爆发，各大科技公司都在争相部署AI，A100、H100等高端AI加速卡即便是加价也有人在抢。这也让NVIDIACEO、创始人黄仁勋更加自信，日前在采访中他放言计算机时代已经变了，数据中心需要用得CPU越来越少，不再是传统上购买数百万个CPU，而是转而购买数百万个GPU。黄仁勋预测数据中心GPU的需求可能会是一个万亿美元的超级市场，而NVIDIA有机会乘风飞扬，迎接更大的增长。至于NVIDIA说得对不对，资本市场已经用脚投票了，昨晚的美股市场上，不仅NVIDIA涨疯了，同样带动了有GPU业务的AMD股价大涨10%。至于主业还是CPU的Intel，在这波大浪中一度暴跌7%，股价创造了2个月来的新低。...PC版：https://www.cnbeta.com.tw/articles/soft/1361775.htm手机版：https://m.cnbeta.com.tw/view/1361775.htm

黄仁勋公布NVIDIA路线图：明年升级Blackwell芯片后年推出新一代AI平台

黄仁勋公布NVIDIA路线图：明年升级Blackwell芯片后年推出新一代AI平台在演讲开头，黄仁勋称自己很想用中文进行本次演讲，但因为要说的内容太多，对他而言难度过高。黄仁勋表示，自己的演讲有两个重点，即加速计算和AI，这两个要素“将能够重启电脑产业”。随后，黄仁勋花了较大篇幅来强调英伟达运算平台CUDA的重要性。黄仁勋表示，作为使用神经网络来进行深度学习的平台，CUDA显著推动了计算机科学在近20年内的进展。现在，全球已有500万名CUDA开发者。黄仁勋指出，CUDA已经实现了“良性循环”，能够在运算基础不断增长的情况下，扩大生态系统，令成本不断下降：“这将促使更多的开发人员提出更多的想法，带来更多的需求实验，成为伟大事业的开端。”黄仁勋称CUDA平台已实现良性循环。来源：英伟达直播此外，黄仁勋还重点介绍了英伟达仿真平台Omniverse。据介绍，Omniverse已经帮助众多大厂实现了数字孪生。例如，通过运用Omniverse，工厂可以事先规划流水线，气象学家可以预测极端气候等等。谈到英伟达的核心产品芯片，黄仁勋再次重申“买越多、省越多”。黄仁勋表示，计算机行业在中央处理器（CPU）上运行的引擎，其性能扩展速度已经大大降低。然而，需要处理的数据“继续呈指数级增长”，如果保持原状，人们将不得不经历计算膨胀和计算成本的提升。而在这种情况下，有一种更好的方法增强计算机的处理性能，那就是通过计算机增强CPU来提供加速计算：“现在，CPU的扩展速度逐渐放缓，最终会基本走向停止。我们应该让每一个处理密集型应用程序都得到加速，每个数据中心也就会得到加速。加速计算是非常明智的，这是普通常识。”黄仁勋宣传CPU和GPU相结合的加速计算。来源：英伟达直播在台上，黄仁勋又一次展示了英伟达在今年3月GTC大会上推出的最新Blackwell芯片，以及由其组装而成的机箱，乃至规模庞大的数据中心示意图。黄仁勋自豪地表示：“只有英伟达能做到，只有我们能做到。”更重要的是，黄仁勋透露，随着Blackwell芯片开始生产，英伟达计划每年升级AI加速器和AI芯片，预计将于2025年推出BlackwellUltra，在2026年推出名为“Rubin”的下一代AI平台，该平台将采用HBM4内存。此前，天风国际分析师郭明𫓹预测，英伟达的下一代AI芯片“Rubin”系列/R100将在2025年第四季度开始量产。黄仁勋“剧透”英伟达此后的芯片规划。来源：英伟达直播就在半个月前，在发布2025财年第一财季财报后的英伟达业绩会上，黄仁勋曾表示，Blackwell芯片已经在“满负荷生产”，预计年内为公司“带来大量收入”。黄仁勋还屡次强调“我们正在加速”，称将在AI芯片上实现“一年一上新”。本次演讲的最后，话题又回到了机器人身上。据介绍，比亚迪、西门子、泰瑞达和Alphabet旗下公司Intrinsic等全球十多家机器人行业领先企业已经在研究、开发和生产中采用NVIDIAIsaac机器人平台。黄仁勋表示：“机器人时代已经到来。有朝一日，移动的物体都将实现自主运行。”在截至4月28日的2025财年第一财季，英伟达期内实现营收260.44亿美元，同比上涨262%；净利润148.81亿美元，同比上涨628%。同时，该公司对下一季度的业绩做出指引，预测2025财年第二财季的销售额将达到280亿美元，上下浮动2%，高于市场预期的266亿美元。发布第一财季财报后，英伟达股价一度迅速飙升，助公司股价突破1000美元。当地时间5月31日，英伟达（Nasdaq：NVDA）股价收于每股1095.95美元，跌0.82%，总市值2.70万亿美元。据Wind数据，在过去的2023年中，英伟达股价涨幅超230%，今年以来涨幅已达到121.39%。...PC版：https://www.cnbeta.com.tw/articles/soft/1433298.htm手机版：https://m.cnbeta.com.tw/view/1433298.htm

CUDA加速数学和机器学习：从入门到精通，利用NVIDIA GPU进行数学和机器学习的加速计算，适用于希望扩展算法至GPU的研究

：从入门到精通，利用NVIDIAGPU进行数学和机器学习的加速计算，适用于希望扩展算法至GPU的研究人员和应用专家CUDA（统一计算设备架构）是NVIDIA开发的并行计算平台和编程模型。它允许软件开发人员利用NVIDIAGPU（图形处理单元）巨大的并行处理能力来执行通用计算任务，而不仅仅是其传统的图形渲染角色。GPU设计有数千个更小、更高效的核心，经过优化可同时处理多个任务。这使得它们非常适合可分解为许多独立操作的任务，例如科学模拟、机器学习、视频处理等。与传统的仅使用CPU的代码相比，CUDA可显著提高合适应用程序的速度。GPU可以并行处理大量数据，从而加速在CPU上需要更长时间的计算。对于某些类型的工作负载，GPU比CPU更节能，可提供更高的每瓦性能。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人