黄仁勋向台积电放核弹:干掉40000台CPU服务器 计算光刻提速40倍

黄仁勋向台积电放核弹:干掉40000台CPU服务器计算光刻提速40倍总体来看,此次演讲可总结成一大‘亮点’和一大‘重点’。‘亮点’是英伟达秘密研发四年、向芯片制造业甩出一枚技术“核弹”——通过突破性的光刻计算库cuLitho,将计算光刻加速40倍以上,使得2nm及更先进芯片的生产成为可能。全球最大晶圆厂台积电、全球光刻机霸主阿斯麦、全球最大EDA巨头新思科技均参与合作并引入这项技术。老黄还直接上了一堂光刻机小课堂,配合动画讲解芯片制造的最关键设备光刻机是如何运作的。‘重点’毫无疑问是生成式AI。老黄对OpenAI的ChatGPT赞不绝口,夸它“震惊世界”,代表着“崭新的计算平台已经诞生,AI的‘iPhone时刻’已经到来”。据英伟达透露,OpenAI将在微软Azure超级计算机上使用英伟达H100GPU,AI文生图明星创企Stability.ai是H100GPU的早期访问客户。为了加速生成式AI开发及部署,老黄宣布推出3款全新推理GPU,分别擅长AI视频、图像生成、ChatGPT等大型语言模型的推理加速。此外,英伟达还发布了AI超级计算服务DGXCloud、加速企业创建大模型和生成式AI的云服务NVIDIAAIFoundations等,并宣布与日本三菱联合打造了日本第一台用于加速药研的生成式AI超级计算机。英伟达也发布了一系列面向元宇宙、汽车、量子计算领域的新进展,包括PaaS服务NVIDIAOmniverseCloud现已向特定企业开放、与宝马集团扩大合作建设虚拟工厂、比亚迪更多车型将采用NVIDIADRIVEOrin平台,以及与QuantumMachines合作推出了全球首个GPU加速量子计算系统。老黄宣布,英伟达已经更新了100个加速库,目前英伟达全球生态系统已覆盖400万开发人员、4万家公司和1.4万家初创公司。01.芯片制造炸场!将计算光刻提速40倍三大半导体巨头站台我们先来看看今天的“惊喜弹”:英伟达发布了一个造福先进芯片制造的突破性技术——NVIDIAcuLitho计算光刻库。光刻是芯片制造过程中最复杂、最昂贵、最关键的环节,其成本约占整个硅片加工成本的1/3甚至更多。计算光刻模拟了光通过光学元件并与光刻胶相互作用时的行为,应用逆物理算法来预测掩膜板上的图案,以便在晶圆上生成最终图案。简而言之,计算光刻是提高光刻分辨率、推动芯片制造达到2nm及更先进节点的关键手段。“计算光刻是芯片设计和制造领域中最大的计算工作负载,每年消耗数百亿CPU小时。”黄仁勋讲解道,“大型数据中心24x7全天候运行,以便创建用于光刻系统的掩膜板。这些数据中心是芯片制造商每年投资近2000亿美元的资本支出的一部分。”而cuLitho能够将计算光刻的速度提高到原来的40倍。老黄说,英伟达H100GPU需要89块掩膜板,在CPU上运行时,处理单个掩膜板需要两周时间,而在GPU上运行cuLitho只需8小时。此外,台积电可通过在500个DGXH100系统上使用cuLitho加速,将功率从35MW降至5MW,替代此前用于计算光刻的40000台CPU服务器。使用cuLitho的晶圆厂,每天可以生产3-5倍多的光掩膜,仅使用当前配置电力的1/9。全球最大晶圆厂台积电、全球最大光刻机制造商阿斯麦(ASML)、全球最大EDA公司新思科技(Synopsys)都为这项新技术站台。老黄透露道,cuLitho历时四年研发,与这三家芯片大厂进行了密切合作。台积电将于6月开始对cuLitho进行生产资格认证。台积电CEO魏哲家夸赞它为台积电在芯片制造中广泛地部署光刻解决方案开辟了新的可能性,为半导体规模化做出重要贡献。阿斯麦CEOPeterWennink说阿斯麦计划将对GPU的支持集成到其所有的计算光刻软件产品中。新思科技董事长兼CEOAartdeGeus称,在英伟达的cuLitho平台上运行新思科技的光学邻近校正(OPC)软件,将性能从几周加速到几天。cuLitho将有助于晶圆厂缩短原型周期时间、提高产量、减少碳排放,为2nm及更先进的工艺奠定基础,并使得曲线掩模、highNAEUV、亚原子级光刻胶模型等新技术节点所需的新型解决方案和创新技术成为可能。02.发布ChatGPT专用推理GPU登浏览器即可访问AI超级计算机围绕生成式AI,英伟达发布了一系列加速模型训练和推理的软硬件新品及服务。老黄首先讲述了英伟达在生成式AI革命之初是如何进入AI领域的。“英伟达加速计算始于DGX(AI超级计算机),这是大型语言模型实现突破背后的引擎。”他谈道,“(2016年)我亲手将全球首款DGX交给了OpenAI,自此以后,《财富》100强企业中有一半安装了DGXAI超级计算机。DGX已成为AI领域的必备工具。”“生成式AI将重塑几乎所有行业。”老黄说,ChatGPT、StableDiffusion、DALL-E和Midjourney唤醒了世界对生成式AI的认知。在他看来,生成式AI是一种新型计算机、一种可以用人类语言进行编程的计算机,与个人电脑(PC)、互联网、移动设备和云类似,这种能力影响深远,每个人都可以命令计算机来解决问题,现在每个人都可以是程序员。1、训练:生成式AI明星企业都在用,AI超级计算机已全面投产训练方面,英伟达H100GPU基于Hopper架构及其内置TransformerEngine,针对生成式AI、大型语言模型和推荐系统的开发、训练和部署进行了优化,利用FP8精度在大型语言模型上比上一代A100提供了快9倍的AI训练和快30倍的AI推理。DGXH100拥有8个H100GPU模组,在FP8精度下可提供32PetaFLOPS的算力,并提供完整的英伟达AI软件堆栈,助力简化AI开发。黄仁勋宣布,NVIDIADGXH100AI超级计算机已全面投入生产,很快将面向全球企业。微软宣布Azure将向其H100AI超级计算机开放私人预览版。黄仁勋说,云计算巨头现在正在提供英伟达H100 GPU,生成式AI领域的多家明星企业都在用H100加速工作。比如,OpenAI用H100的上一代A100训练和运行AI聊天机器人ChatGPT,并将在微软Azure超级计算机上使用H100;AI文生图明星创企Stability.ai是AWS上的H100早期访问客户。最近刚推出开源大模型的社交软件巨头Meta开发了基于Hopper架构的AI超级计算机GrandTeton系统。相比其前代Zion,该系统的算力大幅提升,可同时支持推荐模型和内容理解的训练和推理。英伟达与其主要合作伙伴宣布推出强大的GPUNVIDIAH100TensorCoreGPU新产品和服务,以满足生成式AI训练和推理需求。AWS宣布即将推出的EC2超级集群(EC2P5实例)可扩展至20000个互连的H100。OracleCloudInfrastructure(OCI)宣布限量推出采用H100的全新OCICompute裸金属GPU实例。为企业和开发者提供多模态视频理解的平台TwelveLabs计划在OCISupercluster上使用H100实例来即时、智能和容易搜索视频。2、推理:发布3款GPU、3类云服务推理方面,英伟达推出全新GPU推理平台:4种配置(L4TensorCoreGPU、L40GPU、H100NVLGPU、GraceHopper超级芯片)、一个体系架构、一个软件栈,分别用于加速AI视频、图像生成、大型语言模型部署和推荐系统。(1)L4:针对AI视频设计的通用GPU,可提供比CPU高120倍的AI视频性能,能效提高99%;优化了视频解码与转码、视频内容审核、视频通话等功能,如背景替换、重新打光、眼神交流、转录和实时翻译等。一台8-GPUL4服务器将取代100多台用于处理AI视频的双插槽CPU服务器。(2)L40:用于图像生成,针对图形和AI支持的2D、视频和3D图像生成进行了优化,推理性能是英伟达最受欢迎的云推理GPUT4的10倍。(3)H100NVL:针对ChatGPT等大型语言模型的大规模部署,配备双GPUNVLink,将两张拥有94GBHBM3显存的PCIeH100GPU拼接在一起,可处理拥有1750亿参数的GPT-3大模型,同时支持商用PCIe服务器轻松扩展。老黄说,目前在云上唯一可以实际处理ChatGPT的GPU是HGXA100。与适用于GPT-3处理的HGXA100相比,一台搭载4对H100及双GPUNVLink的标准服务器的速度要快10倍,...PC版:https://www.cnbeta.com.tw/articles/soft/1350547.htm手机版:https://m.cnbeta.com.tw/view/1350547.htm

相关推荐

封面图片

英伟达黄仁勋:生成式 AI 彻底改变电脑架构,显卡将远比 CPU 重要

英伟达黄仁勋:生成式AI彻底改变电脑架构,显卡将远比CPU重要据CNBC报道,英伟达CEO黄仁勋在接受其专访时表示,英伟达将迎来创纪录的一年,生成式AI将彻底改变电脑架构。黄仁勋指出,CPU的进步已经放缓,GPU加速计算才是未来,生成式AI便是一项杀手级应用。英伟达相信电脑的架构正在进行明显的转变,这可能会带来更多的成长。数据中心的零部件甚至可能成为一个万亿美元的市场。黄仁勋解释称,传统上电脑或服务器最重要的CPU,这个市场主要玩家包括英特尔和AMD。但随着需要大量计算能力的AI应用出现,GPU将成为主角,英伟达主导了当前全球AIGPU市场。黄仁勋表示,过去的数据中心主要靠CPU完成文件检索,但未来将变为生成式数据。这也意味着检索全部数据的方式将变化为由AI生成大部分数据,因此黄仁勋断言未来数据中心和超级计算机无需数百万个CPU集群,只需少量CPU即可应对,但这些CPU将与数百万个GPU进行整合。()频道:@TestFlightCN

封面图片

黄仁勋抛出2700W功耗的真核弹 还有240TB显存的AI超级计算机

黄仁勋抛出2700W功耗的真核弹还有240TB显存的AI超级计算机BlackwellB200GPU首次采用了chiplet晶粒封装,包含两颗B100,而B200之间再通过带宽翻倍达1.8TB/s的第五代NVLink5总线互连,最多可连接576块。B100采用专门定制的台积电4NP工艺制造(H100/RTX404N工艺的增强版),已经达到双倍光刻极限尺寸,彼此通过10TB/s带宽的片间互联带宽,连接成一块统一的B200GPU。B100集成多达1040亿个晶体管,比上代H100800亿个增加了足足30%,B200整体就是2080亿个晶体管。核心面积未公布,考虑到工艺极限应该不会比814平方毫米的H100大太多。CUDA核心数量也没说,但肯定会大大超过H10016896个,不知道能不能突破2万个?每颗B100连接四颗24GBHBM3E显存/内存,等效频率8GHz,位宽4096-bit,带宽达4TB/s。如此一来,B200就有多达192GBHBM3E,总位宽8096-bit,总带宽8TB/s,相比H100分别增加1.4倍、58%、1.4倍。性能方面,B200新增支持FP4Tensor数据格式,性能达到9PFlops(每秒9千万亿次),INT/FP8、FP16、TF32Tensor性能分别达到4.5、2.25、1.1PFlops,分别提升1.2倍、1.3倍、1.3倍,但是FP64Tensor性能反而下降了40%(依赖GB200),FP32、FP64Vector性能则未公布。BlackwellGPU还支持第二代Transformer引擎,支持全新的微张量缩放,在搭配TensorRT-LLM、NeMoMegatron框架中的先进动态范围管理算法,从而在新型4位浮点AI推理能力下实现算力和模型大小的翻倍。其他还有RAS可靠性专用引擎、安全AI、解压缩引擎等。至于功耗,B100控制在700W,和上代H100完全一致,B200则首次达到了1000W。NVIDIA宣称,BlackwellGPU能够在10万亿参数的大模型上实现AI训练和实时大语言模型推理。GB200GraceBlackwell是继GraceHopper之后的新一代超级芯片(Superchip),从单颗GPU+单颗CPU升级为两颗GPU加一颗CPU,其中GPU部分就是B200,CPU部分不变还是Grace,彼此通过900GB/s的带宽实现超低功耗片间互联。在大语言模型推理工作负载方面,GB200超级芯片的性能对比H100提升了多达30倍。不过代价也很大,GB200的功耗最高可达2700W,可以使用分冷,更推荐使用液冷。基于GB200超级芯片,NVIDIA打造了新一代的AI超级计算机“DGXSuperPOD”,配备36块超级芯片,也就是包含36颗GraceCPU、72颗B200GPU,彼此通过NVLink5组合在一起,还有多达240TBHBM3E。这台AI超级计算机可以处理万亿参数的大模型,能保证超大规模生成式AI训练和推理工作负载的持续运行,FP4精度下的性能高达11.5EFlops(每秒1150亿亿次)。DGXSuperPOD还具有极强的扩展性,可通过Quantum-X800InfiniBand网络连接,扩展到数万颗GB200超级芯片,并加入BlueField-3DPU数据处理单元,而每颗GPU都能获得1.8TB/s的高带宽。第四代可扩展分层聚合和规约协议(SHARP)技术,可提供14.4TFlops的网络计算能力,比上代提升4倍。此外,NVIDIA还发布了第六代通用AI超级计算平台“DGXB200”,包含两颗Intel五代至强处理器、八颗B200GPU,具备1.4TBHBM3E、64TB/s带宽,FP4精度性能144PFlops(每秒14亿亿次),万亿参数模型实时推理速度提升15倍。DGXB200系统还集成八个NVIDIAConnectX-7网卡、两个BlueField-3DPU高性能网络,每个连接带宽高达400Gb/s,可通过Quantum-2InfiniBand、Spectrum?-X以太网网络平台,扩展支持更高的AI性能。基于BlackwellGPU的产品将在今年晚些时候陆续上市,亚马逊云、戴尔、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉、xAI等都会采纳。亚马逊云、谷歌云、微软Azeure、甲骨文云将是首批提供BlackwellGPU驱动实例的云服务提供商,NVIDIA云合作伙伴计划的中的AppliedDigital、CoreWeave、Crusoe、IBMCloud、Lambda也将提供上述服务。IndosatOoredooHutchinson、Nebius、NexgenCloud、甲骨文欧盟主权云、甲骨文美国/英国/澳大利亚政府云、Scaleway、新加坡电信、NorthernDataGroup旗下的TaigaCloud、YottaDataServices旗下的ShaktiCloud、YTLPowerInternational等主权AI云,也将提供基于Blackwell架构的云服务和基础设施。...PC版:https://www.cnbeta.com.tw/articles/soft/1424251.htm手机版:https://m.cnbeta.com.tw/view/1424251.htm

封面图片

台积电、新思科技首次采用NVIDIA计算光刻平台:最快加速60倍

台积电、新思科技首次采用NVIDIA计算光刻平台:最快加速60倍众所周知,台积电是全球领先的晶圆代工厂,而新思科技则是芯片到系统设计解决方案的领导者。二者已经将NVIDIAcuLitho加速计算光刻光平台,集成到其软件、制造工艺和系统中,在加速芯片制造速度的同时,也加快了对未来最新一代NVIDIABlackwell架构GPU的支持。在现代芯片制造过程中,计算光刻是至关重要的一步,是半导体制造中最苛刻的工作负载,需要大规模的数据中心,而随着时间的推移,硅小型化演进过程呈指数级放大了计算的需求。如果使用CPU来计算,每年需要在计算光刻上消耗数百亿个小时。比如一个典型的芯片掩模,就需要3000万小时或更长时间的CPU计算时间。借助加速计算,350个NVIDIAH100GPU现在可以取代40,000CPU系统,从而缩短生产时间,同时降低成本、空间和功耗。据悉,NVIDIA的计算光刻平台可以将半导体制造最密集的计算工作负载加速40-60倍。NVIDIA还推出了新的生成式AI算法,该算法将进一步增强cuLitho的效率,与当前基CPU计算的方法相比,极大地改进了半导体制造工艺。“计算光刻是芯片制造的基石,”NVIDIA创始人兼CEO黄仁勋说。“我们与台积电和新思科技合作在cuLitho上工作,应用加速计算和生成式人工智能,为半导体扩展开辟了新的领域。”...PC版:https://www.cnbeta.com.tw/articles/soft/1424196.htm手机版:https://m.cnbeta.com.tw/view/1424196.htm

封面图片

传特斯拉增加台积电代工订单 扩产D1超级计算机芯片

传特斯拉增加台积电代工订单扩产D1超级计算机芯片特斯拉使用Dojo超级计算机训练高级驾驶辅助系统和完全自动驾驶系统的人工智能模型。随着FSD、自动驾驶出租车和Optimus机器人等项目的推出,Dojo超级计算机对公司运营的贡献可能会更大。特斯拉增加DojoD1芯片订单也有助于台积电。据报道,台积电与特斯拉的交易使得与高性能计算相关的订单有所增加。虽然特斯拉和台积电都没有对此事发表评论,但业内已经公开知晓这两家公司的业务关系。随着Dojo超级计算机的加入,特斯拉或许能够减少对英伟达GPU芯片产品的依赖。特斯拉一直是英伟达的重要客户,有报道称特斯拉最近启用了一款新的超级计算机,搭载了1万块英伟达H100GPU芯片。这个系统耗资约3亿美元,将用于各种人工智能应用。特斯拉人工智能官方账号在社交媒体X上发布了一系列关于Dojo超级计算机的帖子,展现了其宏大目标。特斯拉表示,Dojo超级计算机于2022年7月开始投产,并预计到2024年1月,其算力将进入世界前五。到2024年10月,特斯拉预计Dojo超级计算机将拥有每秒百亿亿次(100Exa-flop)的计算能力。...PC版:https://www.cnbeta.com.tw/articles/soft/1386321.htm手机版:https://m.cnbeta.com.tw/view/1386321.htm

封面图片

黄仁勋COMPUTEX2024演讲1.6万字全程实录:我们正在经历计算通货膨胀

黄仁勋COMPUTEX2024演讲1.6万字全程实录:我们正在经历计算通货膨胀这场演讲涵盖了从AI基础技术到未来机器人和生成式AI在各个行业的应用,全面展示了英伟达在推动计算技术变革方面的卓越成就。黄仁勋表示,英伟达位于计算机图形、模拟和AI的交汇处,这是英伟达的灵魂。今天展示给我们的一切都是模拟的,它是数学、科学、计算机科学、令人惊叹的计算机架构的结合。这些都不是动画,而是自制的,英伟达把它全部融入了Omniverse虚拟世界。▍加速计算与AI黄仁勋表示,我们所看到的一切的基础是两项基本技术,加速计算和在Omniverse内部运行的AI,这两股计算的基本力量,将重新塑造计算机行业。计算机行业已有60年的历史。在很多方面,今天所做的一切都是在1964年黄仁勋出生后一年发明的。IBMSystem360引入了中央处理单元、通用计算、通过操作系统实现硬件和软件的分离、多任务处理、IO子系统、DMA以及今天使用的各种技术。架构兼容性、向后兼容性、系列兼容性,所有今天对计算机了解的东西,大部分在1964年就已经描述出来了。当然,PC革命使计算民主化,把它放在了每个人的手中和家中。2007年,iPhone引入了移动计算,把计算机放进了我们的口袋。从那时起,一切都在连接并随时运行通过移动云。这60年来,我们只见证了两三次,确实不多,其实就两三次,主要的技术变革,计算的两三次构造转变,而我们即将再次见证这一切的发生。有两件基本的事情正在发生。首先是处理器,即计算机行业运行的引擎,中央处理单元的性能提升显著放缓。然而,我们需要进行的计算量仍然在迅速增长,呈指数级增长。如果处理需求,数据需要处理的量继续指数级增长但性能没有,计算通货膨胀将会发生。事实上,现在就看到了这一点。全球数据中心使用的电力量正在大幅增长。计算成本也在增长。我们正在经历计算通货膨胀。当然,这种情况不能继续下去。数据量将继续以指数级增长,而CPU性能提升将永远不会恢复。我们有更好的方法。近二十年来,英伟达一直在研究加速计算。CUDA增强了CPU,卸载并加速了专用处理器可以更好完成的工作。事实上,性能非常出色,现在很明显,随着CPU性能提升放缓并最终显著停止,应该加速一切。黄仁勋预测,所有需要大量处理的应用程序都会被加速,当然每个数据中心在不久的将来都会被加速。现在加速计算是非常合理的。如果你看看一个应用程序,这里100t代表100单位时间,它可能是100秒,也可能是100小时。在很多情况下,如你所知,现在正在研究运行100天的AI应用程序。1T代码是指需要顺序处理的代码,其中单线程CPU是非常关键的。操作系统控制逻辑非常重要,需要一条指令接着一条指令地执行。然而,有很多算法,比如计算机图形处理,可以完全并行操作。计算机图形处理、图像处理、物理模拟、组合优化、图处理、数据库处理,当然还有深度学习中非常著名的线性代数,这些算法都非常适合通过并行处理来加速。因此,发明了一种架构,通过在CPU上添加GPU来实现。专用处理器可以将耗时很长的任务加速到极快的速度。因为这两个处理器可以并肩工作,它们都是自主的,独立的,可以将原本需要100个时间单位的任务加速到1个时间单位,速度的提升是难以置信的,效果非常显著,速度提升了100倍,但功耗只增加了大约三倍,成本只增加了约50%。在PC行业一直这样做,英伟达在1000美元PC上加一个500美元GeForceGPU,性能会大幅提升。英伟达在数据中心也这样做,一个价值十亿美元的数据中心,加上5亿美元的GPU,突然间它就变成了一个AI工厂,这种情况正在全球各地发生。节省的成本非常惊人。每花一美元就能获得60倍的性能提升,速度提升了100倍,而功耗只增加了三倍,成本只增加了1.5倍。这种节省是难以置信的。节省的成本可以用美元来衡量。很明显,许多公司在云端处理数据上花费了数亿美元。如果这些过程被加速,不难想象可以节省数亿美元。这是因为在通用计算上已经经历了很长时间的通货膨胀。现在终于决定加速计算,有大量被捕获的损失可以现在回收,许多被保留的浪费可以从系统中释放出来。这将转化为金钱的节省和能源的节省,这也是为什么黄仁勋常说‘买得越多,省得越多’。黄仁勋还表示,加速计算确实带来了非凡的成果,但它并不容易。为什么它能省这么多钱,但这么长时间以来人们却没有这样做呢?原因是因为这非常难。没有一种软件可以通过C编译器运行,突然间应用程序就快了100倍。这甚至不合逻辑。如果可以做到这一点,他们早就改造CPU了。事实上,必须重写软件,这是最难的部分。软件必须完全重写,以便能够重新表达在CPU上编写的算法,使其能够被加速、卸载并行运行。这种计算机科学的练习极其困难。黄仁勋表示,在过去20年里,英伟达让全世界变得更容易。当然,非常著名cuDNN,即处理神经网络的深度学习库。英伟达有一个AI物理库,可以用于流体动力学和许多其他应用中,神经网络必须遵守物理定律。英伟达有一个叫ArialRan新的伟大库,它是一个CUDA加速5G无线电,能够像定义世界网络互联网一样定义和加速电信网络。加速的能力使我们能够将所有的电信转变为与云计算平台相同类型的平台。cuLITHO是一个计算光刻平台,能够处理芯片制造中最计算密集的部分——制作掩膜。台积电正在使用cuLITHO进行生产,节省了大量的能源和金钱。台积电的目标是加速他们的堆栈,以便为进一步的算法和更深入、更窄的晶体管的计算做好准备。Parabricks是英伟达基因测序库,它是世界上吞吐量最高的基因测序库。cuOpt是一个用于组合优化、路线规划优化的令人难以置信的库,用于解决旅行商问题,非常复杂。科学家们普遍认为需要量子计算机来解决这个问题。英伟达创造了一个在加速计算上运行的算法,运行速度极快,创下了23项世界纪录。cuQuantum是一个量子计算机的模拟系统。如果你想设计一个量子计算机,你需要一个模拟器。如果你想设计量子算法,你需要一个量子模拟器。如果量子计算机不存在,你如何设计这些量子计算机,创建这些量子算法呢?你使用今天世界上最快的计算机,当然就是NVIDIACUDA。在上面,英伟达有一个模拟器,可以模拟量子计算机。它被全世界数十万研究人员使用,并集成到所有领先的量子计算框架中,广泛用于科学超级计算中心。cuDF是一个令人难以置信的数据处理库。数据处理消耗了今天云端支出的绝大部分,所有这些都应该被加速。cuDF加速了世界上使用的主要库,比如Spark,许多公司可能都在使用Spark,Pandas,一个新的叫做Polars的库,当然还有NetworkX,一个图处理数据库库。这些只是一些例子,还有很多其他的。黄仁勋表示,英伟达必须创建这些库,以便让生态系统能够利用加速计算。如果英伟达没有创建cuDNN,光有CUDA是不可能让全世界的深度学习科学家使用的,因为CUDA、TensorFlow和PyTorch中使用的算法之间的距离太远了。这几乎像是在没有OpenGL情况下做计算机图形处理,或者没有SQL的情况下进行数据处理。这些特定领域的库是英伟达的珍宝,总共有350个库。正是这些库使英伟达能够打开如此多的市场。上周,Google宣布在云端加速Pandas,这是世界上最流行的数据科学库。你们中的许多人可能已经在使用Pandas,它被全球1000万数据科学家使用,每月下载1.7亿次。PC版:https://www.cnbeta.com.tw/articles/soft/1433308.htm手机版:https://m.cnbeta.com.tw/view/1433308.htm

封面图片

郭明𫓹预估苹果明年斥资47.5亿美元采购2万台AI服务器

郭明𫓹预估苹果明年斥资47.5亿美元采购2万台AI服务器郭明𫓹表示,预估2023年将采购2000到3000台,在全球AI服务器出货量中占比为1.3%。2024年将采购1.8万-2万台AI服务器,占比达到5%。郭明𫓹认为苹果采购的AI服务器主要为最常见、用于训练和推理生成式AI的英伟达HGXH1008-GPU,明年第四季度的采购芯片会加入B100。H100一片以25万美元的价格进行计算,预估苹果2023年在AI服务器上的采购成本为6.2亿美元,明年预估会达到47.5亿美元。来源:https://www.cls.cn/detail/1493684投稿:@ZaiHuaBot频道:@TestFlightCN

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人