H100推理飙升8倍 英伟达官宣开源TensorRT-LLM,支持10+模型

H100推理飙升8倍英伟达官宣开源TensorRT-LLM,支持10+模型“GPU贫民”即将告别困境!刚刚,英伟达发布了一款开源软件TensorRT-LLM,能够加速H100上大型语言模型的推理。那么,具体能提升多少倍?在添加了TensorRT-LLM及其一系列优化功能后(包括In-Flight批处理),模型总吞吐量提升8倍。PC版:https://www.cnbeta.com.tw/articles/soft/1382811.htm手机版:https://m.cnbeta.com.tw/view/1382811.htm

相关推荐

封面图片

【英伟达开源Nemotron-4340B系列模型,用于训练LLM】近日,英伟达开源Nemotron-4340B(3400亿参数)

【英伟达开源Nemotron-4340B系列模型,用于训练LLM】近日,英伟达开源Nemotron-4340B(3400亿参数)系列模型。开发人员可使用该系列模型生成合成数据,用于训练大型语言模型(LLM),用于医疗保健、金融、制造、零售和其他行业的商业应用。Nemotron-4340B包括基础模型Base、指令模型Instruct和奖励模型Reward。英伟达使用了9万亿个token(文本单位)进行训练。Nemotron-4340B-Base在常识推理任务,如ARC-c、MMLU和BBH基准测试中,可以和Llama-370B、Mixtral8x22B和Qwen-272B模型媲美。

封面图片

AMD 正式发布 MI300 加速器,性能较英伟达 H100 芯片提高 60%

AMD正式发布MI300加速器,性能较英伟达H100芯片提高60%在美国加州圣何塞举行的AI特别活动中,AMD宣布正式推出其旗舰AIGPU加速器MI300X,并称其性能比英伟达的H100芯片提高了60%。据AMD介绍,新芯片为性能最高的芯片,拥有超过1500亿个晶体管。与英伟达H100芯片相比,AMD新芯片的内存为其2.4倍,内存带宽为其1.6倍,训练性能与H100芯片相当,在运行AI模型方面则比英伟达快得多。——、

封面图片

英伟达发布新一代 AI 芯片 H200

英伟达发布新一代AI芯片H200H200利用了美光等公司推出的HBM3e内存,提供了141GB内存容量(H100的1.8倍)和4.8TB/s内存带宽(H100的1.4倍)。大型语言模型推理速度方面,GPT-3175B是H100的1.6倍(A100的18倍),LLaMA270B是H100的1.9倍。英伟达同时宣布2024年的H100产量翻倍,2024年第4季度发布基于新一代Blackwell架构的B100。投稿:@ZaiHuaBot频道:@TestFlightCN

封面图片

英伟达 H100 (Hopper ) 首次亮相 MLPerf,测试结果刷新纪录

英伟达H100(Hopper)首次亮相MLPerf,测试结果刷新纪录北京时间9月9日,MLCommons社区发布了最新的MLPerf2.1基准测试结果,新一轮基准测试拥有近5300个性能结果和2400个功耗测量结果,分别比上一轮提升了1.37倍和1.09倍,MLPerf的适用范围进一步扩大。阿里巴巴、华硕、Azure、壁仞科技、戴尔、富士通、技嘉、H3C、HPE、浪潮、英特尔、Krai、联想、Moffett、Nettrix、NeuralMagic、英伟达、OctoML、高通、SAPEON和Supermicro均是本轮测试的贡献者。其中,英伟达表现依然亮眼,首次携H100(又名Hopper)参加MLPerf测试,并在所有工作负载中刷新世界纪录。这些测试结果表明,对于那些需要在高级AI模型上获得最高性能的用户来说,Hopper是最优选择。此外,NVIDIAA100TensorCoreGPU和用于AI机器人的NVIDIAJetsonAGXOrin模块在所有MLPerf测试中继续表现出整体领先的推理性能,包括图像和语音识别自然语言处理和推荐系统。前文:来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

碾压H100!英伟达GH200超级芯片首秀 性能跃升17%

碾压H100!英伟达GH200超级芯片首秀性能跃升17%而这,这也是英伟达GH200测试成绩的首次亮相!相比于单张H100配合英特尔CPU,GH200的GraceCPU+H100GPU的组合,在各个项目上都有15%左右的提升。英伟达GH200超级芯片首秀毫无疑问,英伟达的GPU在MLPerfInference3.1基准测试中表现是最亮眼的。其中,最新发布的GH200GraceHopper超级芯片,也是首次在MLPerfInference3.1上亮相。GraceHopper超级芯片将英伟达的GraceCPU与H100GPU集成在一起,通过超高的带宽连接,从而比单个H100配合其他的CPU能提供更强的性能表现。“GraceHopper首次展示了非常强劲的性能,与我们的H100GPU提交相比,性能提高了17%,我们已经全面领先,”英伟达人工智能总监DaveSalvator在新闻发布会上表示。性能大幅增长具体来说,它将一个H100GPU和GraceCPU集成在一起,通过900GB/s的NVLink-C2C连接。而CPU和GPU分别配备了480GB的LPDDR5X内存和96GB的HBM3或者144GB的HBM3e的内存,集成了高达576GB以上的高速访问内存。英伟达GH200GraceHopper超级芯片专为计算密集型工作负载而设计,能够满足各种严苛的要求和各项功能。比如训练和运行数万亿参数的大型Transformer模型,或者是运行具有数TB大小的嵌入表的推荐系统和向量数据库。GH200GraceHopper超级芯片还在MLPerfInference测试中有着非常优异的表现,刷新了英伟达单个H100SXM在每个项目中创下的最佳成绩。NVIDIAGraceHopperMLPerfInference数据中心性能与DGXH100SXM的对比结果,每个数值都是GH200的性能领先幅度GH200GraceHopper超级芯片集成了96GB的HBM3,并提供高达4TB/s的HBM3内存带宽,而H100SXM分别为80GB和3.35TB/s。与H100SXM相比,更大的内存容量和更大的内存带宽使得在NVIDIAGH200GraceHopper超级芯片上使用更大的批处理大小来处理工作负载。例如,在服务器场景中,RetinaNet和DLRMv2的批处理大小都增加了一倍,在离线场景中,批处理大小增加了50%。GH200GraceHopper超级芯片在HopperGPU和GraceCPU之间的高带宽NVLink-C2C连接可以实现CPU和GPU之间的快速通信,从而有助于提高性能。例如,在MLPerfDLRMv2中,在H100SXM上通过PCIe传输一批张量(Tensor)大约需要22%的批处理推理时间。使用了NVLink-C2C的GH200GraceHopper超级芯片仅使用3%的推理时间就完成了相同的传输。由于具有更高的内存带宽和更大的内存容量,与MLPerfInferencev3.1的H100GPU相比,GraceHopper超级芯片的单芯片性能优势高达17%。推理和训练全面领先在MLPerf的首秀中,GH200GraceHopperSuperchip在封闭类别(ClosedDivision)的所有工作负载和场景上都表现出卓越的性能。而在主流的服务器应用中,L4GPU能够提供一个低功耗,紧凑型的算力解决方案,与CPU解决方案相比的性能也有了大幅的提升。Salvator表示,“与测试中最好的x86CPU相比,L4的性能也非常强劲,提高了6倍”。对于其他的AI应用和机器人应用,JetsonAGXOrin和JetsonOrinNX模块实现了出色的性能。未来的软件优化有助于进一步释放强大的英伟达OrinSoC在这些模块中的潜力。在目前非常流行的目标检测AI网络——RetinaNet上,英伟达的产品的性能提高了高达84%。英伟达开放部分(OpenDivision)的结果,展示了通过模型优化可以在保持极高精度的同时大幅提高推理性能的潜力。全新MLPerf3.1基准测试当然,这并不是MLCommons第一次尝试对大语言模型的性能进行基准测试。早在今年6月,MLPerfv3.0就首次加入了LLM训练的基准测试。不过,LLM的训练和推理任务,区别很大。推理工作负载对计算要求高,而且种类繁多,这就要求平台能够快速处理各种类型的数据预测,并能在各种AI模型上进行推理。对于希望部署AI系统的企业来说,需要一种方法来客观评估基础设施在各种工作负载、环境和部署场景中的性能。所以对于训练和推理的基准测试都是很重要的。MLPerfInferencev3.1包括了两项重要更新,来更好地反映现在AI实际的使用情况:首先,增加了基于GPT-J的大型语言模型(LLM)推理的测试。GPT-J是一个开源的6B参数LLM,对CNN/每日邮报数据集进行文本总结。除了GPT-J之外,这次还更新了DLRM测试。针对MLPerfTrainingv3.0中引入的DLRM,采用了新的模型架构和更大的数据集,更好地反映了推荐系统的规模和复杂性。MLCommons创始人兼执行董事DavidKanter表示,训练基准侧重于更大规模的基础模型,而推理基准执行的实际任务,则代表了更广泛的用例,大部分组织都可以进行部署。在这方面,为了能够对各种推理平台和用例进行有代表性的测试,MLPerf定义了四种不同的场景。每个基准都由数据集和质量目标定义。每个基准都需要以下场景:在MLPerfv3.1基准测试中,有超过13,500个结果,其中不少提交者的性能比3.0基准提高了20%,甚至更多。其他提交者包括华硕,Azure,cTuning,ConnectTech,戴尔,富士通,GigaComputing,Google,H3C,HPE,IEI,英特尔,IntelHabanaLabs,Krai,联想,墨芯,NeuralMagic,Nutanix,甲骨文,高通,QuantaCloudTechnology,SiMA,Supermicro,TTA和xFusion等。...PC版:https://www.cnbeta.com.tw/articles/soft/1383343.htm手机版:https://m.cnbeta.com.tw/view/1383343.htm

封面图片

AMD MI300X在大模型推理上可以与Nvidia H100相媲美

AMDMI300X在大模型推理上可以与NvidiaH100相媲美RunPod在Mixtral7x8B上运行了一系列基准测试,并将AMD的性能与Nvidia的H100进行了比较总结:-MI300X在小批量和大批量(1、2、4和256、512、1024)下的表现均优于H100SXM。-MI300X具有较低的第一个令牌延迟,尽管差异很小(36.89ms对55.24ms)。-无论批量大小,MI300X通常都比H100更具成本效益。同时由于MI300X拥有更大的显存,因此可以运行Mixtral7x8B等单个H100无法容纳的大型模型ViaDeemo关注频道@ZaiHuaPd频道爆料@ZaiHuabot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人