Cerebras推出1350万核超级AI计算机Andromeda

Cerebras推出1350万核超级AI计算机Andromeda这些芯片被安置在16个CS-2系统中。每个芯片为人工智能核心提供高达12.1TB/s的内部带宽（96.8Terabits），但数据是通过分布在16个机架上的124个服务器节点的100GbE网络输送给CS-2处理器的。这些服务器总共由284个第三代EPYC米兰处理器提供动力，每个处理器有64个核心，总共有18176个核心。全套系统功耗500千瓦，这比某种程度上可比的使用GPU加速的超级计算机的功率要低得多。然而，在这种大规模并行的超级计算机上扩展工作负载长期以来一直是主要的抑制因素之一--在某一点上，扩展往往会被打破，因此增加更多的硬件会导致回报点迅速减少。Cerebras表示，它的实现与GPT级大型语言模型匹配，如GPT-3、GPT-J和GPT-NeoX，且几乎是线性扩展。Andromeda还可以处理25亿和250亿个参数的模型，由于内存的限制，标准的GPU集群根本无法处理。CerebrasWSE-2是世界上最大的单芯片处理器，每颗7纳米的芯片都是专门为解决人工智能工作负载而设计的，85万个人工智能专用内核分布在46225平方毫米的硅片上，装着2.6万亿个晶体管。该芯片有40GB的片上SRAM内存，20PB的内存带宽，以及220PB的聚合结构带宽。每个WSE-2消耗15千瓦的电力。在大多数大型系统中，工作负载的扩展会导致回报的减少，这通常是由于代码、内存、结构和/或网络的限制。然而，Cerebras已经表明，其CS-2系统通过数据并行化，在不改变底层代码的情况下几乎可以实现线性扩展，该公司的仙女座超级计算机在完全启动后的10分钟内就开始压缩工作负载。16台CS-2使用该公司的MemoryX和Swarm-X互连来简化和协调跨系统的模型分割。这种方法将模型参数存储在MemoryX机柜中的片外，同时将模型保留在片上，允许单个系统计算比以前更大的人工智能模型，并解决通常限制处理器组扩展性的典型延迟和内存带宽问题，这使得该系统可以在多达192个CS-2系统上近乎线性地扩展。Andromeda部署在加州圣克拉拉的Colovore数据中心。该公司已经向客户和学术研究人员开放了算力，包括阿贡国家实验室，该实验室称它已经将整个COVID-19基因组放入一个序列窗口，并以"近乎完美的线性扩展"在多达16个节点上运行该工作负载。该项目现在是著名的ACM戈登贝尔特别奖的入围者，其他用户包括JaperAI和剑桥大学。...PC版：https://www.cnbeta.com.tw/articles/soft/1332865.htm手机版：https://m.cnbeta.com.tw/view/1332865.htm

在Telegram中查看

相关推荐

印度自行研发的Aum HPC处理器细节公布用于建设该国超级计算机

印度自行研发的AumHPC处理器细节公布用于建设该国超级计算机该CPU被称为AumHPC，由印度政府的国家超级计算任务开发，该任务资助印度科学研究所、科技部、电子和信息技术部以及C-DAC设计和制造AumHPC处理器，并创造强大的、有力的技术独立性。AumHPC基于Armv8.4CPUISA，它是在台积电的5纳米节点上制造的，每个计算芯片具有48个基于NeoverseV1IP的ArmZeus核心，因此有了两个芯片，该处理器总共有96个核心。每个核心都有1MB的二级缓存和1MB的系统缓存，总共有96MB的二级缓存和96MB的系统缓存。存储支持方面，该处理器支持16通道32位DDR5-5200，带宽为332.8GB/s。在此基础上扩展HBM内存，有64GB的HBM3加上四个控制器能够实现2.87TB/s的带宽。连接能力上，AumHPC处理器有64条PCIeGen5通道，并启用了CXL。AumHPC处理器的典型频率为3.0GHz，提升频率为3.5+GHz，其额定TDP为300瓦。它能够在每个插座上产生4.6+TeraFLOPS的算力，下面是AumHPC与FujitsyA64FX（另一个以ArmHPC为重点的设计）的比较图和表格。...PC版：https://www.cnbeta.com.tw/articles/soft/1360397.htm手机版：https://m.cnbeta.com.tw/view/1360397.htm

戴尔解释如何检查Windows 11计算机是否"支持AI"

戴尔解释如何检查Windows11计算机是否"支持AI"据戴尔公司称，用于更高效地处理基于人工智能的任务的专用硬件和软件可以让你的电脑"启用人工智能"。虽然传统计算机也可以使用人工智能，但专用硬件加速器可以优化处理过程，降低能耗。这种"专用硬件"被称为NPU或神经处理单元：NPU经过优化，可处理深度学习算法所需的复杂计算。这种优化使NPU在处理人工智能任务（如自然语言处理、图像分析等）时具有惊人的效率。NPU集成在CPU中，衡量NPU性能的一个标准是每秒Tera运算次数（TOPs）。Windows11需要一个专用的NPU来处理WindowsStudio特效，其中包括背景模糊、眼部接触校正、自动取景和语音对焦。不过，得益于Windows11最近的改进，VoiceClarity很快就能在所有系统上使用。电脑还需要一个NPU来处理即将推出的下一代Windows11功能，例如传闻中的AIExplorer。在效率方面，戴尔表示，搭载英特尔最新酷睿Ultra处理器的电脑通过将自动成帧、背景模糊和眼球跟踪功能从CPU卸载到NPU，在Zoom通话期间最多可节省38%的电池。采用英特尔第14代处理器、AMDRyzen7000和8000系列以及高通公司Snapdragon8cxGen2或SnapdragonXElite及更新处理器的电脑中都有专用神经处理单元。要检查您的电脑是否有NPU，可以启动任务管理器并转到"性能"选项卡。受支持的电脑在CPU、内存、存储、网络和GPU旁边会显示"NPU0"。或者，进入设备管理器，查找IntelAIBoost（在Intel系统上）或AMDIPUDevice（在AMD系统上）。如果看不到这些设备，则可能需要从制造商网站下载驱动程序。采用高通芯片的电脑已预装NPU驱动程序，可通过WindowsUpdate下载。你可以在戴尔的官方网站上找到更多关于"AI-enabled"PC的信息。有趣的是，英特尔最近也发布了类似的信息，确认如果电脑拥有NPU和带有专用物理按键的Copilot，那么它就有资格成为"AIPC"。...PC版：https://www.cnbeta.com.tw/articles/soft/1428260.htm手机版：https://m.cnbeta.com.tw/view/1428260.htm

Aurora超级计算机安装完毕：2个ExaFLOPS 数万个CPU和GPU 锁定Top 500榜首

Aurora超级计算机安装完毕：2个ExaFLOPS数万个CPU和GPU锁定Top500榜首"Aurora是英特尔Max系列GPU的首次部署，是最大的基于XeonMaxCPU的系统，也是世界上最大的GPU集群，"英特尔公司副总裁兼超级计算组总经理JeffMcVeigh说。Aurora超级计算机看起来相当令人印象深刻，即使从数字上看也是如此。该机器由21248个通用处理器提供动力，包含超过110万个内核，用于需要传统CPU马力的工作负载，还有63744个计算GPU，将用于人工智能和HPC工作负载。在内存方面，Aurora提供了1.36PB的封装HBM2E内存和19.9PB的DDR5内存，这些内存被CPU使用，以及PonteVecchi计算GPU携带的8.16PB的HBM2E。Aurora机器占用166个机架，每个机架容纳66个刀片。它横跨八列，占据的空间相当于两个篮球场，这还不算Aurora的存储子系统，后者采用了1024个全闪存存储节点，提供220TB的存储容量，总带宽为31TB/s。目前，阿贡国家实验室没有公布Aurora或其存储子系统的官方耗电数字。这台超级计算机将用于各种工作负载，从核聚变模拟到是否预测，从空气动力学到医学研究，它采用HPE的Shasta超级计算机架构和Slingshot互连。同时，在该系统通过ANL的验收测试之前，它将被用于大规模科学生成性AI模型。阿贡国家实验室副主任里克-史蒂文斯说："在我们努力实现验收测试的同时，我们将使用Aurora来训练一些大规模的开源科学生成性人工智能模型。Aurora拥有超过6万个英特尔MaxGPU，一个非常快的I/O系统和一个全固态大容量存储系统，是训练这些模型的完美环境。"尽管Aurora刀片已经安装完毕，这台超级计算机仍需进行并通过一系列验收测试，这是超级计算机的一个常见程序。一旦它成功通过这些测试并在今年晚些时候上线，预计它的理论性能将超过2ExaFLOPS（每秒20亿次浮点运算）。凭借巨大的性能，它有望确保在Top500榜单中占据榜首位置。Aurora超级计算机的安装标志着几个里程碑：它是业界第一台性能超过2ExaFLOPS的超级计算机和第一台基于英特尔的ExaFLOPS级机器。Aurora最初于2015年亮相，最初打算由英特尔的XeonPhi协处理器提供动力，预计在2018年提供约180PetaFLOPS。然而，英特尔决定放弃XeonPhi，改用计算型GPU，导致需要与阿贡国家实验室重新谈判协议，在2021年之前提供一个EaaFLOPS系统。由于英特尔7纳米（现在称为英特尔4）生产节点的延迟，以及必须为台积电的N5（5纳米级）工艺技术重新设计计算模组，该系统的交付被进一步推迟，因为PonteVecchio的复杂情况。英特尔终于在去年年底推出了数据中心GPUMax产品，现在已经向ANL运送了超过6万个这种计算GPU。...PC版：https://www.cnbeta.com.tw/articles/soft/1366873.htm手机版：https://m.cnbeta.com.tw/view/1366873.htm

第三代“Stampede3”超级计算机完全没有DRAM内存

第三代“Stampede3”超级计算机完全没有DRAM内存令人吃惊的是，这台超算完全运行在HBM模式，没有任何传统的DRAM内存——这似乎还是第一台？TACC还计划安装10台第二PowerEdgeXE9640服务器，共有40块IntelPonteVecchioGPUMax加速器，用于AI、ML负载。要知道，如今的顶级超算都是CPU+GPU的组合配置，Stampede3几乎纯粹依赖CPU，对于IntelGPU加速器正在进行评估，未来可能扩大采购规模，但最多也会用100块左右。TACC目前主要在“LoneStar”系统上处理AI任务，它用的是NVIDIAA100加速器，接下来需要好好研究如何迁移到IntelGPU之上。有趣的是，TACC现有的第二代Stampede2并不会被直接淘汰，而是将集成于Stampede3，增强其对内存敏感性应用的处理能力。两代联合之后，整套系统将有1858个计算节点、14多万个CPU核心、330TB内存、13PB硬盘，峰值性能接近1亿亿次。Stampede2...PC版：https://www.cnbeta.com.tw/articles/soft/1373207.htm手机版：https://m.cnbeta.com.tw/view/1373207.htm

欧盟推出首台ExaFlop超级计算机采用ARM与NVIDIA的架构

欧盟推出首台ExaFlop超级计算机采用ARM与NVIDIA的架构超级计算机"Jupiter"的总预算为2.73亿欧元。开发工作由欧洲高性能计算联合企业（EuropeanHigh-PerformanceComputingJointUndertaking）以及由Eviden和ParTec组成的科技公司集团负责。ARM超级计算机在业界的存在感一直很低，前十大超级计算机中只有一台采用了该架构。Jupiter超级计算机将加入这一行列，因为据说它将采用SiPearl的Rhea处理器，该处理器是与欧盟的资金和专业技术合作专门打造的。虽然我们还没有看到明确的性能数据，如各自的petaflops，但我们知道Jupiter配备了最新的技术。SiPearl基于ARM的处理器"堆叠"了NeoverseV1CPU，并采用了通用兼容的设计，以获得更广泛的应用。性能数据尚未披露，但NeoverseN1CPU足以提供顶级计算性能，欧盟的木星超级计算机也将如此。至于图形处理能力，Jupiter超级计算机预计将采用英伟达公司的顶级H100，这是业界最顶尖的产品。加速器的性能不用多说，H100正在全球范围内热销，其背后的主要原因是它们具有极高的性价比，Jupiter将使用一系列H100AIGPU，提供出色的计算能力。JupiterexaFLOP超级计算机的出现表明，欧盟正在努力成为全球科技行业的"独立"参与者。这也是该超级计算机采用Rhea处理器的唯一原因，因为Rhea处理器是欧盟区域内企业自行开发的产品，是向完全技术自主迈出的一步。除"Jupiter"外，欧盟还在研制第二台基于法国的超大规模超级计算机预计将于2025年投入使用。欧盟生产的超级计算机在Top500排名中的表现将令人拭目以待，这将对了解它们的能力起到决定性作用。...PC版：https://www.cnbeta.com.tw/articles/soft/1388561.htm手机版：https://m.cnbeta.com.tw/view/1388561.htm

谷歌宣布新的人工智能处理芯片和云 “超级计算机”

谷歌宣布新的人工智能处理芯片和云“超级计算机”据科技新闻网站Engadget报道，谷歌已经宣布创建其最强大的TPU(正式名称为张量处理单元)，CloudTPUv5p，以及来自谷歌云的人工智能超级计算机。CloudTPUv5p是一个人工智能加速器，训练和服务模型。CloudTPUv5p是在之前的版本（如v5e和v4）基础上进行的改进。根据谷歌的说法，与TPUv4相比，TPUv5p的浮点运算性能（FLOPs）提升了两倍，每个机架的FLOPs性能扩展性提高了四倍。此外，它训练LLM模型的速度比TPUv4快2.8倍，嵌入密集模型的速度比TPUv4快1.9倍。而新的人工智能超级计算机，包括一个集成系统，具有开放软件、性能优化硬件、机器学习框架和灵活的消费模型。其想法是，与单独看待每个部分相比，这种合并将提高生产力和效率。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人