英伟达最强芯片,性能惊东谈主
发布日期:2024-09-09 09:29 点击次数:132
(原标题:英伟达最强芯片,性能惊东谈主)
淌若您但愿不错频繁碰面,接待标星保藏哦~
开首:本色来自hpcwire,谢谢。
Nvidia 正在将其 GH200 芯片应用于欧洲超等狡计机,盘考东谈主员正在入部下手盘考这些系统并发布带有性能基准的盘考论文。
在第一篇论文《贯穿精熟耦合异构系统中的数据移动:以 Grace Hopper 超等芯片为例》中,盘考东谈主员对 GH200 的多样应用进行了基准测试,该芯片集成了 CPU 和 GPU。这些数字凸显了该芯片的惊东谈主速率以及 AI 和科学应用方法性能何如从土产货化的 HBM3 和 DDR5 内存中受益。
Alps 系统的一项基准测试(仍在升级)用于测量 GH200 出手 AI 应用方法时的性能。
另一篇论文《使用百亿亿次景象模拟器普及地球系统模子输出并检朴 PB 级存储空间》测量了 Frontier 中 GH200 到 AMD MI250X 的大型集群、Leonardo 中的 Nvidia A100 以及 Summit 中的 Nvidia V100 的性能。这些系统曾位居 Top500 名次榜榜首,当今已干预前十。
GH200 将 Nvidia 独有的 72 个 ARM Neoverse V2 CPU 中枢与 132 个 GPU 流处理器径直聚拢起来。CPU 和 GPU 通过 NVLink-C2C 互连进行通讯,该互连以 900GB/秒的速率双向出手。它还具有 96GB 的 HBM3 并收罗了不同类型的 CPU 和 GPU 内存。
非讲求 GH200 分析
盘考东谈主员赢得了正在升级的阿尔卑斯超等狡计机中 GH200 芯片的一个分区,并在 CUDA 12.3 软件堆栈上测量了 AI 基准。阿尔卑斯超等狡计机位于瑞士国度超等狡计中心。
Alps 是首批使用 GH200 的超等狡计机之一,其名为“preAlps”的优化子系统在 Green500 榜单上排名第五。它基于 HPE 的 Slingshot 互连,而不是 Nvidia 的独有集会接口。
盘考东谈主员测试了四核 GH200 节点。盘考东谈主员暗示,合伙内存池“为扩张具有大内存占用的应用方法设备了新的可能性,这些内存占用超出了单个 GPU 或 CPU 径直可用的内存”。
每个节点有 288 个 CPU 中枢和四个 Hopper GPU。最终的四核成就总内存为 896GB,每个 Superchip 包括 96GB HBM3 和 128GB LPDDR5 内存。每个节点包含四个 GH200 Superchip,通过 HPE Slingshot 11 聚拢,每个节点的速率为 800 Gb/s。
盘考东谈主员测量了在合伙内存池中将数据存储在 HBM3 或 LPDDR5 中时的多样读取、写入和性能野心。在出手职责负载时,数据会暂时存储在内存中,HBM3 的速率彰着快于 LPDDR5。
盘考东谈主员测量了基于 GEMM 算法的 AI 性能,该算法诈欺 GPU 中以 AI 为中心的 Tensor Core。
超等芯片在 HBM3 上的性能为 612 teraflops,DDR 为 59.2 teraflops。FP32 在 HBM3 上的性能为 51.9 teraflops,在 DDR5 上的性能更差,为 22.9 teraflops。在 FP64 上,HBM3 上的性能为 58.4 teraflops,在 DDR 内存上的性能为 13.2 teraflops。
使用 HBM3 内存时,LLM 推理期间也快得多。一言以蔽之,在具有 130 亿个参数的 Llama-2 模子上,100 个 token 的推理速率比 DDR 内存快四倍。使用 Llama-2 70 亿个参数模子时,它随意快两倍。
关于不同的模子,使用不同的物理内存分派,Llama-2 LLM 100 个 token 的推理期间越短越好。(开首:参考论文)
其他垂死发现:Hopper GPU 使用 DDR 时读取速率为 420.2 GB/s,写入速率为 380.1 GB/s,使用 HBM3 时读取速率为 3795.9 GB/s,写入速率为 3712.1 GB/s。
Hopper GPU 的 HBM 内存蔓延为 344.2 纳秒,DDR 内存蔓延为 817.8 纳秒。
盘考东谈主员还对 Grace CPU 进行了读写和内存蔓延测试。他们还公布了 CPU 和 GPU 的复制性能。
盘考东谈主员来自苏黎世联邦理工学院和 Nvidia。
盘考东谈主员回来谈:“咱们觉得,尽管 Quad GH200 节点的内存系统十分复杂,股市配资但从单个互连的超等芯片的角度来看待该系统关于杀青邃密的性能至关垂死。”
盘考东谈主员暗示,Nvlink-C2C 互连“为树立混杂 CPU 和 GPU 狡计的异构应用方法设备了可能性”。
与 MI250X 和 A100 的比拟
盘考东谈主员还在阿尔卑斯山的 GH200 集群、Frontier 的 MI250X、Leonardo 的 Nvidia A100 和 Summit 的 Nvidia V100 上出手了景象模拟器应用方法。这些芯片曾位居 Top500 名次榜前线或前 10 名。
这两种比拟并不透顶是同类比拟,尤其是 GH200 与 Nvidia A100 和 V100 的比拟,因为它们不包括集成 CPU。
关联词,混杂精度性能数字(包括双精度和半精度测量)提供了 HPC 风趣者所关爱的本色的快照,即这些系统在混杂科学和 AI 模拟时提供更举座性能的全景视图。
数据深化,GH200 权臣改善了景象模拟应用和数据。地球模拟模子对超等狡计系统条件很高,因此十分相宜测量 GPU 性能。
Alps 集群领有 4,096 个 GPU,问题范围为 1040 万,最高可达每秒 3.842 亿亿次浮点运算,每个 GPU 最高可达每秒 93.8 万亿次浮点运算。
Frontier 中的 MIX250X 领有 4,096 个 GPU,问题范围为 839 万,基准测试终结为 223.7 petaflops,每个 GPU 为 54.6 teraflops。
莱昂纳多超等狡计机中的 Nvidia A100 领有 4,096 个 GPU,问题范围为 839 万,基准测试速率为 243.1 petaflops,每个 GPU 为 57.2 teraflops。
Leonardo 领有 3,456 个节点,每个节点配备四块 Nvidia A100 64GB GPU,表面双精度峰值性能为 306.31 petaflops。
Summit 中的 V100 领有 6,144 个 GPU,问题范围为 629 万,总体性能为 153.6 千万亿次浮点运算,每个 GPU 的性能为 25 万亿次浮点运算。Summit 行将退役。
在四个系统的 1,024 个节点上,混杂精度 Cholesky 的双精度/半精度步地性能终结摘录(单元:PFlop/s)。(开首:参考论文)
基准测试中使用的景象模拟器基于 35 年来 3180 亿个每小时温度数据点和 83 年前大家模拟的 310 亿个逐日数据点进行覆按。
盘考东谈主员宣称,他们的景象模拟器(行为其他系统的补充)不错从高性能系统中赢得更高的性能,在 Frontier(领有 9,472 个节点)的 9,025 个节点上可提供高达 0.976 exaflops 的性能。
该模拟器还不错为与景象相关的数据密集型模拟带来资本和性能后果。其他模拟器会生成大齐 PB 数据,因此存储资本精巧,并截止了狡计才略。
举例,好意思国国度大气盘登第心的 CMIP6 模拟了 37,000 年的景象数据(由多样气象生成),破钞了 1.9 亿个 CPU 小时和 2PB 的后处理期间序列数据。
“NCAR 的数据科罚资本每年约为每 TB 45 好意思元。这给需要 PB 级存储的技俩带来了浩大的财务职守,并可能截止科学标的,”盘考东谈主员暗示。
该论文的作家是 NCAR、阿卜杜拉国王科技大学 (KAUST)、圣路易斯大学和圣母大学的盘考东谈主员。盘考东谈主员还与 Nvidia 和田纳西大学有相关。
https://www.hpcwire.com/2024/09/04/researchers-benchmark-nvidias-gh200-supercomputing-chips/
半导体杰作公众号推选
专注半导体鸿沟更多原创本色
关注大家半导体产业动向与趋势
*免责声明:本文由作家原创。著作本色系作家个东谈主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或救助,淌若有任何异议,接待相关半导体行业不雅察。
今天是《半导体行业不雅察》为您共享的第3878本色,接待关注。
『半导体第一垂直媒体』
及时 专科 原创 深度
公众号ID:icbank
心爱咱们的本色就点“在看”共享给小伙伴哦