AI芯片,新变化
发布日期:2024-09-09 09:09 点击次数:126
(原标题:AI芯片,新变化)
如果您但愿不错频频碰头,接待标星储藏哦~
开端:骨子来自 semiengineering,谢谢。
大型谈话模子加大了可合手续计较和异构集成的压力;数据治理成为要津的区别要素。
逾越的东说念主工智能系统打算正在从构建尽可能最快的东说念主工智能处理器转向剿袭一种愈加均衡的圭表,包括高度专科化的异构计较元素、更快的数据出动和显赫裁汰的功率。
这一滑变的一部分围绕着剿袭 2.5D/3.5D 封装的芯片,这不错针对不同的职责负载和数据类型已毕更大的定制化,并普及每瓦性能。除此除外,逾越的芯片制造商还讹诈最近的Hot Chips 24会议展示了新颖的微架构、预取和分支琢磨方面的改良、更快的内存探问以及更智能的片上和片外数据治理。
由于目下电网的扫尾,政府机构和公用业绩公司要求芯片制造商减少处理大型谈话模子所需的动力,而芯片制造商正对此作出反应。他们还讹诈这些异构架构在超大规模和边际数据中心挖掘新机遇。
这些新打算还对准了 NVIDIA 在 AI 领域的近乎把持地位,因为低价 GPU 和基于 CUDA 的模子大宗闪现。莫得哪种通用处理器能像定制加快器那样节能,而且本年 Hot Chips 上展示的大多数多芯片架构皆不是单一类型的芯片,而是包含多种类型的处理器、更平常的内存和 I/O 配置以扫尾瓶颈,以及更高效的数据治理。
天然,NVIDIA 十分了了这些竞争挟制,而且该公司详情不会停滞不前。其新款 Blackwell 芯片将 GPU 与 CPU 和 DPU 结合在整个,其量化决议除了具有处理更大规模数据模子所需的极快查考智力外,还为低精度 AI 掀开了大门。
图 1:跟着新功能和参数的增多,AI 模子在十年内增长了 70,000 倍。贵寓开端:NVIDIA/Hot Chips 24
NVIDIA GPU 架构总监 Raymond Wong 在 Hot Chips 24 演讲中表现:“与通用计较不同,东说念主工智能和加快计较是一个全栈问题,需要重新启动再行疑望软件和计较。问题的规模和咱们所需的性能需要一种新圭表,从上到下和自下而上寻找处治决议,涵盖硬件、系统软件、加快库、平台和应用圭表框架……咱们必须学会怎么优化芯片、齐集和基础设施。”
NVIDIA 改日仍有大宗的膨胀契机,但改日它将在好多方面面对更蛮横的竞争。
数据中心的变化
本年处理器打算的一大变化是愈加谨防数据治理。有了东说念主工智能,它不再只是构建大宗冗余处理单位并尽可能快地运行它们。越来越多的办法是智能地对数据进行优先级排序——数据越来越多,数据类型也越来越多——但这种圭表并不崭新。事实上,它不错追猜测 1980 年,其时英特尔推出了 8087 浮点协处理器。Arm 在 2011 年通过其 big.LITTLE 双核处理器扩展了这一主张,较小的中枢针对计较密集度较低的功课,较大的中枢则用于需要时。
尔后,这一政策通过更复杂的分区和优先级永别抑制完善,但这种政策通俗与大型数据中心中运行的 AI 芯片无关。大多数 AI 查考皆在何处进行,而且查考可能会在何处不绝驻留一段时刻,因为开荒大型谈话模子并反复查询它们需要大宗的计较智力。不外,并非每个计较周期皆是处理密集型的,生成式 AI 模子照实需要像今天这么频频地查询。
以至连 IBM 也已将重心从每秒万亿次运算 (TOPS) 转向每瓦性能 (即每秒皮焦耳)。IBM 宣称其大型计较机处理了全国 70% 的金融往返,但 IBM 也已将重心从每秒万亿次运算 (TOPS) 转向每瓦性能 (即每秒皮焦耳)。这少量尤其值得介意,因为与大型系统公司不同(目下约占系数前沿芯片打算的 45%),IBM 将其系统出售给末端客户,而不单是是将计较手脚一种干事。
IBM 的新款 Telum 处理器包含用于 I/O 加快的数据处理单位 (DPU)(基本上便是将数据齐集到要处理和存储的位置)以及翻新的缓存。统共包含 8 个以 5.5 GHz 运行的内核、10 个 36 兆字节的 L2 缓存和一个新的加快器芯片。
IBM 凸起工程师 Chris Berry 表现:“DPU 被业界平常用于高效处理大宗数据。大型机处理大宗数据。一台统统配置的 IBM z16 每天大概处理 250 亿笔加密往返。这比 Google 搜索、Facebook 帖子和推文每天的加密往返量总额还要多。这种规模需要的 I/O 功能远远超出了典型计较系统所能提供的范围。它需要自界说 I/O 条约来最大限制地减少蔓延,守旧数千个操作系统实例的造谣化,并不错随时处理斗量车载的 I/O 央求。”
新芯片的八核中央计较笼统体功耗裁汰了 15%,部分原因是分支琢磨功能更强盛。曩昔几年,这一直是 Hot Chips 大会的主题,更准确的分支琢磨和更快的预取子虚归附不错普及性能。但 DPU 的加入更进一步,充任数据的智能交通窥伺。Berry 指出,DPU 告成安设在处理器芯片上,不错将 I/O 治理所需的功耗裁汰 70%。此外,加快器芯片的 32 个内核中的每一个皆配备了 2MB 暂存器,他将其描绘为“通俗地存放数据以备后用”,每瓦性能的改良值得热爱。
图 2:IBM 的新式 Spyre 加快器架构。开端:IBM/Hot Chips 24
英特尔还推出了用于 AI 查考的下一代加快器芯片 Gaudi 3,该芯片具有 4 个深度学习中枢 (DCORE)、8 个 HBM2e 堆栈、一个可配置而非可编程的矩阵乘法引擎。此外,它还具有 64 个张量处理中枢和一个内存子系统,其中包括 L2 和 L3 缓存和 HBM 的长入内存空间、近内存计较以及一个集成软件套件,允许客户插入自界说 TPC 内核,并守旧 PyTorch。它还通过中介层桥勾引两个计较芯片。
英特尔在确立内治理数据的圭表在主张上与 IBM 雷同。英特尔使用同步治理器将职责分配给指定单位,并使用运行时驱动圭表通过配置同步治理器来设立职责依赖关系。这种圭表不错最大限制地普及系统内的资源讹诈率,并通过使用中断治理器异步传递事件来幸免任何瓶颈。
英特尔首席 AI 性能架构师 Roman Kaplan 表现:“每个深度学习中枢皆包含 2 个 MME(矩阵乘法引擎)、16 个张量处理中枢和 24 兆字节缓存。芯片的主要主力是 MME。它引申系数不错和解为矩阵乘法的运算。这是一个可配置的(而非可编程的)引擎,这意味着您不需要在该引擎上运行任何代码。有一组固定的寄存器适度该单位的操作,字据这些值,该单位就不错正常职责。每个 MME 单位基本上皆是一个大型输出固定脉动阵列。”
图 3:英特尔 Gaudi 3 AI 框图。开端:英特尔/Hot Chips 24
AMD 的 MI300X 芯单方面向 AI 系统,基于由 12 个芯片构成的散布式 AI 系统,具有 4 个 I/O 芯片和 8 个加快器芯片,相似不错将数据传输到最公务理位置。AMD 高等商议员兼 Instinct 首席 SoC 架构师 Alan Smith 表现:“生成式 AI 模子性能需要内存容量和带宽。因此,咱们将 MI300X 的规模手脚办法,以得志这一需求,杠杆炒股并已毕单片打算无法已毕的集成度。MI300X 剿袭第四代 Infinity 结构、PCI Express Gen 5、HBM3 和 CDMA3 架构,可在计较、内存和 I/O 子系统之间已毕均衡扩展。”
图 4:AMD 基于 MI300X 芯片的 AI 芯片。开端:AMD/Hot Chips 24
边际变化
曩昔,AI 处理领域主要分为超大规模数据中心的查考和袖珍确立(通俗是出动确立)的推理。由于出动大宗数据的老本以及获得查询扫尾所需的时刻,查考和推理皆越来越多地转向边际。固然 LLM 抑制扩展,但它们并不是独一被查考的 AI 模子。不错使用不太密集的计较基础设施来查考更小、更特定领域的模子,况兼不错在带电板真实立上进行推理。
这为使用小芯片的异构打算开辟了一个全新的市集,并非系数小芯片皆将由吞并家公司或代工场开荒。HBM 是这个标的的第一个巨大告捷,但小芯片正在被打算用于一系列不同的应用圭表,雷同于曩昔几十年软 IP 的使用神气。与数据中心 AI 芯片一样,治理数据出动和内存是要津。
英特尔的 Lunar Lake 是该芯片制造商针对出动和桌面计较的谜底。英特尔 CPU SoC 硬件架构雅致东说念主 Arik Gihon 指出了该芯片的四个主要办法——能效、中枢肠能、改良的图形和举座性能,最高可达 120 TOPS。英特尔的圭表是分离逻辑,使用 2.5D 配置的计较块和平台适度器块,并带有封装内存。
“Lunar Lake 由两个主要模块构成,”Gihon 说说念。“一个是计较模块,另一个是平台适度器芯片。计较模块剿袭台积电 N3B 制造,PCB 剿袭台积电 N6 制造。基础芯片剿袭英特尔 1227 制造,它们通过 Foveros 技能勾引。咱们还引入了封装内存,它有两大上风。一是功率。由于互连少,它使咱们大概有益针对低功耗优化 PHY,以及有益针对封装内存的优化。二是主板上的占用空间,最大可达 250 平方毫米。 ”
与此同期,高通也按照相似的念念路开荒了定制的 Oryon SoC。它包括三个 CPU 集群,每个集群有四个中枢。其中两个专注于性能,一个专注于能效。在好多演示中,最引东说念主看管的是微架构,它基本上便是教导在硬件上的引申神气。与更大的系长入样,数据在何处处理和存储是好多此类打算的中枢。
高通公司工程高等副总裁 Gerard Williams 表现:“[Oryon] 有八个基本解码器,它们正在为引申单位、加载存储单位和矢量引申单位准备教导。教导自己干涉再行排序缓冲区。它大要有 600 个条款,这让您大致了解机器在航行经由中要治理若干条教导。从退出的角度来看,这台机器每个周期不错退出八条教导。”
高通芯片中高出值得介意的是内存治理单位。“它由一个十分大的长入二级和解缓冲区守旧,这主如若为了处理大宗数据,”威廉姆斯说。“它旨在处理系数造谣化结构、安全层,但这个结构强盛于 8 千个条款,这长短常不常见的。它旨在将和解蔓延降至最低。”
图 5:高通 Oryon SoC 暗意图,恶果和速率并重。贵寓开端:高通/Hot Chips 24
会议上的好多演讲者皆是练习的名字,但也有一些新东说念主。举例,FuriosaAI 是一家总部位于韩国的初创公司,正在开荒用于边际的 AI 芯片。该公司开荒了一种所谓的张量缩小处理器,用于可合手续的 AI 计较。
“固然查考是对于东说念主工智能模子的,但推理是对于干事和部署的,”合股独创东说念主兼首席引申官 June Paik 表现。“咱们在 2021 年的原始打算针对 BERT 规模的模子进行了优化。然则,跟着 GPT3 等基础模子的出现,咱们很快在打算上作念出了紧要滚动——该模子比 BERT 大五倍。尽管这些浩大的模子主要处于商议阶段,但咱们对它们的后劲充满信心。咱们服气东说念主们会倾向于最强盛的东说念主工智能模子,因为更智能的模子会带来更大的公正。咱们还服气,跟着这些应用的扩展,恶果将变得愈加紧迫。因此,咱们入辖下手将 RNGD打造为最高效的推理芯片。”
其架构的中枢是快速地将数据往返出动到内存,该架构面向边际数据中心。该公司宣称内存带宽为 1.5 TB/秒。RNGD 还领有两个 HBM3 堆栈和 256 MB SRAM,以及 48 GB 内存容量。
图 6:Furiosa 的可合手续边际推理芯片架构。开端:Furiosa/Hot Chips 24
论断
AI 刚刚启动弘扬作用,但改日仍面对挑战。最初,AI 必须是可合手续的,大型芯片公司十分集合这少量,Hot Chips 24 上展示的芯片架构便是明证。但芯片只是处治决议的一部分。
可合手续性还需要更高效的软件、微架构的改良,以便减少大型谈话模子查询的发生频率,以及越来越精准的反馈,以便 LLM 反馈值得相信。此外,它还需要以芯片的体式更细致地集成专用处理元件,这些芯片大概更快、更高效地处理不同类型的数据。
底线是:东说念主工智能不会隐匿,但要充分弘扬后来劲,需要整个半导体生态系统的繁重。
https://semiengineering.com/new-ai-processors-architectures-balance-speed-with-efficiency/
半导体杰作公众号推选
专注半导体领域更多原创骨子
热爱全国半导体产业动向与趋势
*免责声明:本文由作家原创。著作骨子系作家个东说念主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或守旧,如果有任何异议,接待关联半导体行业不雅察。
今天是《半导体行业不雅察》为您共享的第3878骨子,接待热爱。
『半导体第一垂直媒体』
及时 专科 原创 深度
公众号ID:icbank
心爱咱们的骨子就点“在看”共享给小伙伴哦