大型CSP加速资本支出
大型CSP在资本支出方面投入巨大,支出的同比增速在加快。北美四大CSP的Capex规模今年来增幅显著提升,2024年前三季度整体 规模达到1708亿美元,同比增长56%,且yoy逐季加快(Q1-Q3 yoy分别为34.7%、64.6%、68%)。其中,微软530亿美元,yoy +78.5%;亚马逊551.7亿美元,yoy +44.6%;谷歌382.6亿美元,yoy +79%;Meta 243.9亿美元,yoy +20.7%。 资本支出大幅提升的背后,是各家巨头在AI赛道上的竞赛、AI算力的稀缺、AI云赋能和AI生态的拓展等多方面驱动。
ASIC可适应不同的业务场景和商业模式的需求
大型CSP的业务模型、应用场景等很多通过自身的云来承载,每个云承载了独特的应用和商业模型,包括内部应用(比如搜索引擎、 社交媒体等)、SaaS服务(比如AI聊天机器人、Copilot等)、IaaS服务等。ASIC 可以适应不同的业务场景和商业模式的需求。 ASIC可以满足客户的需求:1)内部工作负载的架构优化;2)更低的功耗,更低的成本;3)为AI工作负载定制的内存和I/O架构。
训练和推理集群对加速计算芯片的需求
目前在训练阶段,训练集群对加速计 算芯片的需求已提升到万卡级别。随 着AI模型对训练需求的提升,未来10 万卡级别指日可待。 而在推理阶段,由于计算量与业务和 应用密切相关,单个推理集群对加速 计算芯片的需求低于训练集群,但推 理集群的部署数量要远多于训练集群 ,推理集群的数量预计会达到百万级 别。 AI算力集群特别是推理集群对加速计 算芯片的庞大需求,是ASIC快速成 长的核心驱动力。
ASIC市场规模预测
据Marvell预测,2023年 ASIC 占数据中心加速计算芯片的16%,规模约为66亿美元;随着 AI 计算需求的增长, ASIC 占比有望提升至25%,预计2028年数据中心 ASIC 市场规模将提升至429亿美元,CAGR为45.4%。
ASIC硬件性能:针对特定算法和应用优化设计,具有较高能效比
ASIC针对特定算法和应用进行优化设计,在特定任务上的计算能力强大,例如在某些AI深度学习算法中实现高效的矩阵运算和数据 处理。GPU具有强大的并行计算能力,拥有众多计算核心,可同时处理多个任务,在通用计算和图形处理方面表现出色,适用于大规 模的数据并行计算,如科学计算、图形渲染、视频处理等;但GPU在特定任务上的计算效率可能不如ASIC。 ASIC通常具有较高的能效比,因其硬件结构是为特定任务定制的,能最大限度减少不必要的功耗。GPU由于其通用的设计架构,在 执行特定任务时可能存在一些功耗浪费;但随着技术的进步,新一代GPU也在不断提高能效比。 ASIC在处理特定任务时,能实现高吞吐量,数据处理速度快,可快速完成大量的数据处理工作。GPU具有较高的带宽和并行处理能 力,在图形处理和通用计算中能实现较高吞吐量,但在处理一些复杂、非图形相关的特定任务时,其吞吐量可能会受到一定限制。 ASIC在绝对算力和片间互联方面普遍低于AI GPU,但ASIC的服务器间互联由于采用以太网为主,具有通用性强、生态开放、低成 本等优势。
ASIC的单位算力成本更低,满足一定的降本需求
ASIC的单位算力成本更低,满足一定的降本需求。ASIC因其硬件结构是为特定任务定制的,减少了很多针对通用加速计算的不必要 的硬件设计,其单位算力成本相比GPU或更低。谷歌TPU v5、亚马逊Trainium 2的单位算力成本分别为英伟达H100的70%、60%。
ASIC与GPU软件生态对比
ASIC在软件生态上的优势:云厂商普遍具备较强的研发能力,为 ASIC 研发了配套的全栈软件生态,开发了一系列编译器、底层中间 件等,提升 ASIC 在特定场景下的计算效率。部分第三方芯片厂商推出了开源平台,未来 ASIC 的软件生态将会愈发成熟和开放。 ASIC在软件生态上的劣势:软件生态相对较为单一,主要针对特定的应用场景和算法进行优化。与 GPU 相比,ASIC 的编程难度较 大,需要专业的知识和技能,开发工具和软件库相对较少。这使得开发者在使用ASIC 时需要花费更多时间和精力进行开发调试。 GPU软件生态的优势:软件生态丰富成熟,拥有广泛的开发工具、编程语言和软件库支持,如英伟达的 CUDA 和 AMD 的 ROCm 等 。开发者可使用熟悉的编程语言如 C、C++、Python 等进行开发,且有大量的开源项目和社区支持,方便开发者学习和交流。这使 得 GPU 在各种应用场景中都能快速地进行开发和部署。 GPU软件生态的劣势:软件生态在特定任务上的优化程度可能不如 ASIC。在一些对性能和功耗要求极高的特定场景中,需要进行大 量的优化工作才能发挥出GPU 的最佳性能。
ASIC以推理场景为主,并开始切入到部分训练环节
ASIC在执行特定 AI 算法时的高性能和高能效的优势,对于大规模数据中心等对能耗敏感的场景非常重要。由于 ASIC 不需要集成通 用的功能模块,从而减少不必要的硬件资源浪费,如果AI应用场景明确且需求量大,ASIC在大规模生产后其单位成本可显著降低。但 ASIC也有开发周期长且灵活性差的劣势,由于ASIC的设计和制造是针对特定算法和应用场景进行的,一旦设计完成其功能就固化下 来,难以对芯片的功能和性能进行修改和升级,如果 AI 算法发生较大变化,ASIC 可能无法快速适应这种变化。此外,ASIC的生态 系统还不够完善,开发者在使用ASIC 时可能需要花费更多时间和精力去搭建开发环境、编写底层代码等,开发难度较大。
ASIC更适用于推理:在推理阶段,AI模型已训练完成,需要对输入的数据进行快速的预测和分类。此时对芯片的计算精度要求相对较 低,但对计算速度、能效和成本等要求较高。ASIC正好满足这些需求,其高度定制化的设计能针对推理任务进行优化,以较低的功耗 实现快速的推理计算。且在大规模部署的场景下,ASIC的成本优势更加明显,可以降低企业的运营成本。
GPU更适用于训练:AI训练过程需要处理大量的数据和复杂的计算,对芯片的计算能力、内存带宽和并行处理能力要求非常高。GPU 拥有众多的计算核心和高带宽内存,可以同时处理大量的数据样本和复杂的计算任务,能够加速 AI 模型的训练过程。且在训练过程 中,需要不断地调整模型的参数和结构,GPU的灵活性使其更适合这种频繁的调试和迭代。
谷歌TPU:谷歌专为AI定制设计的ASIC
TPU(Tensor Processing Units,张量处理单元)是谷歌专为AI定制设计的ASIC,其针对大模型的训练和推理进行了优化。TPU 适合各种使用场景,例如聊天机器人、代码生成、媒体内容生成、合成语音、视觉服务、推荐引擎、个性化模型等。 截至2024年,谷歌TPU已迭代6代产品。TPU v5p单个Pod可达8960颗芯片的集群规模,借助Multislice训练技术,TPU v5p可实 现5万卡线性加速。最新一代TPUv6 Trillium预计2024H2推出,TPU v6 FP16/BF16精度非稀疏算力可达926 TFLOPS,约为 H100、B100的93%、53%。相比TPU v5e,TPU v6能效高出67%,峰值性能高出3.7倍。
谷歌TPU算力集群能力
TPU v4和TPU v5p算力集群采用3D torus(3D环面)架构和OCS,提供高速的网络连接,增强拓展性与互联效率。在TPUv4的架构中 ,每64颗TPU v4芯片组成4x4x4的立方体,每个CPU配备4颗TPU v4,64颗TPU v4和16颗CPU放入一个机架,形成一个模块。 一个模块有6个面的光路链接,每个面有16个链接,单模块共有96个光路连接到OCS。为了提供3D环面的环绕链接,对面的链接必 须连接到同一个OCS。每个模块连接48个OCS(6×16÷2),最终实现所需的4096个TPU v4芯片互联。 TPU v4算力集群的物理架构:一个PCB包含4个TPU v4,通过ICI链路连接到其他托盘(tray),16个托盘共同放入一个机架,形成 4x4x4的3D模块结构。64个机柜共同组成4096颗芯片规模的算力集群。
谷歌TPU基准测试性能对比
TPU v4与英伟达A100在MLPerf基准测试中的性能对比:TPU v4在BERT上比A100快1.15倍,比IPU快约4.3倍;在ResNet上,TPU v4分别比A100和IPU快1.67倍和约4.5倍;运行MLPerf基准测试时,A100的平均功耗比TPU v4高1.3~1.9倍。虽然TPU v4单芯片算 力为A100的88%,但在性能和功耗表现上要优于A100。
谷歌TPU迭代推动大模型训练效率显著提升
TPU的算力成本随着产品更新迭代也在持续优化。TPU v5e的相对性价比(TFLOPs/$)是TPU v4的2.3倍,参考谷歌披露的TPU v4公开标价3.22美元/芯片/小时,TPU v5e的标价为1.2美元/芯片/小时,TPU v5e以更低的成本实现了更高的算力。TPU v5p训练 LLM的速度比TPU v4快2.8倍,利用第二代SparseCores,TPU v5p训练嵌入密集模型的速度比TPU v4快1.9倍。
亚马逊自研AI芯片Inferentia
AWS Inferentia加速器由AWS设计,在Amazon EC2中以低成本为深度学习和生成式AI推理应用程序提供高性能。第一代AWS Inferentia 1加速器为Amazon Elastic Compute Cloud(Amazon EC2)Inf1实例提供支持,与同类Amazon EC2实例相比,该实 例的吞吐量可提高多达2.3倍,每次推理的成本可降低多达70%。
2023年亚马逊发布了Inferentia 2芯片和Inf2实例,与Inferentia相比,AWS Inferentia 2加速器的吞吐量提高了4倍,延迟低至上一 代的1/10。Inferentia 1加速器搭载4个第一代NeuronCore,配有8 GB的DDR4内存,每个EC2 Inf1实例最多有16个Inferentia 1加 速器。Inferentia 2加速器搭载了2个第二代NeuronCore,支持190 TFLOPS的FP16性能,配置32GB的HBM,与Inferentia 1相比, 总内存增加了4倍,内存带宽增加了10倍;每个EC2 Inf2实例最多有12个Inferentia 2加速器。
微软自研芯片Maia 100
Maia 100基于自定义的RoCE类协议和以太网互连,内置AES-GCM加密引擎以保护用户数据,网络连接带宽达到600GB/s。Maia 100还由统一的后端网络支持,用于扩展和横向扩展工作负载,提供了支持直接和交换机连接的灵活性。
微软Maia 100芯片的Ares机架配备32颗Maia 100。Ares一个机架中搭载了8台服务器,每台服务器中含有4个Maia 100,因此一个 机架中总共有32颗Maia 100芯片。Ares机架功率可达40kW,配置了Sidekick液体冷却系统,在机架两侧设置副设备,冷液从副设 备流向Maia 100表面的冷板,副设备吸取液体中热量后再将冷液输出,以此构建散热循环。
Meta自研芯片MTIA
MTIA v2于2024年4月发布,用于AI推理,旨在增强Meta的排名和广告推荐引擎。MTIA v2采用台积电5nm制程,与上一代相比算 力和内存带宽翻倍提升,INT8下的稠密算力354 TFLOPS接近上一代的3.5倍,稀疏算力708 TFLOPS达到上一代的近7倍。MTIA v2 配备128GB的LPDDR5内存,内存带宽205GB/s,设计最大功耗90W TDP 。目前Meta已有16个数据中心使用了新款芯片。
芯片架构方面,MTIA v2内部包含加速器、片上和片外存储以及互联结构。AI加速器由8x8的处理单元网格(PE,processing element)组成,PE基于RISC-V内核,PE彼此互联,可作为一个整体运行任务,也可以独立处理任务。片上内存SRAM容量256MB ,SRAM带宽为2.7TB/s,每个PE内存容量为384KB,PE带宽为1 TB/s。每个加速器使用PCIe Gen5 x8主机接口。