2024年科技行业前瞻专题：AI ASIC，算力芯片的下一篇章

2024年科技行业前瞻专题：AI ASIC，算力芯片的下一篇章

2024-12-27 02:19

大型CSP加速资本支出

大型CSP在资本支出方面投入巨大，支出的同比增速在加快。北美四大CSP的Capex规模今年来增幅显著提升，2024年前三季度整体规模达到1708亿美元，同比增长56%，且yoy逐季加快（Q1-Q3 yoy分别为34.7%、64.6%、68%）。其中，微软530亿美元，yoy +78.5%；亚马逊551.7亿美元，yoy +44.6%；谷歌382.6亿美元，yoy +79%；Meta 243.9亿美元，yoy +20.7%。资本支出大幅提升的背后，是各家巨头在AI赛道上的竞赛、AI算力的稀缺、AI云赋能和AI生态的拓展等多方面驱动。

ASIC可适应不同的业务场景和商业模式的需求

大型CSP的业务模型、应用场景等很多通过自身的云来承载，每个云承载了独特的应用和商业模型，包括内部应用（比如搜索引擎、社交媒体等）、SaaS服务（比如AI聊天机器人、Copilot等）、IaaS服务等。ASIC 可以适应不同的业务场景和商业模式的需求。 ASIC可以满足客户的需求：1）内部工作负载的架构优化；2）更低的功耗，更低的成本；3）为AI工作负载定制的内存和I/O架构。

训练和推理集群对加速计算芯片的需求

目前在训练阶段，训练集群对加速计算芯片的需求已提升到万卡级别。随着AI模型对训练需求的提升，未来10 万卡级别指日可待。而在推理阶段，由于计算量与业务和应用密切相关，单个推理集群对加速计算芯片的需求低于训练集群，但推理集群的部署数量要远多于训练集群，推理集群的数量预计会达到百万级别。 AI算力集群特别是推理集群对加速计算芯片的庞大需求，是ASIC快速成长的核心驱动力。

ASIC市场规模预测

据Marvell预测，2023年 ASIC 占数据中心加速计算芯片的16%，规模约为66亿美元；随着 AI 计算需求的增长， ASIC 占比有望提升至25%，预计2028年数据中心 ASIC 市场规模将提升至429亿美元，CAGR为45.4%。

ASIC硬件性能：针对特定算法和应用优化设计，具有较高能效比

ASIC针对特定算法和应用进行优化设计，在特定任务上的计算能力强大，例如在某些AI深度学习算法中实现高效的矩阵运算和数据处理。GPU具有强大的并行计算能力，拥有众多计算核心，可同时处理多个任务，在通用计算和图形处理方面表现出色，适用于大规模的数据并行计算，如科学计算、图形渲染、视频处理等；但GPU在特定任务上的计算效率可能不如ASIC。 ASIC通常具有较高的能效比，因其硬件结构是为特定任务定制的，能最大限度减少不必要的功耗。GPU由于其通用的设计架构，在执行特定任务时可能存在一些功耗浪费；但随着技术的进步，新一代GPU也在不断提高能效比。 ASIC在处理特定任务时，能实现高吞吐量，数据处理速度快，可快速完成大量的数据处理工作。GPU具有较高的带宽和并行处理能力，在图形处理和通用计算中能实现较高吞吐量，但在处理一些复杂、非图形相关的特定任务时，其吞吐量可能会受到一定限制。 ASIC在绝对算力和片间互联方面普遍低于AI GPU，但ASIC的服务器间互联由于采用以太网为主，具有通用性强、生态开放、低成本等优势。

ASIC的单位算力成本更低，满足一定的降本需求

ASIC的单位算力成本更低，满足一定的降本需求。ASIC因其硬件结构是为特定任务定制的，减少了很多针对通用加速计算的不必要的硬件设计，其单位算力成本相比GPU或更低。谷歌TPU v5、亚马逊Trainium 2的单位算力成本分别为英伟达H100的70%、60%。

ASIC与GPU软件生态对比

ASIC在软件生态上的优势：云厂商普遍具备较强的研发能力，为 ASIC 研发了配套的全栈软件生态，开发了一系列编译器、底层中间件等，提升 ASIC 在特定场景下的计算效率。部分第三方芯片厂商推出了开源平台，未来 ASIC 的软件生态将会愈发成熟和开放。 ASIC在软件生态上的劣势：软件生态相对较为单一，主要针对特定的应用场景和算法进行优化。与 GPU 相比，ASIC 的编程难度较大，需要专业的知识和技能，开发工具和软件库相对较少。这使得开发者在使用ASIC 时需要花费更多时间和精力进行开发调试。 GPU软件生态的优势：软件生态丰富成熟，拥有广泛的开发工具、编程语言和软件库支持，如英伟达的 CUDA 和 AMD 的 ROCm 等。开发者可使用熟悉的编程语言如 C、C++、Python 等进行开发，且有大量的开源项目和社区支持，方便开发者学习和交流。这使得 GPU 在各种应用场景中都能快速地进行开发和部署。 GPU软件生态的劣势：软件生态在特定任务上的优化程度可能不如 ASIC。在一些对性能和功耗要求极高的特定场景中，需要进行大量的优化工作才能发挥出GPU 的最佳性能。

ASIC以推理场景为主，并开始切入到部分训练环节

ASIC在执行特定 AI 算法时的高性能和高能效的优势，对于大规模数据中心等对能耗敏感的场景非常重要。由于 ASIC 不需要集成通用的功能模块，从而减少不必要的硬件资源浪费，如果AI应用场景明确且需求量大，ASIC在大规模生产后其单位成本可显著降低。但 ASIC也有开发周期长且灵活性差的劣势，由于ASIC的设计和制造是针对特定算法和应用场景进行的，一旦设计完成其功能就固化下来，难以对芯片的功能和性能进行修改和升级，如果 AI 算法发生较大变化，ASIC 可能无法快速适应这种变化。此外，ASIC的生态系统还不够完善，开发者在使用ASIC 时可能需要花费更多时间和精力去搭建开发环境、编写底层代码等，开发难度较大。

ASIC更适用于推理：在推理阶段，AI模型已训练完成，需要对输入的数据进行快速的预测和分类。此时对芯片的计算精度要求相对较低，但对计算速度、能效和成本等要求较高。ASIC正好满足这些需求，其高度定制化的设计能针对推理任务进行优化，以较低的功耗实现快速的推理计算。且在大规模部署的场景下，ASIC的成本优势更加明显，可以降低企业的运营成本。

GPU更适用于训练：AI训练过程需要处理大量的数据和复杂的计算，对芯片的计算能力、内存带宽和并行处理能力要求非常高。GPU 拥有众多的计算核心和高带宽内存，可以同时处理大量的数据样本和复杂的计算任务，能够加速 AI 模型的训练过程。且在训练过程中，需要不断地调整模型的参数和结构，GPU的灵活性使其更适合这种频繁的调试和迭代。

谷歌TPU：谷歌专为AI定制设计的ASIC

TPU（Tensor Processing Units，张量处理单元）是谷歌专为AI定制设计的ASIC，其针对大模型的训练和推理进行了优化。TPU 适合各种使用场景，例如聊天机器人、代码生成、媒体内容生成、合成语音、视觉服务、推荐引擎、个性化模型等。截至2024年，谷歌TPU已迭代6代产品。TPU v5p单个Pod可达8960颗芯片的集群规模，借助Multislice训练技术，TPU v5p可实现5万卡线性加速。最新一代TPUv6 Trillium预计2024H2推出，TPU v6 FP16/BF16精度非稀疏算力可达926 TFLOPS，约为 H100、B100的93%、53%。相比TPU v5e，TPU v6能效高出67%，峰值性能高出3.7倍。

谷歌TPU算力集群能力

TPU v4和TPU v5p算力集群采用3D torus(3D环面)架构和OCS，提供高速的网络连接，增强拓展性与互联效率。在TPUv4的架构中，每64颗TPU v4芯片组成4x4x4的立方体，每个CPU配备4颗TPU v4，64颗TPU v4和16颗CPU放入一个机架，形成一个模块。一个模块有6个面的光路链接，每个面有16个链接，单模块共有96个光路连接到OCS。为了提供3D环面的环绕链接，对面的链接必须连接到同一个OCS。每个模块连接48个OCS（6×16÷2），最终实现所需的4096个TPU v4芯片互联。 TPU v4算力集群的物理架构：一个PCB包含4个TPU v4，通过ICI链路连接到其他托盘（tray），16个托盘共同放入一个机架，形成 4x4x4的3D模块结构。64个机柜共同组成4096颗芯片规模的算力集群。

谷歌TPU基准测试性能对比

TPU v4与英伟达A100在MLPerf基准测试中的性能对比：TPU v4在BERT上比A100快1.15倍，比IPU快约4.3倍；在ResNet上，TPU v4分别比A100和IPU快1.67倍和约4.5倍；运行MLPerf基准测试时，A100的平均功耗比TPU v4高1.3~1.9倍。虽然TPU v4单芯片算力为A100的88%，但在性能和功耗表现上要优于A100。

谷歌TPU迭代推动大模型训练效率显著提升

TPU的算力成本随着产品更新迭代也在持续优化。TPU v5e的相对性价比（TFLOPs/$）是TPU v4的2.3倍，参考谷歌披露的TPU v4公开标价3.22美元/芯片/小时，TPU v5e的标价为1.2美元/芯片/小时，TPU v5e以更低的成本实现了更高的算力。TPU v5p训练 LLM的速度比TPU v4快2.8倍，利用第二代SparseCores，TPU v5p训练嵌入密集模型的速度比TPU v4快1.9倍。

亚马逊自研AI芯片Inferentia

AWS Inferentia加速器由AWS设计，在Amazon EC2中以低成本为深度学习和生成式AI推理应用程序提供高性能。第一代AWS Inferentia 1加速器为Amazon Elastic Compute Cloud（Amazon EC2）Inf1实例提供支持，与同类Amazon EC2实例相比，该实例的吞吐量可提高多达2.3倍，每次推理的成本可降低多达70%。

2023年亚马逊发布了Inferentia 2芯片和Inf2实例，与Inferentia相比，AWS Inferentia 2加速器的吞吐量提高了4倍，延迟低至上一代的1/10。Inferentia 1加速器搭载4个第一代NeuronCore，配有8 GB的DDR4内存，每个EC2 Inf1实例最多有16个Inferentia 1加速器。Inferentia 2加速器搭载了2个第二代NeuronCore，支持190 TFLOPS的FP16性能，配置32GB的HBM，与Inferentia 1相比，总内存增加了4倍，内存带宽增加了10倍；每个EC2 Inf2实例最多有12个Inferentia 2加速器。

微软自研芯片Maia 100

Maia 100基于自定义的RoCE类协议和以太网互连，内置AES-GCM加密引擎以保护用户数据，网络连接带宽达到600GB/s。Maia 100还由统一的后端网络支持，用于扩展和横向扩展工作负载，提供了支持直接和交换机连接的灵活性。

微软Maia 100芯片的Ares机架配备32颗Maia 100。Ares一个机架中搭载了8台服务器，每台服务器中含有4个Maia 100，因此一个机架中总共有32颗Maia 100芯片。Ares机架功率可达40kW，配置了Sidekick液体冷却系统，在机架两侧设置副设备，冷液从副设备流向Maia 100表面的冷板，副设备吸取液体中热量后再将冷液输出，以此构建散热循环。

Meta自研芯片MTIA

MTIA v2于2024年4月发布，用于AI推理，旨在增强Meta的排名和广告推荐引擎。MTIA v2采用台积电5nm制程，与上一代相比算力和内存带宽翻倍提升，INT8下的稠密算力354 TFLOPS接近上一代的3.5倍，稀疏算力708 TFLOPS达到上一代的近7倍。MTIA v2 配备128GB的LPDDR5内存，内存带宽205GB/s，设计最大功耗90W TDP 。目前Meta已有16个数据中心使用了新款芯片。

芯片架构方面，MTIA v2内部包含加速器、片上和片外存储以及互联结构。AI加速器由8x8的处理单元网格（PE，processing element）组成，PE基于RISC-V内核，PE彼此互联，可作为一个整体运行任务，也可以独立处理任务。片上内存SRAM容量256MB ，SRAM带宽为2.7TB/s，每个PE内存容量为384KB，PE带宽为1 TB/s。每个加速器使用PCIe Gen5 x8主机接口。