AI大模型时代来临，Chiplet算力扩展势在必行（下）

AI大模型时代来临，Chiplet算力扩展势在必行（下）

2024-12-26 22:27

在AI大模型时代来临，Chiplet算力扩展势在必行（上）中，我们分析了AI大模型的发展趋势、应用领域和主要特点，从应用层面说明了AI大模型对AI芯片解决方案的要求越来越高。由于摩尔定律失效、先进工艺成本高昂、大芯片良率降低等原因，单个AI芯片的AI大模型解决方案已不再具有可实现的经济性，因此使得基于多个AI芯片互连的AI大模型解决方案势在必行。我们还进一步指出了多芯片和多芯粒互连方式存在的问题，同时提出了芯砺智能所推崇的Chiplet总线互连的理念。本文我们将进一步分析当前AI芯片大模型解决方案中尚存的问题，以及如何利用Chiplet技术实现低成本的大算力扩展，从而提供高性价比的AI芯片大模型解决方案。

AI芯片大模型解决方案的现状分析

AI大模型如何部署到多个原始计算芯片

从大模型的数据结构和拓扑结构出发，目前业界对于把AI大模型部署到多个原始计算芯片主要有如下三种模式：

数据并行(训练)/模型并行（推理）

在训练侧，相同的权重设置和模型被复制多份，每个原始计算芯片每次都运行不同的数据，各个芯片是并行完成，在每份数据训练结束后同步。在推理侧，每个原始计算芯片跑不一样的模型，各个芯片是并行在本地完成，推理结束后由主控来同步。这种模式下各个原始计算芯片都是相对独立运行，对于多芯片（粒）互连的要求不高，前提是单个原始计算芯片能承载单个大模型，但如上篇分析，这会愈发困难。

张量并行

把每个张量分成多个分片，在处理过程中，每个分片是在不同原始计算芯片上并行处理。但由于网络结构的需要，在需要同步处理时，需要汇聚各个芯片上的分片处理结果后形成一个整体张量然后再分发到各个原始计算芯片上做下一步的分片并行处理。这种模式需要在不同原始计算芯片间复制参数，适合参数量规模相对不大，但运算量是瓶颈的大模型。此外，张量的汇聚和分发都需要在不同的原始计算芯片之前读写数据，这就对多芯片（粒）互连的带宽和延时都提出了很高的要求，因为这会直接影响到整个系统大模型处理的吞吐率。

流水线并行

把一个大模型拆分成多个中小模型，分布在不同的原始计算芯片上，每个原始计算芯片只处理大模型的一部分，从而让多个原始计算芯片形成硬件处理的流水线来加速整个大模型的处理。在这种模式下，多帧张量数据在各个原始计算芯片上并发处理，虽然单帧数据的处理延时会因为互连而有所增加，但由于多帧并行处理，能够在一定程度隐藏因为互连而增加的延时对整个系统大模型处理的吞吐率的影响。这种模式不需要复制参数，适合参数量规模和运算量规模都比较大的大模型。相比与张量并行，这种模式对互连的带宽和延时的要求会适当降低，但整体系统大模型处理的吞吐率依然与互连的带宽和延时强相关。

通过上述的分析，我们可以看到，无论是多芯片还是多芯粒互连，互连的高带宽和低延时都是提升AI芯片大模型解决方案性能的关键因素。

以NVIDIA为代表的技术路线现状

NVIDIA无疑是当前AI芯片业界的霸主，从2016年发布P100计算卡以来，V100/A100/H100的每一代AI芯片都在引领业界的时代潮流，也占据现在AI芯片大模型解决方案的最大市场份额。在单颗AI芯片封装以内，NVIDIA一直都坚持单颗计算大芯片的架构。以下图最新的H100芯片为例，NVIDIA采用了CoWoS(2.5D)封装，集成了单颗GH100核心计算芯粒和6颗HBM3或HBM2E存储颗粒，采用台积电目前最先进的定制版4nm工艺。

在板级多芯片互连方案上，NVIDIA采用了基于比PCIe的带宽和延时都更优的高速串行通信接口NVLink。从P100时代开始就引入NVLinkV1.0，直到V100时代的NVLinkV2.0, A100时代的NVLinkV3.0, 至最新的H100时代的NVLinkV4.0。基于NVLink，NVIDIA还推出了NVSwitch，并相继推出了DGX/HGX的多芯片互连的超级电脑AI解决方案。

如下图所示，利用NVLink互连技术，NVIDIA可以构建4颗A100组成的全交叉的2X2 Mesh计算阵列，并以此为基础构建强大的AI算力服务器。更进一步，NVIDIA设计了基于NVLink的独立的NVSwitch芯片，把8颗A100全交叉地相连，从而构建了具有统一内存系统的强大算力集群。

进入到H100时代，H100的算力更大，带宽更高。NVIDIA运用多个NVSwitch把8个H100做全交叉互连构建了算力更为强大的超级电脑。

尽管已经有了上述如此强大的多芯片互连的AI芯片大模式解决方案，但NVLink仍然是一种高速串行通信接口。虽然相较PCIe，它能提供更高的带宽，同时有更低的传输延时和功耗，但由于通信协议包的约束，其通信延时相较于并行总线通信要大的多。那么按照前述的三种大模型部署模式分析，在张量并行和流水线并行的部署模式下，NVLink的高延时会很大程度降低大模型在整体系统上部署的吞吐率，而且对于对延时要求较高的AI边缘推理的场景也有很大的影响。

以AMD为代表的技术路线现状

AMD同样是当今AI芯片产业中的佼佼者，也是Chiplet技术的头号玩家。不同于NVIDIA的以NVLink为核心的多芯片互连方案，AMD采用了以Chiplet为核心的多芯粒互连方案。从EPYC Naples/Rome/Milan/Genoa，再到MI100/M250/M300，AMD的多芯粒互连方案一直走在业界前列。下图简要说明了AMD在Chiplet技术应用上的演进：

其最新的MI300系列体现了AMD在Chiplet架构和封装上的一系列经验积累。如下图所示，MI300在封装上采用3D Chiplet结构，共有三层：

最下面一层是封装基板，用于承载和连接中间一层的小芯片。中间层是IO Die和HBM存储颗粒。如图所示，中间层放置了4颗6nm IO Die，这4颗IO Die也承载了Infinity Cache and Fabric的功能。此外，这4颗IO Die用高架扇出桥工艺（EFB）两两互连，共需4个连接桥。左右两边各有4颗HBM3存储芯粒，共需8个连接桥与相邻的IO Die连接，这样中间层一共需要12个EFB。最上层覆盖在中间层的4颗IO Die上，共放置了6颗5nm的CDNA3 GPU Die和3颗 5nm的EPYC Genoa CPU Die（最多包含24个Zen4核心）。

在上述3D Chiplet封装的MI300大芯片的基础上，AMD继续运用PCIe互连来把多个MI300大芯片组合成算力更为强大的超级电脑。如下图所示，MI300相比MI250可以绕开中间EPYC CPU构建全交叉的2X2的MI300 Mesh。这一点与前述的NVIDIA的思路类似。

从AI芯片大模型解决方案的成本来看，AMD更注重于单个封装内多芯粒互连，在板级的多芯片互连方面并没有NVIDIA驾轻就熟。从单个封装内部来看，因为缩小了单个芯粒的大小，其良率必然提高，从而使得单个封装的综合良率比NVIDIA的单个大芯片的良率高，故此在芯片成本方面AMD比NVIDIA更占优势。

从AI大模型的部署性能的角度来看，在单个封装内部，多芯粒互连采取的是Infinity Fabric并行总线直接互连，节省了高速串行通信接口的通信协议和软件驱动开销，其多芯粒通信延时会得到大幅降低，高带宽也能得到保证。那么按照前述的三种大模型部署模式分析，在张量并行和流水线并行的部署模式下，AMD的单颗封装的AI大模型性能会比NVIDIA同等算力的多芯片互连方案的性能更好。

但是，受制于单颗封装的大小限制，AMD的多芯粒互连优势在算力要求更大的AI大模型场景下就会受到约束。这个时候，得益于NVIDIA在NVLink上相较于PCIe的带宽和延时优化积累，NVIDIA的基于NVLink的板级多芯片互连方案相比于AMD的基于PCIe的板级多芯片互连就有了更大的优势。

如何用Chiplet技术优化AI芯片的大模型解决方案

从上述的NVIDIA和AMD的AI芯片大模型解决方案的现状分析来看，这两家各有优劣：

·NVIDIA在单个封装内用单计算芯粒和多存储芯粒互连方案，封装采用CoWoS(2.5D)封装。在同等计算芯片面积的情况下，良率不如AMD且成本会更高，对先进制程的依赖也会更大；在板级多芯片互连方面，得益于NVIDIA在NVLink上的长期积累，它的互连带宽和延时相较PCIe有显著优势，在这方面NVIDIA明显胜过AMD。但受制于NVLink的高速串行通信接口协议，相较于AMD的封装内Chiplet并行总线互连，NVLink的延时仍然较大，这会使得在不考虑封装面积约束且有同等互连算力的配置下，NVIDIA在部署AI大模型的张量并行和流水线并行模式下的性能弱于AMD的多芯粒互连方案。

·AMD在单个封装内用多计算IO芯粒和多存储芯粒互连方案，封装采用台积电的SoIC(3D)封装。从成本角度来看，良率是其优势。但由于其采用完全的Chiplet并行总线互连，互连管脚数量非常多，必须采用更先进的台积电的SoIC(3D)封装技术，相较于NVIDIA只使用CoWoS封装技术，3D Chiplet的成本也会更高。从性能角度来看，AMD在单个封装内的互连有延时优势，但在板级多芯片互连方案上比NVLink有带宽和延时方面的劣势，这些都会对部署AI大模型的张量并行和流水线并行模式下的性能产生此消彼长的影响。

从以上的对比分析中，我们可以清楚地看到，在AI大模型时代，使用Chiplet技术来定制高效扩展算力已势在必行，而且这种定制化高效互连扩展算力的方法不仅局限在单个封装内，也同样运用在板级多芯片互连甚至更大规模的多板多机柜互连方案中。

此外，我们还会更进一步地思考，有没有比NVIDIA和AMD这两种代表技术路线更优的定制化多芯粒和多芯片互连方案来支持AI大模型的部署呢？

答案显然是肯定的，其实从以上对比分析中我们已经获得了启发：

·从成本角度来看，在单个封装内，我们应该采用多芯粒互连来提高良率和减少对先进制程的依赖；而且，我们还要尽可能不采用先进封装，如果能用传统封装达到多芯粒互连的效果，那是最佳。

·从多芯粒互连的性能角度来看，互连带宽和延时是关键。那么，我们应该采取和AMD类似的Chiplet并行总线互连，既减少互连延时又保证高带宽，让多颗芯粒工作起来尽可能像在一个芯片内一样。而且，为了不使用先进封装从而降低成本，还要尽可能得减少这种Chiplet并行总线互连的管脚数量，这样才使得使用传统封装成为可能。

·由于单个封装的面积限制，我们必然要在单个封装内的多芯粒互连方案的基础上进一步采取板级的多芯片互连方案实现更大规模的算力扩展。那么，我们应该在板级采取和NVIDIA的NVLink类似的定制化高速串行通信接口互连，这样能实现比传统PCIe互连更高的互连带宽和更低的互连延时。

芯砺智能的专利性Chiplet D2D互连接口采用了总线扩展的设计思想，在不依赖于先进封装的前提下实现了高带宽、低延时的特性，以较低的成本实现了高效的多芯粒联合计算，有效地降低了Chiplet技术的应用门槛，为推动未来AI大模型时代Chiplet技术的大规模运用打下了坚实的基础。如下图所示，运用芯砺智能的Chiplet D2D技术，可以实现单个封装内的多芯粒间多种互连结构。

更进一步的是，芯砺智能独创在研的C2C多芯片互连接口采用定制化高速通信方法，能提供比传统PCIe更高的带宽和更低的延时。如下图所示，运用芯砺智能的C2C互连技术，可以实现更大规模的多种结构的多芯片互连。

结语