分享好友 最新动态首页 最新动态分类 切换频道
2024年科技行业前瞻专题:AI ASIC,算力芯片的下一篇章
2024-12-27 02:19

大型CSP加速资本支出

2024年科技行业前瞻专题:AI ASIC,算力芯片的下一篇章

大型CSP在资本支出方面投入巨大,支出的同比增速在加快。北美四大CSP的Capex规模今年来增幅显著提升,2024年前三季度整体 规模达到1708亿美元,同比增长56%,且yoy逐季加快(Q1-Q3 yoy分别为34.7%、64.6%、68%)。其中,微软530亿美元,yoy +78.5%;亚马逊551.7亿美元,yoy +44.6%;谷歌382.6亿美元,yoy +79%;Meta 243.9亿美元,yoy +20.7%。 资本支出大幅提升的背后,是各家巨头在AI赛道上的竞赛、AI算力的稀缺、AI云赋能和AI生态的拓展等多方面驱动。

ASIC可适应不同的业务场景和商业模式的需求

大型CSP的业务模型、应用场景等很多通过自身的云来承载,每个云承载了独特的应用和商业模型,包括内部应用(比如搜索引擎、 社交媒体等)、SaaS服务(比如AI聊天机器人、Copilot等)、IaaS服务等。ASIC 可以适应不同的业务场景和商业模式的需求。 ASIC可以满足客户的需求:1)内部工作负载的架构优化;2)更低的功耗,更低的成本;3)为AI工作负载定制的内存和I/O架构。

训练和推理集群对加速计算芯片的需求

目前在训练阶段,训练集群对加速计 算芯片的需求已提升到万卡级别。随 着AI模型对训练需求的提升,未来10 万卡级别指日可待。 而在推理阶段,由于计算量与业务和 应用密切相关,单个推理集群对加速 计算芯片的需求低于训练集群,但推 理集群的部署数量要远多于训练集群 ,推理集群的数量预计会达到百万级 别。  AI算力集群特别是推理集群对加速计 算芯片的庞大需求,是ASIC快速成 长的核心驱动力。

ASIC市场规模预测

据Marvell预测,2023年 ASIC 占数据中心加速计算芯片的16%,规模约为66亿美元;随着 AI 计算需求的增长, ASIC 占比有望提升至25%,预计2028年数据中心 ASIC 市场规模将提升至429亿美元,CAGR为45.4%。

ASIC硬件性能:针对特定算法和应用优化设计,具有较高能效比

ASIC针对特定算法和应用进行优化设计,在特定任务上的计算能力强大,例如在某些AI深度学习算法中实现高效的矩阵运算和数据 处理。GPU具有强大的并行计算能力,拥有众多计算核心,可同时处理多个任务,在通用计算和图形处理方面表现出色,适用于大规 模的数据并行计算,如科学计算、图形渲染、视频处理等;但GPU在特定任务上的计算效率可能不如ASIC。 ASIC通常具有较高的能效比,因其硬件结构是为特定任务定制的,能最大限度减少不必要的功耗。GPU由于其通用的设计架构,在 执行特定任务时可能存在一些功耗浪费;但随着技术的进步,新一代GPU也在不断提高能效比。  ASIC在处理特定任务时,能实现高吞吐量,数据处理速度快,可快速完成大量的数据处理工作。GPU具有较高的带宽和并行处理能 力,在图形处理和通用计算中能实现较高吞吐量,但在处理一些复杂、非图形相关的特定任务时,其吞吐量可能会受到一定限制。 ASIC在绝对算力和片间互联方面普遍低于AI GPU,但ASIC的服务器间互联由于采用以太网为主,具有通用性强、生态开放、低成 本等优势。

ASIC的单位算力成本更低,满足一定的降本需求

ASIC的单位算力成本更低,满足一定的降本需求。ASIC因其硬件结构是为特定任务定制的,减少了很多针对通用加速计算的不必要 的硬件设计,其单位算力成本相比GPU或更低。谷歌TPU v5、亚马逊Trainium 2的单位算力成本分别为英伟达H100的70%、60%。

ASIC与GPU软件生态对比

ASIC在软件生态上的优势:云厂商普遍具备较强的研发能力,为 ASIC 研发了配套的全栈软件生态,开发了一系列编译器、底层中间 件等,提升 ASIC 在特定场景下的计算效率。部分第三方芯片厂商推出了开源平台,未来 ASIC 的软件生态将会愈发成熟和开放。 ASIC在软件生态上的劣势:软件生态相对较为单一,主要针对特定的应用场景和算法进行优化。与 GPU 相比,ASIC 的编程难度较 大,需要专业的知识和技能,开发工具和软件库相对较少。这使得开发者在使用ASIC 时需要花费更多时间和精力进行开发调试。 GPU软件生态的优势:软件生态丰富成熟,拥有广泛的开发工具、编程语言和软件库支持,如英伟达的 CUDA 和 AMD 的 ROCm 等 。开发者可使用熟悉的编程语言如 C、C++、Python 等进行开发,且有大量的开源项目和社区支持,方便开发者学习和交流。这使 得 GPU 在各种应用场景中都能快速地进行开发和部署。 GPU软件生态的劣势:软件生态在特定任务上的优化程度可能不如 ASIC。在一些对性能和功耗要求极高的特定场景中,需要进行大 量的优化工作才能发挥出GPU 的最佳性能。

ASIC以推理场景为主,并开始切入到部分训练环节

ASIC在执行特定 AI 算法时的高性能和高能效的优势,对于大规模数据中心等对能耗敏感的场景非常重要。由于 ASIC 不需要集成通 用的功能模块,从而减少不必要的硬件资源浪费,如果AI应用场景明确且需求量大,ASIC在大规模生产后其单位成本可显著降低。但 ASIC也有开发周期长且灵活性差的劣势,由于ASIC的设计和制造是针对特定算法和应用场景进行的,一旦设计完成其功能就固化下 来,难以对芯片的功能和性能进行修改和升级,如果 AI 算法发生较大变化,ASIC 可能无法快速适应这种变化。此外,ASIC的生态 系统还不够完善,开发者在使用ASIC 时可能需要花费更多时间和精力去搭建开发环境、编写底层代码等,开发难度较大。

ASIC更适用于推理:在推理阶段,AI模型已训练完成,需要对输入的数据进行快速的预测和分类。此时对芯片的计算精度要求相对较 低,但对计算速度、能效和成本等要求较高。ASIC正好满足这些需求,其高度定制化的设计能针对推理任务进行优化,以较低的功耗 实现快速的推理计算。且在大规模部署的场景下,ASIC的成本优势更加明显,可以降低企业的运营成本。

GPU更适用于训练:AI训练过程需要处理大量的数据和复杂的计算,对芯片的计算能力、内存带宽和并行处理能力要求非常高。GPU 拥有众多的计算核心和高带宽内存,可以同时处理大量的数据样本和复杂的计算任务,能够加速 AI 模型的训练过程。且在训练过程 中,需要不断地调整模型的参数和结构,GPU的灵活性使其更适合这种频繁的调试和迭代。

谷歌TPU:谷歌专为AI定制设计的ASIC

TPU(Tensor Processing Units,张量处理单元)是谷歌专为AI定制设计的ASIC,其针对大模型的训练和推理进行了优化。TPU 适合各种使用场景,例如聊天机器人、代码生成、媒体内容生成、合成语音、视觉服务、推荐引擎、个性化模型等。 截至2024年,谷歌TPU已迭代6代产品。TPU v5p单个Pod可达8960颗芯片的集群规模,借助Multislice训练技术,TPU v5p可实 现5万卡线性加速。最新一代TPUv6 Trillium预计2024H2推出,TPU v6 FP16/BF16精度非稀疏算力可达926 TFLOPS,约为 H100、B100的93%、53%。相比TPU v5e,TPU v6能效高出67%,峰值性能高出3.7倍。

谷歌TPU算力集群能力

TPU v4和TPU v5p算力集群采用3D torus(3D环面)架构和OCS,提供高速的网络连接,增强拓展性与互联效率。在TPUv4的架构中 ,每64颗TPU v4芯片组成4x4x4的立方体,每个CPU配备4颗TPU v4,64颗TPU v4和16颗CPU放入一个机架,形成一个模块。 一个模块有6个面的光路链接,每个面有16个链接,单模块共有96个光路连接到OCS。为了提供3D环面的环绕链接,对面的链接必 须连接到同一个OCS。每个模块连接48个OCS(6×16÷2),最终实现所需的4096个TPU v4芯片互联。 TPU v4算力集群的物理架构:一个PCB包含4个TPU v4,通过ICI链路连接到其他托盘(tray),16个托盘共同放入一个机架,形成 4x4x4的3D模块结构。64个机柜共同组成4096颗芯片规模的算力集群。

谷歌TPU基准测试性能对比

TPU v4与英伟达A100在MLPerf基准测试中的性能对比:TPU v4在BERT上比A100快1.15倍,比IPU快约4.3倍;在ResNet上,TPU v4分别比A100和IPU快1.67倍和约4.5倍;运行MLPerf基准测试时,A100的平均功耗比TPU v4高1.3~1.9倍。虽然TPU v4单芯片算 力为A100的88%,但在性能和功耗表现上要优于A100。

谷歌TPU迭代推动大模型训练效率显著提升

TPU的算力成本随着产品更新迭代也在持续优化。TPU v5e的相对性价比(TFLOPs/$)是TPU v4的2.3倍,参考谷歌披露的TPU v4公开标价3.22美元/芯片/小时,TPU v5e的标价为1.2美元/芯片/小时,TPU v5e以更低的成本实现了更高的算力。TPU v5p训练 LLM的速度比TPU v4快2.8倍,利用第二代SparseCores,TPU v5p训练嵌入密集模型的速度比TPU v4快1.9倍。

亚马逊自研AI芯片Inferentia

AWS Inferentia加速器由AWS设计,在Amazon EC2中以低成本为深度学习和生成式AI推理应用程序提供高性能。第一代AWS Inferentia 1加速器为Amazon Elastic Compute Cloud(Amazon EC2)Inf1实例提供支持,与同类Amazon EC2实例相比,该实 例的吞吐量可提高多达2.3倍,每次推理的成本可降低多达70%。

2023年亚马逊发布了Inferentia 2芯片和Inf2实例,与Inferentia相比,AWS Inferentia 2加速器的吞吐量提高了4倍,延迟低至上一 代的1/10。Inferentia 1加速器搭载4个第一代NeuronCore,配有8 GB的DDR4内存,每个EC2 Inf1实例最多有16个Inferentia 1加 速器。Inferentia 2加速器搭载了2个第二代NeuronCore,支持190 TFLOPS的FP16性能,配置32GB的HBM,与Inferentia 1相比, 总内存增加了4倍,内存带宽增加了10倍;每个EC2 Inf2实例最多有12个Inferentia 2加速器。

微软自研芯片Maia 100

Maia 100基于自定义的RoCE类协议和以太网互连,内置AES-GCM加密引擎以保护用户数据,网络连接带宽达到600GB/s。Maia 100还由统一的后端网络支持,用于扩展和横向扩展工作负载,提供了支持直接和交换机连接的灵活性。

微软Maia 100芯片的Ares机架配备32颗Maia 100。Ares一个机架中搭载了8台服务器,每台服务器中含有4个Maia 100,因此一个 机架中总共有32颗Maia 100芯片。Ares机架功率可达40kW,配置了Sidekick液体冷却系统,在机架两侧设置副设备,冷液从副设 备流向Maia 100表面的冷板,副设备吸取液体中热量后再将冷液输出,以此构建散热循环。

Meta自研芯片MTIA

MTIA v2于2024年4月发布,用于AI推理,旨在增强Meta的排名和广告推荐引擎。MTIA v2采用台积电5nm制程,与上一代相比算 力和内存带宽翻倍提升,INT8下的稠密算力354 TFLOPS接近上一代的3.5倍,稀疏算力708 TFLOPS达到上一代的近7倍。MTIA v2 配备128GB的LPDDR5内存,内存带宽205GB/s,设计最大功耗90W TDP 。目前Meta已有16个数据中心使用了新款芯片。

芯片架构方面,MTIA v2内部包含加速器、片上和片外存储以及互联结构。AI加速器由8x8的处理单元网格(PE,processing element)组成,PE基于RISC-V内核,PE彼此互联,可作为一个整体运行任务,也可以独立处理任务。片上内存SRAM容量256MB ,SRAM带宽为2.7TB/s,每个PE内存容量为384KB,PE带宽为1 TB/s。每个加速器使用PCIe Gen5 x8主机接口。


最新文章
高清美女写真:AI绘画神器让你一键生成惊艳美图
限时免费,点击体验最近超火的AI生图神器,坐拥3000美女的大男主就是你! https://ai.sohu.com/pc/generate/textToImg?_trans_=030001_yljdaimn 在这个看脸的时代,美容自拍和写真已经成为许多年轻人的日常。然而,想要拍出令人惊艳的美女
解放品区·年度词
转自:上观新闻1一整年,徐汇都不缺重磅科技盛会。3月下旬,徐汇接连两个周末举办了2024全球开发者先锋大会、首届中国具身智能大会;7月,连续第七年承办世界人工智能大会;12月初,2024科创大会,徐汇密集举办近10场分论坛。这些分论坛的
网易云外链规划师:提升网站知名度和搜索引擎排名
简介在当今竞争激烈的在线环境中,建立有效的网站外链对于提高知名度、吸引流量和改善搜索引擎排名至关重要。网易云分享外链是一个绝佳的机会,可以利用这个流行平台的力量来获得这些优势。本计划概述了为网易云分享外链建立全面的外链建设
朗玛信息:招商证券投资者于12月10日调研我司
证券之星消息,2024年12月10日朗玛信息(300288)发布公告称招商证券顾佳 刘晓珊于2024年12月10日调研我司。具体内容如下:问:公司进行医学人工智能大模型的产品研发的优势有哪些?答:公司从 2014年起深耕互联网医疗领域,旗下“39健康网
淄川SEO整站优化,全面提升网站排名与用户满意度
淄川SEO整站优化服务,旨在全面提升网站在搜索引擎中的排名及用户访问体验,通过综合策略优化网站结构、内容与外部链接,实现网站在搜索引擎结果中的高效展示和用户访问的便捷优化。随着互联网的快速发展,网站已经成为企业展示自身形象、
演绎“后武侠”
《天龙八部之宿敌》,许嵩为大型网络游戏《天龙八部3》谱写的游戏主题曲,歌曲于2011年9月20日发布。 如果说《断桥残雪》是表达一种情绪,《清明雨上》是一种情感,《半城烟沙》是一种情操,那《宿敌》则可看作一种情怀。字里行间里流淌的
摩登天使商家版软件 1.1.2
没有加固或未知加固INTERNET访问网络连接,可能产生GPRS流量WRITE_EXTERNAL_STORAGE允许程序写入外部存储,如SD卡上写文件ACCESS_NETWORK_STATE获取网络信息状态,如当前的网络连接是否有效ACCESS_WIFI_STATE获取当前WiFi接入的状态以及WLA
诗词已解“怀素身长五尺四祢生词赋抛江夏”代表什么动物最新热门
生肖字谜诗怀素才情深似海身长五尺四传扬。祢生词赋如蛇舞智慧灵性显光芒。抛却凡尘如江夏生肖之谜隐其中。五尺身躯藏玄机蛇影藏于热门词。诗解:此诗以怀素的才情开始暗指生肖中的蛇象征智慧与灵性。五尺身躯暗示龙的雄伟但结合整体语境更
揭秘花茶前十大品种排名!了解花茶的世界,让你不再茶饮白痴!
花茶,作为一种别具特色的茶类,蕴含着丰富的文化底蕴和独特的品味体验。它不同于传统的茶叶,将茶叶与花朵巧妙融合,赋予茶饮以花香的独特韵味,给人带来耳目一新的感受。这种独特的制作工艺和口感特点,引发了人们对其品种排名的好奇心理
相关文章
推荐文章
发表评论
0评