分享好友 最新动态首页 最新动态分类 切换频道
650亿参数,8块GPU就能全参数微调:邱锡鹏团队把大模型门槛打下来了
2024-12-26 21:02

650亿参数,8块GPU就能全参数微调:邱锡鹏团队把大模型门槛打下来了

原文链接:https://mp.weixin.qq.com/s/339iXf2bimusfq6zQmFpWw

机器之心 

机器之心报道


全参数微调的显存使用量和推理一样多,大模型不再只是大型科技公司的玩具了。


在大模型方向上,科技巨头在训更大的模型,学界则在想办法搞优化。最近,优化算力的方法又上升到了新的高度。
大型语言模型(LLM)彻底改变了自然语言处理(NLP)领域,展示了涌现、顿悟等非凡能力。然而,若想构建出具备一定通用能力的模型,就需要数十亿参数,这大幅提高了 NLP 研究的门槛。在 LLM 模型调优过程中通常又需要昂贵的 GPU 资源,例如 8×80GB GPU 设备,这使得小型实验室和公司很难参与这一领域的研究。
最近,人们正在研究参数高效的微调技术(PEFT),例如 LoRA Prefix-tuning,为利用有限资源对 LLM 进行调优提供了解决方案。然而,这些方法并没有为全参数微调提供实用的解决方案,而全参数微调已被公认为是比参数高效微调更强大的方法。
在上周复旦大学邱锡鹏团队提交的论文《Full Parameter Fine-tuning for Large Language Models with Limited Resources》中,研究人员提出了一种新的优化器 LOw-Memory OptimizationLOMO)。
通过将 LOMO 与现有的内存节省技术集成,与标准方法(DeepSpeed 解决方案)相比,新方法将内存使用量减少到了之前的 10.8%。因此,新方法能够在一台具有 8×RTX 3090 的机器上对 65B 模型进行全参数微调,每个 RTX 3090 具有 24GB 内存。


论文链接:https://arxiv.org/abs/2306.09782
在该工作中,作者分析了 LLM 中内存使用的四个方面:激活、优化器状态、梯度张量和参数,并对训练过程进行了三方面的优化:


新技术让内存的使用等于参数使用加上激活和最大梯度张量。全参数微调的内存使用被推向了极致,其仅等同于推理的使用。这是因为 forward+backward 过程的内存占用应该不会比单独的 forward 过程少。值得注意的是,在使用 LOMO 节省内存时,新方法确保了微调过程不受影响,因为参数更新过程仍然等同于 SGD
该研究评估了 LOMO 的内存和吞吐量性能,表明借助 LOMO,研究者在 8 RTX 3090 GPU 上就可以训练 65B 参数的模型。此外,为了验证 LOMO 在下游任务上的性能,他们应用 LOMO 来调优 SuperGLUE 数据集集合上 LLM 的全部参数。结果表明了 LOMO 对具有数十亿参数的 LLM 进行优化的有效性。
方法介绍
在方法部分,本文详细介绍了 LOMOLOW-MEMORY OPTIMIZATION)。一般而言,梯度张量表示一个参数张量的梯度,其大小与参数相同,这样一来内存开销较大。而现有的深度学习框架如 PyTorch 会为所有参数存储梯度张量。现阶段,存储梯度张量有两方面原因:计算优化器状态以及归一化梯度。
由于该研究采用 SGD 作为优化器,因此没有依赖于梯度的优化器状态,并且他们有一些梯度归一化的替代方案。
他们提出了 LOMO,如算法 1 所示,LOMO 将梯度计算与参数更新融合在一个步骤中,从而避免了梯度张量的存储。
下图为 SGD LOMO 在反向传播和参数更新阶段的比较。Pi 为模型参数,Gi Pi 对应的梯度。LOMO 将梯度计算和参数更新融合到一个步骤中,使梯度张量最小。


LOMO 对应的算法伪代码:


如图 2 所示,如果采用 AdamW 优化器进行 LLaMA-7B 训练,相当大比例的内存(73.7%)被分配给优化器状态。用 SGD 优化器替换 AdamW 优化器可以有效减少优化器状态占用内存的百分比,从而减轻 GPU 内存使用(从 102.20GB 减少到 51.99GB)。如果使用 LOMO,参数更新和 backward 会被融合到一个步骤中,进一步消除优化器状态对内存的需求。


吞吐量
研究者比较了 LOMOAdamW SGD 的吞吐性能。实验是在一台配备了 8 RTX 3090 GPU 的服务器上进行的。
对于 7B 的模型,LOMO 的吞吐量呈现显著优势,超过 AdamW SGD 11

。这一重大改进可归功于 LOMO 在单个 GPU 上训练 7B 模型的能力,这减少了 GPU 间的通信开销。与 AdamW 相比,SGD 的吞吐量略高,这可归因于 SGD 排除了动量和方差的计算。
至于 13B 模型,由于内存的限制,它无法在现有的 8 RTX 3090 GPU 上用 AdamW 训练。在这种情况下,模型的并行性对 LOMO 来说是必要的,LOMO 在吞吐量方面仍然优于 SGD。这一优势归功于 LOMO 的内存高效特性,以及只需要两个 GPU 以相同的设置来训练模型,从而降低了通信成本,提高了吞吐量。此外,在训练 30B 模型时,SGD 8 RTX 3090 GPU 上遇到了内存不足(OOM)的问题,而 LOMO 在只有 4 GPU 的情况下表现良好。
最后,研究者使用 8 RTX 3090 GPU 成功训练了 65B 模型,实现了 4.93 TGS 的吞吐量。利用这样的服务器配置和 LOMO,模型在 1000 个样本上的训练过程(每个样本包含 512 token)大约需要 3.6 小时。
下游性能
为了评估 LOMO 在微调大型语言模型方面的有效性,研究者进行了一系列广泛的实验。他们将 LOMO 与其他两种方法进行比较,一种是不需要微调的 Zero-shot,另一种是目前很流行的参数高效微调技术 LoRA


3 结果显示:


LOMO LoRA 在本质上是相互独立的。为了验证这一说法,研究者使用 LLaMA-13B BoolQ MultiRC 数据集上进行了实验。结果如图 3 所示。
他们发现,LOMO 在持续增强 LoRA 的性能,不管 LoRA 取得的结果有多高。这表明,LOMO LoRA 采用的不同微调方法是互补的。具体来说,LOMO 专注于微调预训练模型的权重,而 LoRA 则调整其他模块。因此,LOMO 不会影响到 LoRA 的性能;相反,它有助于对下游任务进行更好的模型调优。


更多细节参见原论文。


最新文章
苹果6plus怎么重启手机
苹果6 Plus作为苹果公司曾经的经典机型,凭借其出色的性能和用户体验赢得了众多用户的喜爱。然而,在使用过程中,有时我们可能会遇到手机卡顿、无响应等问题,这时重启手机便成为了一个有效的解决方法。那么,苹果6 Plus该如何重启手机呢?
郑州做网站哪家好
郑州做网站的选择较多,要选择一家好的网站制作公司,可以考虑以下几个方面:公司的资质和经验、案例展示、服务质量和价格等。综合比较后,可以挑选出几家口碑良好、技术实力强的公司进行进一步了解和比较。最终选择哪家好,还需根据具体需
王者荣耀虚拟定位全攻略-轻松切换战区
在王者荣耀的世界里,战区排名不仅是实力的象征,更是玩家之间的一种较量,有时候你可能希望将自己的战区定位到一个荣耀战力相对较低的地方,以便更容易获得更高的排名,这时,虚拟定位就显得尤为重要了,本文将详细介绍王者荣耀虚拟定位的
铃声编辑推荐:音符跃动,彰显个性364
铃声,作为人们每天接触最频繁的音乐,不仅传递着信息,更彰显着个人的品味和风格。想要打造一款独一无二的铃声,你需要借助铃声编辑器。以下推荐几款优质的铃声编辑器,助你轻松创作专属铃声。Audacity:免费且功能强大的音频编辑器Audaci
淄博专业网站建设公司/关键词分为哪几类
在说到这个问题的时候,也许有人会问CSS中不是有vertical-align属性来设置垂直居中的吗?即使是某些浏览器不支持我只需做少许的CSS Hack技术就可以啊!所以在这里我还要啰嗦两句,CSS中的确是有vertical-align属性
网站推广关键词的重要性是什么?
   关键词对一个网站推广来说至关重要,只有关键词在搜索引擎中排名靠前,才能从搜索引擎中获得大量的流量,从而提高自己网站的访问量,最终达到盈利的目的。
衡水搜狗SEO推广,助力企业网络营销新篇章
随着互联网的飞速发展,网络营销已成为企业提升品牌知名度、拓展市场份额的重要手段。在众多搜索引擎中,搜索引擎凭借其独特的优势,逐渐成为企业进行网络营销的重要平台。搜狗SEO推广,作为企业网络营销的重要策略之一,正助力企业开启网
短剧app多语言短剧小程序源码开发源码开发
**定制海外短剧分销平台:多语言微短剧APP源码搭建实战技巧**一、项目概述随着海外市场的持续拓展和用户需求的多样化,定制海外短剧分销平台成为了一个热门项目。多语言微短剧APP作为这一平台的载体,需要具备多语言支持、内容丰富、用户友
变态手游盒子app十大排行榜 2024最火bt手游游戏平台推荐
,2024最火bt手游游戏平台是什么?很多小伙伴都非常好奇,下面小编就为大家带来了详细的介绍,感兴趣的小伙伴们快来一起了解一下详细的内容吧!,1. 咪噜游戏盒子平台福利:提供超变态0.1折手游,登录即送满VIP、无限元宝、GM特权,充值返利
相关文章
推荐文章
发表评论
0评