分享好友 最新动态首页 最新动态分类 切换频道
LLama factory 单机多卡-简易版-教程
2024-12-27 01:16

老规矩先贴官网代码

https://github.com/hiyouga/LLaMA-Factory/blob/main/examples/README_zh.md

LLama factory 单机多卡-简易版-教程

但是我还是没有根据这个命令跑出来,所以还是上其他方法把,有简单的就用

背景知识补充

LLama factory 多卡 ZeRO-3 、ZeRO-2、 ZeRO-0什么意思?以及为什么没有ZeRO1

【深度学习】多卡训练__单机多GPU方法详解(torch.nn.DataParallel、torch.distributed


Step1:先把webUI服务起起来

 

Step2:在webUI上配置好你的模型、数据集、输出文件夹、(可选wandb见之前的帖子

offload操作同理

此时预览训练命令行不在这里运行,网页端无法实现单机多卡

 

Step3:打开bash,启动虚拟环境,粘贴以下命令

 

就像这样

 
 

用deepspeed的情况下报错处理

  1. 可能会提示没有deepspeed这个库,pip install 一下即可

  2. –deepspeed cache/ds_z3_config.json 这句话很可能会引起报错

  • 不是所有的模型都支持deepspeed3
    报错
 

这个错误表明你当前的配置存在冲突:
你正在使用 DeepSpeed ZeRO stage 3 优化
同时代码尝试使用 no_sync context manager 进行梯度累积
这两个功能是不兼容的,因为:
ZeRO stage 3 会对梯度进行分区处理
而 no_sync 管理器试图阻止梯度同步,这与 ZeRO stage 3 的工作方式冲突
解决方案:
1.修改 DeepSpeed 配置,使用较低的 ZeRO stage (比如 stage 2 或 1)
2.或者调整训练参数,避免使用梯度累积(gradient accumulation):

  • examples/deepspeed/ds_z3_config.json这个文件的配置坑很多,有时候需要把auto替换成整数值
 

错误日志

 

要随便改成整数

 

补充offload是干嘛的

DeepSpeed Offload 是一种技术,用于在训练大规模深度学习模型时,将部分计算任务或数据从 GPU 卸载到 CPU 或 NVMe 存储设备,从而缓解显存压力,优化资源利用。它主要包含两种类型Optimizer OffloadParameters Offload

以下是详细说明


1. 为什么需要 Offload

训练大型模型(如 GPT-3 或其他数十亿参数的模型)时,显存可能成为瓶颈。即使使用分布式策略,显存需求仍可能超出硬件的限制。

Offload 技术通过将部分模型的状态或计算从显存转移到更大的主机内存(CPU RAM)或高速存储设备(NVMe,有效降低 GPU 显存占用,同时兼顾性能。


2. DeepSpeed Offload 的两种类型

(1) Optimizer Offload
  • 功能:将优化器的状态(如动量、二阶动量等)和梯度计算任务从 GPU 卸载到 CPU。
  • 优点
    • 显著减少 GPU 显存占用。
    • 适用于需要训练超大模型但 GPU 显存不足的情况。
  • 缺点
    • 由于 CPU 的内存带宽和计算能力低于 GPU,性能可能受到影响,尤其是在高算力需求的任务中。
  • 适用场景:显存有限但有足够的 CPU 计算能力和内存。
(2) Parameters Offload
  • 功能:将模型的参数从 GPU 显存卸载到 CPU 或 NVMe。
  • 优点
    • 大幅减少显存占用,使得更大的模型可以被加载和训练。
    • 在 NVMe 的支持下,理论上可以训练任意大小的模型。
  • 缺点
    • 依赖 CPU 内存或 NVMe 的访问速度,可能会增加训练的延迟。
    • 需要高性能 NVMe 和 I/O 设计,才能确保不会显著降低训练效率。
  • 适用场景:极大模型(如 100B+ 参数模型)训练,GPU 显存远远不足。

3. DeepSpeed Offload 的实际工作原理

数据转移
  • 优化器状态或参数被拆分后,根据配置,在 GPU 和 CPU 或 NVMe 之间进行动态转移。
  • I/O 操作和计算任务通过异步方式进行,以减少训练过程中的等待时间。
性能优化
  • DeepSpeed 使用高效的通信技术和内存管理策略(如 pipelining 和分块处理)来最小化数据传输的开销。

4. 配置示例

以下是典型的 DeepSpeed Offload 配置文件

Optimizer Offload 示例
 
Parameters Offload 示例
 

5. 优缺点总结

功能优点缺点Optimizer Offload减少显存占用,适合较大的模型训练增加 CPU 计算负载,I/O 速度可能成为瓶颈Parameters Offload能训练超大模型,突破显存限制NVMe 的访问速度较 GPU 慢,可能增加训练延迟

6. 典型应用场景

  • 研究机构或公司:需要训练超大规模模型,但硬件预算有限。
  • 超大模型训练:例如 GPT-3、BLOOM 等需要数十或上百亿参数的模型。
  • 多用户环境:在资源共享场景下优化显存使用效率。

最新文章
看过《被困百万年:弟子遍布诸天万界》的人还看过
感谢您对我方的信任,我们将按照法律法规要求,采取严格的安全保护措施,保护您的个人隐私信息。在此,我们郑重的提醒您:1.在您使用我方提供的服务时,建议您详细阅读本用户隐私政策,详细了解我方收集,存储,使用,披露和保护您的个人信
美甲培训如何助力你在教育行业中脱颖而出?
作为一位教育行业从业者,我们都希望自己能够在竞争激烈的市场中脱颖而出。而美甲培训正是一个能够帮助我们实现这一目标的利器。在本文中,我们将从多个角度来阐述美甲培训如何助力我们在教育行业中取得成功。美甲培训不仅仅是教授学员如何
群辉包管理工具 synopkg
因为想安装docker,使用apt-get发现apt-get: command not found,这个的出现是因为系统的原因。Linux系统分为三种:1.RedHat系列:Redhat、Centos、Fedora等2.Debian系列:Debian、Ubuntu等3.其它。RedHat系列的包管理工具是yumDebian系列
网站迁移主机位置,会影响谷歌SEO吗?
在网站运营的广阔天地里,每一次细微的变动都可能牵动SEO的敏感神经。特别是当我们面临网站迁移主机位置这一重大决策时,其对于谷歌SEO的影响无疑是每位站长都关心的问题。基于我多年的实战经验和对行业动态的敏锐洞察,今天,我们就来深入
揭秘:排队免单模式如何快速吸引并留住用户?
揭秘:排队免单模式如何快速吸引并留住用户? 系统源码+商业模式设计+平台运营方案,微三云麦超解读前文引言:微三云温馨提醒:因为市场模式是经常变化的,不可能一个模式长期不变地玩如果系 统没有预留多种多样丰富的奖励模式,一旦满足不
阿里巴巴国际站排名怎么靠前?排名规则介绍
阿里巴巴是一个大型的批发网站,国内很多商家都是在这里进货的,除此之外,阿里巴巴还有一个国际站,面向全球各个国家。若是在阿里巴巴国际站开店,怎么提升排名呢?一、国际站排名怎么靠前?1. 首先是产品的类目要选择正确,怎样确定正确类
这里告诉你视频号广告投放推广怎么做
2022年08月26日陈建贵100资深效果广告开户代运营公司,小红书、B站信息流广告,达人探店种草,抖音千川,腾讯视频号等广告开户代运营日用百货销售;化妆品批发;食品销售(仅销售预包装食品);化妆品零售;新鲜水果零售;互联网销售(除销售需
骗人的!《uuopAPP》是诈骗软件,说我操作失误数据乱了要充钱修复漏洞才给提现怎么办
〖→被骗请点击进入帮助平台提现追款〗〖→被骗请点击进入帮助平台提现追款〗希望阅读此文的读者能够及时采取措施以减少损失;请及时与团队联系提供解决方案(文章上方点击添加技术员咨询快速追回)若想追回损失资产,务必仔细阅读以下内容
超逼真美女写真生成神器!探索AI绘画的宝藏工具攻略
DeepArt:这是一款将你的照片变成艺术风格的AI工具。用户可以上传自己的照片,然后选择不同的艺术风格,DeepArt会根据用户的选择生成俏丽的美女画像。它的优势在于简便易用,适合烧脑不太重的用户。不过,由于是将用户照片转化成艺术画作,
必看教程“微信小程序蜀山四川麻将外卦神器下载安装”(原来真的有挂)-知乎优质
亲,微信小程序蜀山四川麻将外卦神器下载安装这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这款游戏是不是有挂,实际上这款游戏确
相关文章
推荐文章
发表评论
0评