Datawhale AI 冬令营【第一期】 - 动手学，定制你的专属大模型！

Datawhale AI 冬令营【第一期】 - 动手学，定制你的专属大模型！

2024-12-27 02:01

Datawhale 是一个以数据科学和人工智能为核心领域的开源社区，它聚集了众多院校和企业中的杰出人才，并由一群具有开源精神和探索精神的成员组成。这个组织致力于与学习者共同成长，倡导真诚、开放、合作和勇于尝试的价值观。Datawhale 通过开源的方式探索知识、学习和解决方案，旨在培养人才，促进个人发展，并构建起个体、知识、企业以及未来之间的桥梁。社区提供了丰富的学习资源、竞赛机会和交流平台，助力成员在数据科学的道路上不断进步。

AI（人工智能，Artificial Intelligence）是指使机器或计算机能够模拟或执行通常需要人类智能才能完成的任务的技术和方法。具体来说，AI使得计算机系统能够处理复杂的任务，如学习、推理、解决问题、感知、语言理解以及决策等。

大模型的兴起标志着人工智能领域的一个重要转折点。起源于自然语言处理（NLP）领域的大模型，随着多模态能力的演进，已经扩展到计算机视觉（CV）领域及多模态通用大模型，成为市场发展的主流。大模型通过大规模预训练，实现了在多种任务中的高准确性、降低了应用开发门槛、增强了模型的泛化能力，是AI领域的一项重大进步。

模型通过学习海量数据，提高了任务执行的效率和准确性，尤其在自然语言处理和图像识别等领域。大模型的泛化性使得开发者可以更容易地将AI技术应用于各种场景，无需从头开始训练复杂的模型。大模型的发展，尤其是生成式AI，为用户提供了突破性的创新机会，改变了创造和艺术的领域。随着数据规模和参数规模的提升，大模型开始具备涌现能力，拉开了通用人工智能(AGI)的发展序幕。

1、学习目标
零基础定制一个专属于自己的大模型，以Chat甄嬛为例。基于《甄嬛传》剧本中的甄嬛台词 ，通过五个简单的步骤，不写一行代码，打造一个模仿甄嬛语气、风格的专属聊天模型—— Chat-嬛嬛 。

2、步骤

注册讯飞星辰MaaS并登录→准备数据集→在模型平台创建模型→上传数据集→准备训练→微调训练→在平台创建应用→发布应用服务→尝试体验(可选多个服务同时测试)

定制一个自己的专属大模型最方便的步骤 ≈ 指定数据集 + 开源大模型 + 微调平台（如讯飞星辰Maas）

3、几个注意点：

讯飞星辰Maas平台 是一个模型微调的零代码平台，旨在简化模型微调过程，无需一行代码即可定制大模型！提供了直观的界面和高效的工具，支持快速训练和优化现有模型。
模型定制，一般可指微调开发（往往是使用 LoRA微调技术 ，是一种大型语言模型（LLMs）的高效微调技术。其核心思想是在预训练模型的基础上，通过引入低秩矩阵来模拟全参数微调的效果，从而显著减少在特定任务上的可训练参数量。），构建垂直领域的大模型（与通用大模型【通常是大模型厂商根据自己的优势数据配比，训练出的一个大模型】对应）。
垂类大模型的优势：提高推理质量、节省算力和时间
微调（fine-tuning ）是机器学习和深度学习中常用的一种方法，目的是让已经训练好的预训练模型在特定任务或数据集上表现得更好。比如：角色对话模型在大规模语料上进行预训练后，可以通过微调，使其在情感分析、命名实体识别、问答等具体任务上表现更好。
微调得到的模型常用于分类任务、回归任务、序列标注任务等特定解决任务。
本次用于微调训练的数据集为Alpaca格式：
在Alpaca格式下的指令监督微调中，instruction列对应的内容会与input列对应的内容拼接后作为人类指令，即人类指令为instructioninput。：任务的指令，模型需要完成的具体操作，一般可以对应到用户输入的 Prompt 。：任务所需的输入内容。若任务是开放式的，或者不需要明确输入，可以为空字符串。：在给定指令和输入的情况下，模型需要生成的期望输出，也就是对应的正确结果或参考答案。output列对应的内容为模型回答。如果指定，system列对应的内容将被作为系统提示词。history列是由多个字符串二元组构成的列表，分别代表历史消息中每轮对话的指令和回答。 特点与应用 ：结构简单清晰，易于理解和处理。它明确地将任务指令和输入内容分离开来，能够很好地适用于各种自然语言处理任务，像文本生成、翻译、总结等任务，尤其适合单轮的、以任务为导向的指令微调任务.注: 历史消息中的回答内容也会被用于模型学习。

注: 历史消息中的回答内容也会被用于模型学习。

对于上述格式的数据，dataset_info.json文件中的数据集描述应为：

除此以外，还有ShareGPT格式，具体详见：

数据集的获取通常是从类似开源项目包里含有的数据集，以及一些开源的数据集平台搜索即可。如果没有，就需要自己创建对应的数据集。
模型效果评价 是指对机器学习或深度学习模型在特定任务中的性能进行量化和分析的过程。评价模型效果的目的是了解模型的优缺点，确保其能够有效地解决实际问题，并为进一步的优化提供依据。模型的评价指标和方法通常依据任务的类型（如分类、回归、生成任务等）以及具体应用场景的需求来确定。 根据不同的机器学习任务（如分类、回归等），选择合适的评估指标。对于分类问题，常用的评估指标包括准确率（Accuracy）、精确率（Precision）、召回率（Recall）、F1分数（F1 Score）、ROC曲线和AUC值等。回归问题则常用均方误差（MSE）、平均绝对误差（MAE）和均方根误差（RMSE）等指标。
定制一个效果优秀的大模型并非一蹴而就，而是一个循序渐进的过程。关键步骤包括明确目标与需求、选择合适的基础模型、准备高质量数据、设计合理的模型架构、调优训练过程、优化模型性能，以及在生产环境中进行部署和持续改进。通过这一系列的努力，你可以定制一个能有效解决特定问题的大模型，并确保其在实际应用中发挥出色的性能。

4、再复盘

AI是什么？
如何定制大模型？用到的技术主要是什么？
什么是微调？为什么要微调？微调得到的是什么？
微调得到的模型用来做什么？怎么用？
微调的关键步骤是什么？
什么样的数据可以用来微调？从哪里可以找到？
如何构建自己的微调数据集？
如何评价自己的模型效果？并且有较为客观数据支撑？
我要如何基于自己的想法定制一个效果优秀的大模型？

5、拓展资料

甄嬛，是小说《后宫·甄嬛传》及同名电视剧中的女主角。她本名甄玉嬛，后因不喜欢“玉”字而改名甄嬛，出身于汉人甄远道之家，后来被雍正帝赐予钮祜禄氏的姓氏，提升至满洲上三旗，全名变为“钮祜禄·甄嬛”。她与沈眉庄、安陵容一同参与选秀，因长相与已故的纯元皇后相似而被选入宫。在宫中，面对华妃的不断威胁，沈眉庄的不幸遭遇和安陵容的背叛，甄嬛从一个单纯的少女逐渐成长为宫斗的高手。雍正帝发现年氏家族的阴谋后，命令甄嬛的父亲甄远道削弱其势力，甄嬛也在宫中巧妙地帮助皇帝消除政敌，因而深受皇帝宠爱。经过一系列斗争，她最终击败了傲慢的华妃。