被OpenAI带火的强化微调RFT技术解析~

被OpenAI带火的强化微调RFT技术解析~

2024-12-27 10:18

OpenAI年终大戏第二场推出了强化微调RFT (Reinforcement Fine-Tuning)，它可以让你用几十到几千个的训练数据，为特定的复杂任务构建专家模型，加强了模型如何处理类似问题的推理，微调后的o1-mini得分提高80%，反超o1正式版！

前排提示，文末有大模型AGI-CSDN独家资料包哦！

强化微调技术的一种实现方式： 首先通过监督式微调（Supervised Fine-Tuning）对模型进行预热，然后利用在线强化学习，特别是PPO算法，进一步微调模型。这种方法能够自动采样多种推理路径，并从真实答案中自然派生出奖励信号。

SFT和ReFT在CoT替代方案存在时的比较

强化微调（RFT）的两个主要阶段：预热阶段和强化学习阶段。

在这个阶段，模型通过在线自我学习的方式提高性能，使用包含“问题（question）”和“答案（answer）”元组的数据集。
模型通过重复采样响应、评估响应的答案正确性，并在线更新其参数。
使用PPO（Proximal Policy Optimization）算法进行训练，其中价值模型（value model）Vϕ是基于预热阶段后的政策模型πθ的最后隐藏状态构建的。
奖励函数在终端状态时直接比较从状态的CoT提取的答案和真实答案y，正确则返回1，否则返回0。对于数值型答案的数据集，还可以应用部分奖励（partial reward）0.1。
总奖励是奖励函数得分和学习到的RL政策与初始政策之间的Kullback-Leibler（KL）散度的和。

GSM8K中的一个问题（x）、思维链（CoT）（e）和答案（y）的示例。SFT过程在训练数据上迭代多个周期。提出的ReFT从SFT预热并在同一数据上执行RL训练。

实验表明，RFT在GSM8K、MathQA和SVAMP等数据集上的性能显著优于SFT，并且可以通过多数投票和重新排名等策略进一步提升性能

ReFT和基线模型在所有数据集上微调后的价值准确度

SFT和ReFT在GSM8K数据集中第1、3和5周期的P-CoT响应对同一个问题的反应。绿色框架内的反应是正确的，而红色框架内的反应是错误的。

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。