分享好友 最新动态首页 最新动态分类 切换频道
微软发布Phi-4,小模型!参数极小、超GPT-4o
2024-12-29 11:57

声明:本文来自于微信公众号AIGC开放社区,授权站长之家转载发布。

微软发布Phi-4,小模型!参数极小、超GPT-4o

微软研究院发布了小参数模型——Phi-4。

Phi系列模型自今已经发布了5代,Phi-4也延续了之前的小参数模式只有140亿。

但在GPQA研究生水平、MATH数学基准中,分别达到了56.1和80.4超过了GPT-4o,同时也超过了同类型的开源模型Qwen2.5-14B和Llama-3.3-70B。

而在美国数学竞赛AMC的测试中,Phi-4达到了惊人的91.8分,再次超过了GeminiPro1.5、GPT-4o、Claude3.5Sonnet、Qwen2.5等知名开闭源模型,甚至整体性能可以与4050亿参数的Llama-3.1相媲美。

这也就是说,只要使用了高质量数据和创新训练方法,小参数模型同样可以战胜大参数,但在部署、应用和推理方面极大减少了对AI算力和环境的要求。

使用高质量合成数据

Phi-4能以如此小的参数获得巨大性能,使用高质量合成训练数据是关键环节之一。

传统的大模型通常依赖于从网络抓取或公开数据库获取的真实世界文本作为训练数据,这种方法虽然能够提供丰富的信息来源,但也容易受到噪声干扰和偏见影响。

Phi-4则使用了种子策划、多Agent提示、自我修订工作流、重写和增强以及指令反转等多种合成方法,有效解决了传统无监督数据集的缺点

种子策划是合成数据生成的起点。Phi-4从多个领域提取高质量的数据种子,为合成数据生成打下坚实基础,使得能够创建针对模型训练目标的练习、讨论和推理任务。

策划的种子包括从网页、书籍和代码库中提取的文段和代码片段,这些内容展示了高复杂性、深度推理和教育价值。为了确保质量,采用了两阶段过滤过程:首先是识别具有强教育潜力的页面,然后是将选定的页面分割成段落,对每个段落进行事实和推理内容的评分。

此外,多Agent提示允许不同智能体之间进行交互对话,从而创造出更加多样化且贴近真实应用场景的交流场景;而自我修订工作流则鼓励模型参与到自身的编辑过程中,以此提高输出内容的质量和一致性。

通过改变任务描述的方式,指令反转可以增加模型处理不同类型问题的能力,进一步增强了其灵活性和适应性。

总体上,一共生成了50种不同类型的合成数据集,涵盖广泛的主题和技能,总计约400B未加权的高质量token数据。

创新训练方法

为了确保phi-4能在广泛的任务类型上表现出色,研究人员使用了一系列针对性创新训练方法,并根据实际需求调整各类数据的比例。尤其是针对长上下文理解能力的需求,phi-4增加了rope位置编码的基础频率至25万次,并相应地降低了学习率,以更好地适应更长的文本序列。

这种做法有效提升了模型对于复杂结构化信息的理解力,使其在面对需要综合分析多个段落甚至整篇文章的问题时也能游刃有余。phi-4还特别注重了不同类型数据之间的平衡,避免某类数据过多导致其他方面性能下降的情况发生。

而在 phi-4的后训练过程中,研究团队采用了两种形式的 DPO 数据对模型进行了强化训练。种是基于人工标注的 SFT数据,即由专家精心挑选并标记好的问答对;

第二种则是自动构建的 DPO 对,这种方法通过搜索重要的转折点,将原始对话片段拆分成多个选项,并让模型从中选择解。通过结合这两种方式,phi-4不仅学会了如何产生更符合预期的回答,还能够在不同情境下灵活调整语气和风格,从而提供更加个性化的交互体验。

此外,phi-4还引入了一些创新性的后训练方法,以增强其在特定领域内的表现。例如,在 STEM领域问题解答方面,phi-4利用了一个名为Math-Shepherd 的工具来进行验证和强化学习。Math-Shepherd 可以自动检查模型生成的答案是否正确,并且在必要时提供额外指导,帮助模型逐步掌握正确的解题思路。

这种方法有效地解决了传统无监督数据集中常见的逻辑不严密等问题,使得 phi-4在数学竞赛类题目上的准确率达到了惊人的80.4%,远超其他同类产品。

此外,针对编程代码评估任务,Phi-4也采取了类似的方法,通过对大量开源项目中的代码片段进行分析和总结,提升了其在该领域的执行效率和准确性。

值得一提的是,微软AI副总裁、phi系列模型的灵魂人物之一Sébastien Bubeck已经离开了微软加入了OpenAI。

最新文章
新站外链建设规划与执行方案
对于新站来说,外链建设是至关重要的。外链可以帮助网站建立权威性,提高排名,并吸引更多流量。本文将提供一个详细的新站外链建设规划和执行方案,帮助您为新站建立强大的外链基础。外链建设目标在开始外链建设之前,重要的是要确定您的目
第1章 人在诛仙,开局加入聊天群!
第一章人在诛仙,开局加入聊天群!青云门,小竹峰。一名容貌俊逸的年轻人正在闭目修炼。只不过。从对方那微微皱眉的表情来看,似乎修炼的并不顺利。“还是不行吗?”“玉清境四层,果然是一道天堑啊!”太极玄清道。乃是叶逸所修炼的功法,
成人用品现在市场前景怎么样?深度剖析行业发展新趋势与潜在机遇
随着人们生活水平的提高以及生活观念的改变,现如今谈性色变的时代已经成为过去式。反之人们对其需求却在持续的增长,从而使得成人用品成为现如今小本投资创业的首选项目。那么成人用品现在市场前景怎么样?开店需要多少钱?今天来给大家详
美国奥运选手是怎么选出来的 近日更新
美国奥运选手是怎么选出来的大家好,站长来为大家解答以上问题,《美国奥运选手是怎么选出来的 》很多人还不知道,现在让我们一起来看看答案吧!奥运会闭幕式上,各国旗手是怎么选出来的一直以来,奥运会开幕式上除了开幕式主题之外,奥运
权威外链蓝图:微信外链引入攻略107
前言微信作为中国最大的社交媒体平台,拥有庞大的用户群体和丰富的生态系统。对于网站主和内容创作者而言,通过微信引入优质外链至关重要。本文将提供一份全面的网站外链规划师,指导您逐步建立一个完善的外链建设策略,有效提升网站权重和
排水横管的标准坡度和最小坡度
1、生生活活污污水水排排水水横横管管的的标标准准坡坡度度和和最最小小坡坡度度管材管径(mm)坡度生活污水接户管道埋设深度不得高于土壤冰冻线以上0.15m,且覆土深度不小于0.3m。标准坡度最小坡度mm塑料管500.0260.012150 冰冻线750.0260
科技新纪元引领未来,朝天椒智能新品掀起热潮,开启智能生活新篇章
步入智能科技高速发展的时代,我们迎来了全新的朝天椒智能新品——一款引领未来生活新潮流的高科技产品,在12月13日这个充满创新与变革的日子里,让我们一起领略朝天椒智能新品的风采,感受科技如何改变生活,激发科技爱好者的无限兴趣。朝
抖音seo矩阵系统是什么?怎么做?
抖音seo现在来量非常大,而且非常简单,关键在于你去不去干,只要你执行了想效果立竿见影!那抖音seo矩阵系统又是什么?有什么作用,具体怎么做呢??其实非常简单,如果你只是一个号,那你算是深耕,但是50个号100个号,就是矩阵模式了!
济南SEO优化,企业互联网营销的专属加速器
济南SEO优化定制服务,针对企业个性化需求,提升网站排名,增强互联网营销效果,是企业抢占网络市场的重要工具。通过专业优化策略,助力企业实现线上业务增长。随着互联网的普及,越来越多的企业开始意识到网络营销的重要性,在这个的时代
相关文章
推荐文章
发表评论
0评