分享好友 最新动态首页 最新动态分类 切换频道
AI自己写代码让智能体进化!OpenAI的大模型有“人类思想”那味了
2024-12-26 20:09
金磊 梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

搞事情

AI自己写代码让智能体进化!OpenAI的大模型有“人类思想”那味了

AI“看”了一眼GitHub上人类都是怎么提交更新(commit,然后就模仿人类程序员修改代码……

最终,这个AI还成功“调教”出了个智能体机器人

没开玩笑,这种细思极恐的事情,在OpenAI最新发布的一项研究中,就真真的发生了……

原本呢,研究人员要解决的是一个遗传程序设计(GP问题——让一个智能体机器人学会移动。

(GP是演化计算中的一个特殊领域,它主要针对自动构建程序去独立解决问题。

但OpenAI剑走偏锋,把自家的大规模语言模型(LLM放了进来,结果就是一个大大的“万万没想到”。

以前在智能体演进的过程中,人类研究员是需要参与进来做一些细节调整、确定演进方向等工作,让智能体往好的方向发展。

现在好了,这些活儿都让大模型给包揽了自己学自己写代码自己去“调教”

这事一经论文一作Joel Lehman在网络曝光,瞬间引发了网友们的大量关注

一位程序员网友在看完后直呼“跟不上(技术发展的步伐”了

甚至OpenAI自己都在研究中说

弥合了进化算法在人类思想水平运行的鸿沟。

那么这件“魔幻”的事情,AI到底是怎么办到的

在虚拟环境中设计可移动的机器人,是遗传算法研究中很火的一个项目。

特别是Sodarace竞赛因为需要的计算量少,过程方便可视化很受欢迎。

规则很简单,由“关节”和“肌肉”组成的机器人在各种地形上赛跑。

OpenAI还特意把整个竞赛程序从专用的遗传编码改写成了Python版本,为了展示新方法对现代编程语言的通用性。

比如这样一段Python代码,就可以作为初始种子机器人。

定义好一个正方形的四个顶点关节、终点关节,相互之间都用“肌肉”连接好后,结果如下。

不过这样方方正正的结构一动都不能动,接下来就需要靠遗传算法对代码做修改。

研究团队认为,用传统遗传算法修改代码VS人类程序员自己动手,在效率上还有两点差距

一个是软件越来越复杂,人类可以搞模块化的代码复用来应对,而目前最先进的遗传算法也无法在人类使用的编程语言上做到这一点。

另一个是几乎所有遗传算法靠的都是随机突变(mutation,而人类程序员每一次修改代码都带有目的,或者是增加功能、或者是改进效率、又或者是修复bug。

那么有没有办法让AI学习到人类是如何修改代码的呢

还真有,所需的训练数据都存在GitHub上。

优秀的程序员每次提交代码都会写好commit描述,说清楚这一次提交修改了什么内容。

commit描述配合上提交前后代码对比的diff数据,就是AI绝佳的学习材料。

研究人员筛选出一些描述意图明确、修改的代码量不大的提交数据来训练一个GPT-3架构的AI模型。

相当于让AI向人类程序员学习了如何有目的的修改一段代码。

这篇论文所用的模型也不需要完全版GPT-3的1750亿参数那么大,最高7.5亿参数就足以。

由此得到了基础的AI模型,将在遗传算法中扮演变异算子的角色。

接下来让AI自己设计新机器人的流程总共分三步。

第一步,先用经典的MAP-Elites算法生成一组初始机器人。

这是一种QD(质量多样性算法,可以保证机器人行为不同且质量都很高。

第二步,用第一步产生的初始数据做预训练,让AI先学会设计出训练数据分布内的机器人。

也就是开头处那张在网上惊艳了众人的动图,展示了AI如何一步步把无法移动的“方块”改造成双腿交替弹跳移动机器人。

第三步,再结合上强化学习算法做微调,让AI能根据不同地形条件生成能适应环境的机器人。

最终,研究人员选取了从最初的三个种子进化而来的机器人做效果展示。

可以看出它们的结构和移动方式都完全不同。

这项研究一经公布,可谓是一石激起千层浪。

许多网友都惊叹于这种“大模型+演进算法”结合的新奇方式

做过与之相关工作的研究人员也表示,从未想过能用大模型以diffs的形式来学习突变

而除了对研究形式和本身的讨论之外,也有网友配上了这样图

Emmm……是有点那种味了。

这项研究的团队成员均来自OpenAI。

论文一作是Joel Lehman,是一位机器学习科学家。其聚焦的领域包括人工智能安全、强化学习和开放式搜索算法。

与此同时,Joel Lehman此前基于对人工智能发展的思考合写过一本科学读物《为什么伟大不能被计划出来:客观的秘密》

而对于这项研究的下一步,Joel Lehman本人表示

还有一个重要问题,就是模型能够多大程度上应用到其它环境中。

GP中的突变功效现在可以通过ELM大幅提高,这将激发出一系列广泛的新应用和研究方向。

那么这项研究是否也对你产生了新的启发呢

欢迎在评论区留言讨论~

参考链接

[1]https://arxiv.org/abs/2206.08896
[2]https://twitter.com/joelbot3000/status/1538770905119150080?s=21&t=l8AASYjgC6RAEEimcQaFog

—  —

「量子位·视点」直播报名

随着生物识别技术的发展,数字时代的增强身份认证如何打造?既有安全又有隐私的电子证照如何实现?而人工智能的本质和真正价值将会如何在产业数字化中体现

6月23日周四,参与直播,为你解答

最新文章
私域roi分析,告诉你怎么样的私域才能是合格的私域
市场营销获客工具【爱短链】全域跳转工具,打通私域引流关键一步:轻松将公域流量,引导至私域,通过链接点击直达,方便快捷,无风险提示跳转,助力企业/商家高速获客。》》点此获取链接我们关心如何如何来,如何保留,如何转化;也关心成
神经网络轻量化及硬件加速技术与应用
报告地点:吉林大学中心校区唐敖庆楼B521报告介绍1.神经网络轻量化及硬件加速技术与应用报告人简介姚美宝,吉林大学人工智能学院副教授,博士生导师,担任智能机器人实验室负责人。从事智能机器人,计算机视觉,控制理论及应用等研究,主要
谈谈“推荐系统”和“搜索引擎”两者间的关系、和异同点
原标题:产品经理需要了解:推荐系统和搜索引擎的关系注:本文作者结合自己的实践经验来为大家阐述推荐系统和搜索引擎两者之间的关系、分享自己的体会。从信息获取的角度来看,搜索和推荐是用户获取信息的两种主要手段。无论在互联网上,还
阿亮网创72计第2计:0基础1小时精通SEO,免费流量取之不尽(价值20万)
第2计:0基础1小时精通SEO,免费流量取之不尽(价值20万)在网赚圈有一个绝对真理:流量就等于钱,精准流量就等于很多钱。如何才能在完全免费的情况下, 源源不断的获取海量的精准流量? 纵观整个互联网,唯独seo能够做到。什么是seo?seo就
谷歌SEO优化时,为何internal page会替代home page显示?
在SEO的浩瀚世界里,每一个细节都关乎网站的生死存亡。我曾无数次深入探索,试图揭开谷歌搜索引擎的神秘面纱。今天,我想和大家聊聊一个有趣且至关重要的现象:在谷歌SEO优化过程中,为何internal page(内页)有时会替代home page(首页)
百度关键词优化软件排名,哪款工具更高效提升搜索排名?
在当下这个信息爆炸的时代,搜索引擎优化(SEO)成为了众多网站和企业在网络世界中立足的关键。而百度,作为中国最大的搜索引擎,其关键词优化更是众多网络营销策略中的重中之重。基于我多年的实战经验和对行业的深刻理解,我发现选择合适
第六章(项目进度管理)
项目进度管理包括为管理项目按时完成所需的各个过程。 项目进度计划(Schedule)说明了项目如何以及何时交付项目范围中定义的产品、服务 和成果。创建 WBS 最底层得到的是工作包,但是为了更好的估算活动持续时间和活动
QQ群排名引流的两种方式,适合各类粉丝
QQ群大家都不陌生,可以说是在微信群之前最火的了。虽然说现在它的热度已经没有那么高了,但是并不影响我们利用它进行引流操作。虽然本篇文章的标题写的是群排名引流,不过我今天分享的是QQ群的两种引流方式。方式一相信大家也碰到过,不管
系统还原不能用怎么办?联想笔记本自动修复无法进入系统
联想 Lenovo ideapad 700-15ISK 笔记本电脑 ,windows补丁强制更新升级后,出现 “正在准备自动修复”【如图1】,诸位可能还有别的问题,不一而足,我自己的电脑是还有 “我们正在安装一个系统更新,请稍后”【如图2】,电脑会一直重复循环
骗子酒馆正版
骗子酒馆是一款以PC端游《骗子酒馆》为主题的自制策略RPG游戏。在游戏中,玩家将扮演一位酒馆里的牌局参与者,与三位伙伴同桌博弈,目标是成为最终存活的赢家。游戏提供四种牌型,包括K、Q、A和小丑牌,每局开始时系统会随机翻出一张底牌,
相关文章
推荐文章
发表评论
0评