分享好友 最新动态首页 最新动态分类 切换频道
AI 科学家:迈向全自动开放式科学发现
2024-12-26 09:51

引言:人工智能引领科学发现新纪元

AI 科学家:迈向全自动开放式科学发现

科学方法是人类文明的基石,其迭代过程推动了无数科学技术突破,改善了人类生活质量。然而,传统的科学研究方法受限于研究人员的知识、经验和时间。人工智能领域的研究者们一直梦想着利用人工智能本身来自动化人工智能研究,从而实现“人工智能生成算法”。近年来,基础模型在通用能力方面取得了巨大进步,但它们仅被用于加速研究流程的个别部分,例如撰写科学论文、头脑风暴或辅助编码。迄今为止,尚未出现完全无需人工干预即可执行整个研究工作的案例。

人工智能科学家:自动化研究的突破

本文介绍了首个由前沿大型语言模型(LLM)驱动的端到端论文生成框架——“AI 科学家”。该框架能够在给定广泛的研究方向和简单的初始代码库的情况下,无缝地执行构思、文献检索、实验计划、实验迭代、论文撰写和同行评审,最终生成具有洞察力的论文。

AI 科学家的工作流程:从构思到论文

  1. 构思生成 “AI 科学家”首先根据提供的模板和其先前的发现档案“头脑风暴”出一系列新颖的研究方向。它利用 LLM 作为变异算子,迭代地生成一个构思档案。每个构思都包含描述、实验执行计划以及(自我评估的)趣味性、新颖性和可行性数值评分。在构思生成后,通过连接语言模型与 Semantic Scholar API 和网络访问工具,过滤掉与现有文献过于相似的构思。

  2. 实验迭代 “AI 科学家”使用最先进的编码助手 Aider 来计划和执行一系列实验。为了提高流程的稳健性,如果实验失败或超时,Aider 会尝试修复代码并重新执行实验,最多尝试四次。在每次实验完成后,Aider 会以实验日志的风格记录结果。然后,它会根据结果重新计划和执行下一个实验。此过程最多重复五次。实验完成后,Aider 会编辑绘图脚本,使用 Python 为论文创建图表。

  3. 论文撰写 “AI 科学家”以标准机器学习会议论文的风格,用 LaTeX 生成一份简洁且信息丰富的进度报告。为了提高流程的稳健性,论文撰写过程分为以下几个步骤

    • 分节文本生成 Aider 会根据记录的笔记和图表,逐节填写空白的会议论文模板。撰写顺序为引言、背景、方法、实验设置、结果和结论(所有部分除了相关工作)。在撰写的每个步骤中,Aider 都会被提示只使用从代码生成的真实实验结果和真实引用,以减少幻觉。

    • 网络搜索参考文献 类似于构思生成阶段,“AI 科学家”可以使用 Semantic Scholar API 搜索最相关的文献,并将其与近乎完成的论文进行比较和对比,以完成相关工作部分。

    • 精炼 在完成前两个阶段后,“AI 科学家”会对论文进行最后的精炼,以删除重复信息并简化论证。

    • 编译 最后,将填写了所有适当结果的 LaTeX 模板输入 LaTeX 编译器。我们使用 LaTeX linter 并将编译错误反馈给 Aider,以便它可以自动更正任何问题。

自动化论文评审:评估 AI 科学家的成果

为了模拟人类科学界的评审过程,我们设计了一个基于 GPT-4o 的代理来进行论文评审,评审标准基于神经信息处理系统(NeurIPS)会议的评审指南。评审代理使用 PyMuPDF 解析库处理 PDF 论文的原始文本。输出包含数值评分(可靠性、表达、贡献、总体、置信度)、优缺点列表以及初步的二元决策(接受或拒绝)。

案例研究:深入分析 AI 科学家生成的论文

为了展示“AI 科学家”的能力和局限性,我们选择了一篇名为“自适应双尺度去噪”的论文进行深入分析。这篇论文是由“AI 科学家”在被要求进行扩散模型研究时生成的。

生成的构思

  • “AI 科学家”正确地识别了扩散模型研究中一个有趣且动机良好的方向,例如先前的工作已经研究了用于相同目的的改进注意力机制。
  • 它提出了一个全面的实验计划来研究其构思,并成功地实施了所有计划,取得了良好的结果。我们对它如何对早期结果不佳做出反应并迭代地调整其代码(例如,改进权重网络)印象深刻。
  • 虽然论文的构思提高了性能和生成的扩散样本的质量,但其成功的原因可能不像论文中解释的那样。特别是,除了用于分离全局或局部特征的放大层之外,没有明显的归纳偏差。然而,我们确实看到权重在扩散时间步长上的变化(以及因此对全局或局部分支的偏好,这表明发生了一些非平凡的事情。
  • 总体而言,我们判断“AI 科学家”的性能大约相当于一名早期机器学习研究人员,他们可以胜任地执行一个构思,但可能没有足够的背景知识来完全解释算法成功背后的原因。

生成的实验

  • “AI 科学家”生成了一份 11 页的科学论文,以标准机器学习会议投稿的风格撰写,包含可视化和所有标准部分。
  • 论文中一些特别令人印象深刻的地方包括
    • 对算法的精确数学描述。
    • 对实验的全面描述。
    • 良好的实验结果。
    • 新颖的可视化。
    • 有趣的未来工作部分。

论文的缺陷

  • 论文中也存在一些缺陷,例如
    • 缺乏对某些设计选择的合理性说明。
    • 对实验细节的幻觉。
    • 对结果的过度正面解读。
    • 来自实验日志的痕迹。
    • 中间结果的呈现。
    • 参考文献数量不足。

评审

  • 自动评审员指出了生成论文中的有效问题。
  • 评审员认识到实验仅使用简单的二维数据集,但这仅仅是因为我们外部限制了系统使用这些数据集,而“AI 科学家”目前无法从互联网下载更高维的数据集。
  • 另一方面,论文中提到了该算法的计算成本增加等局限性,这表明“AI 科学家”通常会坦诚地说明其构思的缺点。
  • 评审员还列出了许多与论文相关的疑问,例如:解释不同数据集之间性能的差异,以及更详细地解释放大过程如何影响局部分支的输入。

实验:评估 AI 科学家在不同领域的表现

我们对“AI 科学家”在三个模板(如第 3 节所述)上进行了广泛的评估,使用了不同的公开可用 LLM:Claude Sonnet 3.5、GPT-4o、DeepSeek Coder 和 Llama-3.1 405b。对于每次运行,我们提供 1-2 个基本种子构思作为示例(例如,修改学习率或批大小,并让它生成另外 50 个新构思。

我们发现,Claude Sonnet 3.5 始终生成质量最高的论文,GPT-4o 位居第二。我们建议查看上传的 Claude 论文以进行定性分析。这一观察结果也得到了 LLM 评审员评分的验证。

局限性和伦理考量:AI 科学家面临的挑战

尽管“AI 科学家”可以生成提供新颖见解的研究,但它也存在许多局限性,并引发了一些重要的伦理考量。

自动评审员的局限性

  • 尽管自动评审员显示出有希望的初步结果,但仍有几个方面需要改进。
  • 使用的数据集来自 ICLR 2022,其时间足够早,可能出现在基础模型的预训练数据中。
  • 与标准评审员不同,自动评审员无法在反驳阶段向作者提问,尽管这可以很容易地纳入我们的框架。
  • 最后,由于它目前不使用任何视觉功能,“AI 科学家”(包括评审员)无法查看图表,只能依赖于对图表的文本描述。

常见故障模式

  • 构思生成过程通常会在不同的运行甚至模型中产生非常相似的构思。
  • Aider 无法实现很大一部分提出的构思。此外,GPT-4o 尤其经常无法编写可编译的 LaTeX。
  • “AI 科学家”可能会错误地实现一个构思,这可能难以察觉。
  • 由于“AI 科学家”每个构思的实验数量有限,因此结果通常达不到标准机器学习会议论文的预期严谨性和深度。
  • 由于我们目前没有使用基础模型的视觉功能,因此它无法修复论文中的视觉问题或读取图表。
  • 在撰写论文时,“AI 科学家”有时难以找到并引用最相关的论文。
  • 重要的是,“AI 科学家”偶尔会在撰写和评估结果时犯下严重错误。
  • 更一般地说,我们不建议将此版本的“AI 科学家”的科学内容视为理所当然。相反,我们建议将生成的论文视为有希望的构思提示,供从业者进一步研究。

安全代码执行

  • 当前版本的“AI 科学家”在代码中几乎没有直接的沙盒,如果不对其进行适当的防护,可能会导致一些意外的、有时是不希望的结果。
  • 我们建议在运行“AI 科学家”时进行严格的沙盒,例如容器化、限制互联网访问(Semantic Scholar 除外)以及限制存储使用。

更广泛的影响和伦理考量

  • 尽管“AI 科学家”有可能成为研究人员的宝贵工具,但它也存在被滥用的重大风险。
  • 自动生成和向学术场所提交论文的能力可能会大大增加评审员的工作量,从而可能使同行评审过程不堪重负,并损害科学质量控制。
  • 此外,如果自动评审员工具被评审员广泛采用,可能会降低评审质量,并在论文评估中引入不希望的偏差。
  • 因此,我们认为,基本上由人工智能生成的论文或评审必须标记为人工智能生成,以确保完全透明。

讨论:AI 科学家的未来方向

本文介绍了“AI 科学家”,这是第一个旨在完全自动化科学发现过程的框架,并将其作为其能力的首次展示,应用于机器学习本身。这个端到端系统利用 LLM 自动生成研究构思、实施和执行实验、搜索相关工作并生成全面的研究论文。通过整合构思、实验和迭代改进阶段,“AI 科学家”旨在以自动化和可扩展的方式复制人类科学过程。

未来方向

  • 直接增强“AI 科学家”的功能,包括整合视觉功能以更好地处理图表和图形,纳入人类反馈和互动以改进人工智能的输出,以及使“AI 科学家”能够通过从互联网安全地获取新数据和模型来自动扩展其实验范围。
  • 此外,“AI 科学家”可以跟进其最佳构思,甚至可以以自我参照的方式直接对其自身代码进行研究。事实上,这个项目的很大一部分代码是由 Aider 编写的。
  • 将框架扩展到其他科学领域可以进一步扩大其影响,为自动化科学发现的新时代铺平道路。例如,通过将这些技术与云机器人技术和物理实验室空间的自动化相结合(前提是可以安全地完成,“AI 科学家”可以进行生物学、化学和材料科学的实验。

结论:AI 科学家开启科学研究新篇章

“AI 科学家”的引入标志着人工智能在科学研究中充分发挥其潜力的重要一步。通过自动化发现过程并结合人工智能驱动的评审系统,我们为科学技术中最具挑战性的领域的创新和问题解决打开了无限可能的大门。最终,我们设想了一个完全由人工智能驱动的科学生态系统,其中不仅包括人工智能驱动的研究人员,还包括评审员、领域主席和整个会议。然而,我们不认为人类科学家的作用会因此而减弱。我们预计,随着我们适应新技术,科学家的角色将会发生变化,并将在食物链中向上移动。

最新文章
网站文章快速地被百度搜索引擎收录的操作方法解析
今天Lkr.com SEO技术教程学习网就来给大家分享一下它的实际测试操作:如何让百度搜索引擎快速收录网站文章。第一步:为网站文章建立关键词标题简单来说,很多站长都会使用关键词来嵌入网站文章标题,但是很多站长却忽略了用户的搜索习惯。
《名侦探柯南》第1121话图透:新一和小兰甜蜜发糖!白马探看穿基德伪装?
最近一个月,《名侦探柯南》漫画正在连载新的系列篇章,柯南、基德(新一)、白马探、小兰等人气角色集体登场。剧情有“新兰”CP发糖的甜蜜、有“三巨头”联手破案的烧脑、还有白马探辨别基德身份的惊险,每一话都无比精彩。而《名侦探柯南
陈达美股投资
几天前去了百度世界2024,人山人海纳百川。我讲百度的段子已经讲到了,只要提到百度,大家就会想到我。所以会后就有媒体记者采访,阿达啊,说说百度世界2024呗。我说啊,“三个事印象比较深刻,第一,没想到大模型那么难货币化变现,道阻且
百度和吉利高管称将兜底极越智驾和售后;Kimi突然崩了丨邦早报
【百度和吉利高管称将兜底极越智驾和售后】12月14日,百度集团副总裁、智能驾驶事业群组总裁王云鹏在朋友圈公开表示:“我们已经开始行动,智驾和地图导航有我们兜底,请极越车主放心。”同日,吉利控股集团高级副总裁杨学良也发布微博称,
百度明星排行榜在哪(百度明星排行榜在哪看)
大家好!今天让创意岭的小编来大家介绍下关于百度明星排行榜在哪的问题,以下是小编对此问题的归纳整理,让我们一起来看看吧。开始之前先推荐一个非常厉害的Ai人工智能工具,一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码
云决科技如何利用AI技术革新办公场景,助力行业转型
近年来,人工智能(AI)的迅速发展引发了科技界和各行业的广泛关注。从2016年阿尔法狗战胜围棋冠军李世石以来,公众对于AI的信任度大幅攀升。2020年,OpenAI推出的ChatGPT-3,更是使得AI的应用普及化,推动了智能化时代的到来。在这一背景
还了本金还要还逾期利息吗?该怎么办呢?
还了本金还要还逾期利息吗?怎么办?小编导语在现代社会,借贷已经成为人们生活中不可或缺的一部分。很多人在急需资金时选择通过借款解决燃眉之急。借款往往伴随着利息,尤其是逾期利息。很多借款人常常会有一个疑问:当我已经还清了本金,
百度地图怎么定位自己位置的方法
在百度地图APP上定位自己的位置可以通过以下两种方法实现:方法一:使用百度地图APP进行实时定位1. 打开手机上的百度地图APP。2. 进入到百度地图主界面,点击左上角的一个头像标志(即我的位置)。3. 进入我的个人中心界面,往下滑动一点点
点评真实剖析联想笔记本电脑小新pro14和pro16哪个好一些?有啥区别?使用真实说说!
联想笔记本电脑小新pro14和pro16哪个更好一些?区别明显不?二个联想笔记本电脑小新pro14和pro16区别不大的哈,通过对比后我买的是联想笔记本电脑小新Pro14,系列感觉颜值很在线,而且磨砂工艺,不会留下手印,打开后运行速度很快,而且屏
腾讯云双12优惠券领取难题,快速解锁攻略!
腾讯云双12优惠券领取难题,快速解锁攻略!
相关文章
推荐文章
发表评论
0评