图源:Pixabay
2024年,诺贝尔奖将人工智能(AI)推上了科学界的中心舞台,AI领域的科学家连续斩获诺贝尔物理学奖与化学奖,这一令人意想不到的结果震撼了学术界。
多年后,如果我们回望2024年的诺奖颁奖,或许会发现这并不是一个意外,而是一个历史性的转折点——AI驱动的新科学正式接过了传统科学的接力棒,开启了全新的AI for Science研究时代。
AI正在编织一张跨越传统学科界限的大网,引领我们进入一个前所未见的未来。美国国家工程院外籍院士沈向洋在一次对谈中这样表达,“如果说今天有什么事是我们一定要做的,那就是AI for Science。难以想象今天还有什么事情比它更重要,今年诺贝尔奖的颁布便是最好证明[1]。”
在今年诺奖颁发前,美国机器学习之父汤姆·米切尔(Tom M. Mitchell)就在他撰写的AI for Science 白皮书中提到,AI for Science带来了加速科学发展的机遇。AI已经显著加速了从细胞生物学到材料科学、天气和气候建模,再到神经科学等广泛科学领域的研究进展[2]。
谷歌DeepMind最近一篇报告也声称,AI for Science有望开启科学发现的新黄金时代。当下,现代科学的进步受到了规模和复杂性的阻碍,无论是数量猛涨的文献还是日益繁复的实验都在阻碍科学家寻求突破。而深度学习方法最擅长从大规模数据中提炼信息,从复杂的环境中识别模式[3]。
从科学家手动整理资料,依赖学科理论提出假设,到AI主导,直接从数据出发识别模式和提出假设。这带来的不仅是效率上的变化,更是整个科研范式的改变。
AI赋能各个学科的交叉研究,只是AI影响科学的第一步。AI for Science更宏伟的蓝图,是彻底打破学科界限。
图灵奖得主、中科院院士姚期智相信,AI for Science给所有科学带来的变革是“不可阻挡”的。“AI科学正在引领学科交叉创新改变世界的面貌。过去数百年来,科学家们在各自的领域以内发展,而今,我们将进入一个更广阔的大科学时代[4]。”
AI赋能科学家,更专注从0到1
而这样的一个AI时代,对中国的科学研究又有特殊的意义。
在今年《科技日报》的访谈中,中国科学院院士、中国科学技术大学副校长杨金龙提到:“由于历史原因,我国的基础研究在很长一段时期内落后于西方国家。充分利用人工智能,把握好这一轮科学研究范式变革的机遇,有利于我国在基础研究的国际竞争中获得主动地位”。
对于这种科研模式的重大变革,各大高校也早已闻风而动。仿佛一夜之间,高校们成了算力采购的大户,各地高校纷纷开始打造AI基础设施。[5]
2018年,西湖大学成立,其高性能计算中心几乎同时成立,为学校“高起点、小而精、研究型”的办学定位提供算力支撑。2020年,西湖大学开始携手浪潮信息等企业共建计算中心,满足各学科领域对于大规模数据处理和大规模科学计算的需求。
正是在这些算力的支持下,申恩志才得以顺利地进行自己的那项传统方法无法进行的研究。
申恩志是西湖大学非编码核酸生物学实验室的研究员,他的研究对象是非编码RNA。
非编码RNA,即那些不编码蛋白质的RNA。从DNA到RNA再到蛋白质,这是遗传学的“中心法则”,然而,这条“中心法则”中的DNA、RNA、蛋白质,3种物质在数量上并不均等。人类的蛋白质编码基因大约有2万个,但蛋白质的种类却超过5万个,而在所有的RNA中,98%都是没有编码蛋白质的非编码RNA。MicroRNA(小RNA,是非编码RNA的一种)曾两次获得过诺贝尔奖。
然而,因为非编码RNA不编码蛋白质,要研究他们的分子机制和生理功能,“经典生物化学缺少技术工具支撑”。且随着高通量技术带来的数据指数级的膨胀,高效解析测序数据,分析出其中的调控关系,找到调控规律,用经典的方法几乎成了不可能完成的任务。
这是人类基因序列中的“暗物质”,它们庞大、复杂,在生命体里是高度动态的,可以跟很多其他生命分子相互作用、相互调节。目前的研究发现,这些非编码RNA不仅参与生物体的各种基本生命过程,且与很多重大疾病的发生密切相关。用申恩志的话讲,这些非编码RNA“可能谱写着更复杂更精确的生命现象”。
幸而,在这个时代,已经有了可以帮助科学家的AI,申恩志这个领域也正是较早利用AI实现科研模式变革的领域,正是在这个模式下,本届化学奖得主Demis Hassabis团队开发的AlphaFold自问世以来,已被广泛应用在很多生物学领域研究中。
对于新的科研模式变革,中国科学院院士鄂维南曾经评价:过去科学界的研究模式刻意称为“小农模式”,数百年里,科学家们在各自的领域内深耕细作,往往由同一团队完成从理论到开发的全过程,这是一种相对低效的,不互通有无的方式。AI for science的推进,使得我们可以消弭的界限,从统一的基础研究平台来考虑不同学科的各类不同问题,从“小农模式”转为“安卓模式”。
在申恩志那个由信息学、生化、生物物理、遗传学、制药等等各种不同背景的科研人员组成的几乎涵盖“海陆空”的实验室团队,交叉学科的研究几乎是常态,研究者们不单利用数据建模型,也用AI做分析,用AI做其他各种辅助,努力加速自己对生命研究的进程。
对于实验室中的这些AI辅助,申恩志说:“很多疾病的发生是因为蛋白编码基因的异常导致的,如果我们了解了小RNA的靶向规律,理论上来说,几乎所有的疾病都能包括进来……我们要感谢AI时代的到来,把从1到n的事情留给机器去做,留出更多的时间来做从0到1的分析,我们就可以有更多的精力来真正做事,进而加快了我们对现在整个人类面临问题的解决的速度”。
寻找最高效的智能模型,
也许需要回归人脑
这是个变革的时代,AI在前沿科技领域取得了诸如AlphaFold2、核聚变智能控制、新冠药物设计等诸多令人瞩目的成果,AI for Science正在成为一种新的研究范式。
时至今日,AI for Science在科学研究的各个阶段,从阅读文献、设计实验、材料/靶点的筛选,到数据的分析,文献的辅助写作,甚至无人实验,几乎都有了一些成型的产品。
然而,此时此刻,AI for Science的深度发展所面临的问题是什么?
杨金龙曾提到过两个方面:数据,以及,“如何打造人工智能的思维能力”。前者,高质量,统一标准的数据,需要各个学科的努力,而后者,压力给到了那些真正希望探寻智力本源的研究者们。
西湖大学人工智能教授金耀初的研究便是围绕后一个问题的解决,事实上,他最为感兴趣的是:智能的从0到1是如何开始的?智能能否通过演化发育的机制自发地产生出来?
“我们现在经常讲大模型,有千亿级的复杂度,(能耗极高),人脑其实也是有千亿级复杂度的神经元,但是人脑的功率大概只有20~25瓦,非常高效。”金耀初说。这也是他决定从发育的角度去研究AI,探索如何用一个简单的系统来进化出一个很复杂的系统的原因。
金耀初是欧洲科学院院士、国际电气和电子工程师协会(IEEE)会员、IEEE计算智能学会主席,他兴趣广泛,研究领域几乎“上天入地”,有汽车的喷气发动机和自适应巡航系统、空中客车的机体设计,也有,疫苗预测、医学图像的处理、多机器人的组织等等。尽管这些领域千差万别,但在金耀初看来,它们解决问题的方法却是共通的,那就是他痴迷研究了多年的演化算法。
2023年10月,金耀初加入西湖大学,在这里,他创立了一个自己的“伊甸园”——他那个名为“演化及发育神经网络”(Evolutionary Developmental Neural Systems)的实验室,英文名缩写正是EDEN(伊甸园),象征着人类产生时的懵懂阶段。
在自己的伊甸园中,金耀初希望用AI模拟人类的起源过程,在自然环境中不断演化发育出更智慧的智能系统,而他则观察AI“跟环境的交互”,探索AI不断的自我的成长,自我的演进。
在金耀初看来,自然演化是一个很“懒”的过程,即:如果某个生物用一个简单系统能活得很好的话,它就不会去搞得很复杂。所以,“生物的演化过程并不是一个单一的增加复杂度的过程,而是要找到一个最适合这个环境的结构”。而这,也许正是目前的大模型所缺乏的。
人脑有一些很重要的特征,比如:功能分区、模块化、模块的合作协同,有这些,才能如此高效地出现我们看到的这些高等智能,这些东西,现在的大模型还没有。“所以,我希望通过一些演化和发育的途径来实现有分模块化的人工神经网络模型,这可能是我们需要探索的一个方向”。
目前,金耀初的演化算法已成功应用于多个实际复杂工程系统优化。2024年07月,金耀初因其在复杂系统进化优化领域的开创性贡献,荣获2025年IEEE Frank Rosenblatt Award大奖,成为本年度全球唯一获此殊荣的学者。该大奖创立于2004年,是IEEE为纪念神经网络的创始人之一Frank Rosenblatt而设立的。
演化算法之外,金耀初也在与同在工学院人工智能系的蓝振忠探讨合作,寻找大模型与演化优化算法的结合点,希望通过模仿交互,实现自我迭代,利用新的算法,蓝振忠希望实现自己的心理AI之梦。
2020年,蓝振忠从谷歌辞职,回国加入西湖大学,担任深度学习实验室负责人,希望能够打造一台能随时随地陪伴、辅助心理咨询的对话机器人。目前,他们已上线了第一个产品——AI心理咨询师“小天”,“小天”的日活跃用户有几万人。
算力,AI时代创新的瓶颈
AI驱动科学的前景美好,但在眼下,很多高校却面临着现实的尴尬。它们拥有的算力资源,实在和业界相差太远了。没有算力的支持,AI驱动的研究也只能是无源之水。
例如,申恩志团队所从事的非编码 RNA研究,就对算力和 AI 算法的稳定性、泛化能力都有着颇高的要求。高通量技术带来的海量转录组数据,需要依靠 AI 进行快速处理,从而识别并分类潜在序列。
“整个人类基因组碱基对约有30亿,对于这样庞大数据的分析,在方法和计算量上的都是十分复杂的问题,现在有了算力支持和AI的技术支撑,可以帮助我们更快更好的找到答案。”申恩志说。
可以说,AI工具已经贯穿了科学研究的全流程,算力则成为了不可或缺的支撑。
而现在高校算力不足是一个普遍的现象。根据《Nature》杂志的报道,一项针对全球数十家机构的学者进行的调查显示,许多在大学工作的科学家都对AI研究可用的算力不足表示不满。他们没有预算买到必要的GPU,通常用于训练人工智能模型的GPU,一块价格可能高达数千美元。 相比之下,大型科技公司的研究人员预算更高,可以在 GPU 上花费更多。
研究报告的合著者、罗德岛普罗维登斯布朗大学的计算机科学家 Apoorv Khandelwal 说,"那些行业巨头可能拥有数千个GPU,而学术界可能只拥有一小部分GPU[6]。”
即使是最顶尖的高校,算力资源的不足仍然是制约科学发展和创新的关键。今年5月,斯坦福大学教授李飞飞称学术界正在面临AI计算资源的严重短缺,斯坦福大学的自然语言实验室只有64块GPU。“相比工业界,学术界正在从悬崖上跌落。”李飞飞说[7]。
中国高校的算力储备就更为不足,底子薄弱,使用也很不均衡。一项相关调研显示,2022年时,国内只有大约8.4%的高校已建设校级算力平台,校级算力平台的运算能力主要分布在250Tflops以下;存储空间主要分布在500TB以下。在大模型热潮兴起时,很多国内高校实验室只能用消费级的GPU去做实验[8]。
在蓝振忠实验室发布在西湖大学网站上的招聘信息中,列出的吸引应聘者的第一个优势是“实验室有足够的服务器设备支持大语言模型的研究,可保证实验项目高效进行”。算力对搞大模型的蓝振忠团队至关重要,“小天”就是基于西湖大学算力资源打造的。算力对金耀初团队、申恩志团队等做AI跨学科研究的科学家同样重要。
这有赖于西湖大学对科研人员长期充足的算力支持。西湖大学在计算中心的建设上,走在了国内高校的前列。
2020年以来,西湖大学计算中心与浪潮信息合作,除了构建算力系统,还打造了领先的算力平台AIStation。
通过AIStation平台,西湖大学的计算中心能够统一管理计算资源,将计算资源利用率提升到90%以上,减少资源闲置,缓解多人使用下的资源拥挤以及计算资源不足问题。为西湖大学全校各研究机构提供高质量、高可靠性、高定制化的科学计算和数据分析解决方案,满足各学科领域与人工智能融合对于大规模数据处理和大规模科学计算的需求。
参考文献