毕恺峰是清华大学钱学森力学班2016级本科生,他于2020年毕业后加入华为,成为一名工程师。3年后,他作为第一作者,在Nature杂志发表论文。
毕恺峰
该论文通讯作者、华为云人工智能首席科学家田奇向《中国科学报》证实:数据显示,这是近年来中国科技公司首篇作为唯一署名单位的Nature正刊论文。
这篇论文发表于7月6日,介绍了华为云盘古大模型研发团队研究成果——《三维神经网络用于精准中期全球天气预报》,报告了业内“首个在中长期气象预报上精度超过传统数值预报方法的AI模型”。
Nature论文
《中国科学报》进一步了解得知,毕恺峰加入华为云后,曾“半年内连升两级”,目前已是主任工程师。论文主要完成人、华为云高级研究员谢凌曦透露:“这篇文章90%以上的工作量是一作毕恺峰同学完成的”。
3位来自气象领域的专家审稿人对该成果均给出高度评价。其中一位审稿人称赞:“华为云盘古气象大模型让人们重新审视气象预报模型的未来,模型的开放将推动该领域的发展。”
谢凌曦介绍称,盘古气象预训练模型已于2023年3月公开。
“我们公开了论文中使用的1小时、3小时、6小时、24小时模型,这些模型的运行速度很快,即使在CPU上单步迭代所需时间不超过1分钟。这意味着每个研究者都可以在个人电脑上,花几分钟就能完成未来7天的高分辨率全球天气预报。”谢凌曦说。
缺数据?小伙从欧洲气象局下载超200TB
盘古气象大模型的研究,始于2021年。
这年也正是毕恺峰选定AI气象预报并开始准备的时间。此前一则关于清华“钱班”教育方法的文章披露,毕恺峰曾一度因未能找到感兴趣的方向,而“处于迷茫状态”。但自从进入华为后,他的“热情被问题点燃”,并在实习期间解决了一个大问题而被华为录取,“半年升了两级”。
2020年底,毕恺峰开始涉足AI科学计算领域。在做了许多科学计算课题的调研后,2021年下半年他选定了AI气象预报。
人们日常看到的每日天气预报、极端灾害预警、气候变化预测等均属于“数值天气预报”,它比较依赖高性能计算和复杂的物理模型,因此瓶颈问题也比较突出。田奇告诉《中国科学报》,传统数值方法预报一次28公里×28公里的水平精度的、未来10天的全球天气,需要在3000台服务器的超级计算机集群上计算4-5小时。而如果想得到更高精度、更小范围的预测,算力需求和计算时间都将成几何级数增加。
田奇 图源:华为官网
但AI天气预报也存在问题。比如,在数值方法应用最广泛的中长期预报中,现有的AI预报方法精度有显著差距,并受到“可解释性欠缺”“极端天气预测不准”等问题的制约。
田奇研究团队认为,造成这一问题主要有两个原因:一是原有的AI气象预报模型都是基于2D神经网络,难以很好地处理不均匀的3D气象数据;二是AI方法缺少数学物理机理约束,因此在迭代的过程中会不断积累迭代误差。
为此,研究团队提出了适应地球坐标系统的三维神经网络(3D Earth-Specific Transformer)来处理复杂的不均匀3D气象数据,并使用层次化时域聚合策略来减少预报迭代次数,从而减少迭代误差。
3D-EST方法在理论上可以解决很大问题,但很快,“缺少实际气象数据”又成为新的掣肘——空有理论,无法进行模型训练,也无法对比预测结果并不断优化模型。
到底是年轻人。毕恺峰不辞辛苦,他花费了大半年的时间,从欧洲气象中心下载了超过200TB的再分析数据,并且利用早期的10年数据,逐步搭建起AI气象预报的训练框架。有了一定的调参经验后,2022年中,他开始在40年数据上做实验。
“我们使用了全球40年的天气数据,用200张GPU卡进行预训练,大概训练了2个月左右的时间,训练出了参数量达到亿级的盘古气象大模型。”田奇对《中国科学报》说。
谢凌曦透露,期间,为了支撑这些模型的训练,团队成员甚至中止了正在运行的程序,让出GPU资源,以确保实验顺利完成。
结果出乎预料地喜人。盘古气象大模型对1小时-7天预测精度,均高于传统数值方法(对比欧洲气象中心的IFS系统),同时盘古气象大模型在一张V100显卡上,只需要1.4秒就能完成24小时的全球气象预报,包括位势、湿度、风速、温度、海平面气压等数值。相比传统数值方法,预测速度提升10000倍。
2022年11月,欧洲气象中心通过邮件与研究团队取得联系,并沟通试用事宜。模型开放后,欧洲气象中心积极测试,并给出了一系列反馈正面的测试报告。这些报告见诸于欧洲气象中心的技术报告、技术博客和在世界气象组织研讨会上的发言。报告肯定了盘古模型在确定性预报和一些天气过程的预报中表现良好,还指出其提供了一种“推理功耗显著低于传统方法”的技术模型。
AI气象预报所消耗的能源,远远少于传统方法(图源:ECMWF报告)
今年5月,台风“玛娃”走向受到广泛关注。中央气象局称,华为云盘古大模型在“玛娃”的路径预报中表现优异,提前五天预报出其转向路径。
欧洲气象中心的系列报告和中央气象局的应用,无疑给盘古气象大模型的天气预报能力“背了书”。
2022年10月上旬,毕恺峰完成了论文初稿;经谢凌曦“刷新”后,论文率先被上传到arXiv平台。
团队没有投稿Nature经验,但“过程还挺顺利的”
谢凌曦介绍,一开始,团队并没有明确的投稿计划。
“田奇老师希望我们投Nature,但是我们心里都没底。”谢凌曦说,他和毕恺峰本打算投到某个机器学习的顶会(如ICLR或ICML)。一个多月后,他们无意间发现谷歌类似的研究成果GraphCast,已经做出很好的结果。
他那时感到有些灰心:“说不定谷歌已经向Nature投稿了。”
但细细研读了GraphCast以后,他们发现谷歌承认了他们放在arXiv平台上的工作。“于是,我们抱着‘不投白不投’的心态,鼓起勇气,把arXiv版本精简以后投到Nature。”
“对于这次投稿,我们完全没有把握,因为团队成员没有任何Nature(包括子刊、通讯等)投稿的经历和经验。”谢凌曦说,当时大家觉得,“被盲拒的可能性比较大”。
但投稿后,Nature编辑对论文非常认可,承认了团队的贡献;在经过一轮沟通后,同意将文章送审。
值得一提的是,Nature找来三位审稿人,都不是计算机或人工智能领域的专家,而是气象领域的学者。三位审稿人也同意公开身份和审稿意见,他们分别来自慕尼黑工业大学、欧洲气象中心和科罗拉多州立大学。据谢凌曦说,审稿人几乎没有质疑团队的贡献和创新,提出的问题大多是写作、训练细节、开源开放等方面的问题。
“第一位审稿人,慕尼黑工业大学教授Martin G. Schultz是非常资深的气象学家,他几乎逐字逐句地读了我们的文章,并且巨细靡遗地给出了修改意见;第二位审稿人是欧洲气象中心的Matthew Chantry博士,追问了许多实现细节;第三位审稿人是科罗拉多州立大学教授Imme Ebert-Uphoff,她仔细测试了我们发布的模型,认为这些模型将推动业界的研究。”谢凌曦介绍说。
有趣的是,Imme Ebert-Uphoff还应邀为Nature撰写了一篇观点文章,题为“The outlook for AI weather prediction”。这篇文章与盘古气象大模型的论文同日在线发表,进一步补充说明了这项工作的价值。
“投稿的过程还挺顺利的,很感谢三位审稿人。”谢凌曦说,三位评审的评审意见和团队的申辩加起来多达40页。
对传统预报不是替代,而是互补
华为云盘古气象大模型在天气预报中的亮眼表现,让人不禁好奇,AI预报会取代传统预报吗?
“谈替代传统数值计算预报是不合适的。”田奇对《中国科学报》说,盘古大模型的目标不是替代,而是要让每个行业、企业乃至每个人都拥有自己的专家助手,让工作更高效更轻松。
毕恺峰、谢凌曦也在共同撰文中表示,AI气象预报还存在诸多缺陷,例如还未做同化、还高度依赖于再分析数据、极端天气估计偏弱等等。“至少在未来一段时间,AI气象预报方法和传统气象预报方法会结合起来,形成一种混合预报系统。两种方法会发挥各自的优势,如传统方法的可解释性和AI方法的高效性。”
田奇表示,传统数值天气预报方式也有自己的优势,比如数据天气预报可解释性更高。而AI预测的方法会产生更平滑的预报结果,增加了低估局部极端天气事件波及范围的风险等。“我们认为,AI预报天气应该和数值天气预报并存,互相对比验证,为人类提供更加精准可信的天气预报,而不是谈谁替代谁的问题。”
“AI与医学影像分析已经结合了10年以上,至今AI还是辅助作用,无法替代医生,特别是高水平专家。同理,在气象领域也是一样。”谢凌曦说,虽然盘古气象模型在一定程度上得到了业界的认可,但前方的路还有很长,未解决的问题还有很多。他希望能有更多同仁一起,探索AI在气象预报以及更广阔的科学领域的应用。
同时,谢凌曦也表示:“我们期待气象学家们与AI领域深度合作,共同探索这一激动人心的新方向。”
相关论文信息:
https://www.nature.com/articles/s41586-023-06185-3
https://arxiv.org/abs/2211.02556
参考文献:
https://zhuanlan.zhihu.com/p/582285853
https://zhuanlan.zhihu.com/p/641851617
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。