作者:赵广立 来源:中国科学报 发布时间:2025/11/25 17:07:22
选择字号:
国家队出手,破解AI育种“看不见的难题”

 

每年9月到次年5月,数以千计的育种专家都会如候鸟般飞往北纬18度的海南三亚。他们来这里的使命,是希望让各地都能用上在南繁基地加速培育的良种。据统计,中国超过80%的新品种,都经过在南繁的选育。

然而,随着智能时代的来临,一个看不见的难题正制约着南繁的未来:强大的人工智能(AI)给育种科学家带来了巨大的想象空间,但农业数据分散、质量参差不齐、标准不一,无法形成高质量的数据集,AI育种难以落地。

“我们迫切需要一个统一的平台,将所有数据汇集在一起,并自动生成高质量的数据用于智能分析。”对于数据问题给AI育种带来的制约,在近日于三亚召开的2025年植物表型组学国际研讨会上,崖州湾国家实验室高级科学家袁晓辉一语道破。

这正是崖州湾国家实验室联手华为发布“繁-未来农业智能枢纽”的初衷。为了推动AI赋能育种加快落地,他们围绕“建立高质量种业数据集”做起了文章。

“繁-未来农业智能枢纽”发布仪式。 本文图片均由2025年植物表型组学国际研讨会提供

吹响AI育种数据集结号

种子是农业的芯片。当前我国虽然育种品种数量世界第一,但同质化严重,不少品种仅是针对主流品种的微小改良,缺乏革命性突破。更严峻的是,中国的主流育种方式仍停留于“经验育种”,这种方式往往周期长达8~10年,成功率和有效普及率却不足1%。

作为中国农业领域唯一的国家级实验室,崖州湾国家实验室的使命是创制重大战略性品种,弥补缺口。袁晓辉表示,实验室未来将充分运用人工智能、大数据等技术手段,搭建精准设计与智能育种平台,提高育种效率和成功率。而实现这一目标的当务之急,就是要构建一个全国性的农业数据网络枢纽。

“兵马未到粮草先行”,数据是AI育种的“粮草”,也是首要须解决的问题。

“(AI育种)最大的挑战就是数据,”崖州湾国家实验室副主任陈凡说,农业数据有不同的形式——农业地理类型不同、环境各异,每个区域都有不同的结构,数据结构、质量以及数据可访问性上都存在差异。基于这些客观因素,“我们希望通过一个智能枢纽来实现海量数据的统一化,实现农业数据‘可用’的目标。”

换言之,在崖州湾国家实验室和华为共同推进的“AI+育种”行动计划中,AI-Ready是核心目标。只有实现了这个目标后,才能继续将AI-Ready的数据用于精准设计和智能选育中。

不仅崖州湾国家实验室,国内诸多团队都对这一问题洞若观火。目前,吉林农业大学、武汉理工大学、中国农业科学院、中国农业大学、之江实验室、华中农业大学等都已经加入到构建农业数据网络枢纽的队伍之中。

“几天前,我们成功地从崖州湾国家实验室和吉林农业大学的数据中心收集了数据。这是我国第一次实现跨区域农业数据的统一视图。”袁晓辉说:“随着越来越多院校的加入,我们期待逐步构建农业数据的‘星链网络’。”

袁晓辉。

育种数据AI-Ready的幕后

吹响AI育种数据的集结号,崖州湾国家实验室的底气来自于“繁-未来农业智能枢纽”。

时间拨回到2025年植物表型组学国际研讨会召开的400多天前。以陈凡、袁晓辉等为代表的10多位科学家,就联手华为数据存储产品线副总裁袁远带领的100多名工程师,围绕“繁-未来农业智能枢纽”开启了联合攻关。

这400多个日夜,这支跨领域团队重点做了什么?

“首先是数据工程。”袁远告诉《中国科学报》:“即便你收集了所有数据,但如何把数据转化成语料库,这并不容易。需要清理数据、标记数据,还将数据转换为不同的格式。”

在这一环节,他们提出了数据工程的“FAIR原则”:数据可视(Findable)、可访问(Accessible)、可互操作(Interoperable)、可重复使用(Repeatable)。遵循这一原则,所有采集的数据都可变成符合文件规范的数据。

接下来是模型工程。袁远对记者说,精准设计和智能育种这类应用,无法直接使用DeepSeek、Gemini等成熟的基础大模型,需要开发行业专用模型。如何实现?这就要用专业行业数据来优化、“调教”模型,同时要兼顾数据权重平衡模型的计算。

这还没完。袁远说,对于不同行业的人来说,还面临着将行业模型转化为实际应用这一道关。“这需要相应的工具来帮助实现模型应用,比如需要做一些数据精炼等。”

在应对上述挑战的过程中,华为提供了一个三层架构的“AI数据湖”解决方案。

袁远介绍说,三层架构中,底层是数据存储层,提供一个低成本、高性能、高扩展性的数据存储动态基座,每TB数据的功耗只有0.25瓦;中间层是基于华为DME(Omni-Dataverse)技术的AI数据管理平台,可实现跨地域、跨设备的数据调度、流动与管理;上层则提供一站式的AI工具链,这些工具将帮助人们把数据转化为语料库,实现模型的开发,将模型转化成智能应用。

袁远。

“现在刚刚开始”

陈凡介绍说,在AI数据湖解决方案的基础上,崖州湾国家实验室联合“各路诸侯”,已展开了实质性工作。

首先是多地多中心的AI数据平台的搭建。其目标是实现跨地域、跨设备的数据调度、流动与管理。目前,袁晓辉团队联手华为团队已汇聚了多组学数据、文献数据等公共数据,崖州湾六大科研基地采集的数据以及第三方企业或科研机构数据等多模态数据,真正实现了全国近EB级育种数据的互联、互通、共享。袁晓辉说,该平台现已实现三亚、长春、武汉三地的数据共享。

为了让数据更可及,联合团队还建立了一个全局统一的“数据目录”。

“这可不是简单的内容索引,”袁远解释说,它通过建立增强的“元数据表征”将整合的数据形成知识图谱。在知识图谱中,数据的“血缘关系”一目了然,如数据指征的物种是什么、它由什么仪器测量、测量深度多少、有哪些特征以及历史版本信息等等。并且,通过数据目录来溯源或筛选数据,“就像通过简历筛选人一样”。未来还可进一步实现自然语言的数据筛选,最终形成高质量AI语料库。

袁晓辉告诉记者,在各个团队的努力下,目前“繁-未来农业智能枢纽”可根据科学家提出的需求进行任务分解,再从高质量的种业数据集中自动寻找关联的育种知识,并自动化编排分析流程,助力选择优秀的亲本和育种路线。

“借助这一技术底座,育种科学家可以将过去‘亲本选种—试验育种—大田种植’的反复流程从20代(8~10年周期)缩短至5代(3~4年周期),减少50%育种周期,效率提高30%。”陈凡说,这正是他对“繁-未来农业智能枢纽”的期望:打破数据孤岛,实现数据的统一化、可用化,将AI-Ready的数据投向未来的AI+生物育种之中。

崖州湾国家实验室。

要指出的是,“繁-未来农业智能枢纽”并不是封闭系统,它有许多对外的“开口”。袁远举例说,比如方案中的AI工具链完全开源开放,使用者可以下载工具服务集成到现有数据工具平台上,去利用不同的模型和知识库来构建智能应用;也可以参与进来、共同开发,输出更好用的工具链。

“现在刚刚开始,希望更多伙伴加入我们,共同打造智能育种新范式。”袁远说。


 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
神舟二十二号飞船发射任务取得圆满成功 迄今最全面最逼真的虚拟大脑问世
车上喝饮料不洒了?“黑科技”水杯来了 超加工食品正将年轻人推向前驱糖尿病
>>更多
 
一周新闻排行
 
编辑部推荐博文