作者:秦志伟 来源: 中国科学报 发布时间:2021-12-2
选择字号:
FAST:海量数据怎样“装下”

 

■本报记者 秦志伟

在日前举行的第六届全国杰出专业技术人才表彰大会上,500米口径球面射电望远镜(FAST)调试运行团队获得先进集体称号。FAST又称为“中国天眼”,自2020年1月正式运行以来,越来越多的观测数据令中国天眼面临着“天文级”大数据存储和处理挑战。

“每秒采集的数据量最高可达38GB,每年新增数据量可达到10PB。”中国科学院国家天文台FAST数据中心组组长黄梦林告诉《中国科学报》。

现在,这一问题随着“中国科学院国家天文台FAST数据中心方案”项目的出现而得以缓解。该项目基于浪潮分布式存储平台构建天文大数据平台。

观测数据源源不断

自运行以来,中国天眼不断在脉冲星、暗物质等方面取得突破性进展。黄梦林介绍,中国天眼将采集到的原始数据,通过高速网络传输至数据中心进行存储和处理,支撑起相关的科研工作。然而,随着时间推移和科研任务的深入,中国天眼源源不断产生海量观测数据。据统计,FAST每年新增约10PB数据,预计中国天眼未来五年的数据总量将超过100PB,对数据存储平台的容量需求不断增长。

数据的快速积累来源于中国天眼采用的19波束接收机。其将巡天能力和视场扩大数倍的同时,所产生的海量数据给团队带来了巨大的挑战。“观测时,以前每秒钟最多只产生2GB的数据。现在,峰值数据率每秒可以达到38GB。”黄梦林说。

实际上,中国天眼捕捉到的海量原始数据本身不能立即告诉天文学家哪些是人类未知的天文现象。它需要对数据进行技术处理,使之成为科研工作者“看得懂”的数据,然后科研工作者再根据这些观测数据开展相关的科学研究。

此外,“中国天眼数据即使经过十几年甚至几十年也可能有新的发现。所以这些数据是宝贵的,需要长时间保存”。黄梦林说。

再次“牵手”

科研数据作为支撑国家科技创新的战略资源,正在成为科学研究与发现的新型驱动力,是科研领域重要的生产要素。浪潮信息首席架构师叶毓睿认为,科研数据往往具有数据密集型的特点,科研工作者需要利用大量数据的相关性、可取代因果关系的理论与模型,基于数据间的相关性能够获得新知识、新发现。

天文研究是典型的大数据场景,数据存储不仅需要让中国天眼“装得下”数据,更要使其成为全球科学家天文大数据研究的“加速引擎”。

在接受《中国科学报》采访时,叶毓睿介绍,浪潮存储基于超大规模分布式存储平台,在一个存储平台内部署高性能和高密度两种节点,提供30PB容量、百GB带宽和智能管理,以数据之力助力中国天眼在宇宙未知领域探索中发挥积极作用。

容量大、性能高、易于管理等,这正是中国天眼需要的。

以容量大为例,考虑到中国天眼数据中心的机房空间有限,浪潮分布式存储采用高密度、高容量的设计方案,将机房空间占用率降低30% 。基于智能统一存储管理平台InView,在数百万个文件的环境下,通过人工智能技术实现存储部署、运维、管理、调优的自动化,保证故障盘90% 以上的预测准确率,实现机房空间的高效利用和便捷运维。

《中国科学报》记者了解到,这已是浪潮存储和中国天眼的“第二次牵手”。早在2019年的首次合作中,浪潮存储提供了高性能和高密度两种分布式存储产品。本年度中国天眼存储采购项目中,浪潮存储再次脱颖而出,为中国天眼提供高密度分布式存储。

“现在我们已经扩容至50PB,但容量还是有点小。”黄梦林向记者透露,“未来可能考虑使用冷存储。”

《中国科学报》 (2021-12-02 第3版 信息技术)
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
“双星计划”:开启中国空间科学新纪元 河西走廊内陆河出山径流研究揭示新趋势
金星缺水的原因,找到了? 科学家描绘低质量系外行星大气逃逸新图象
>>更多
 
一周新闻排行
 
编辑部推荐博文