“我国作为数据生产大国,2023年全国数据生产总量达到32.85ZB(泽字节),数据量年增22.44%;但这些数据中仅2.9%的数据被保存,大量数据产而未采、采而未存,造成数据资源的极大浪费。”
在今年的全国两会上,全国人大代表、华中科技大学副校长冯丹提出,数据资源的规模和质量直接影响人工智能的发展水平,建议加快制定国家数据资源储备战略规划,实施存力中心建设工程,支撑人工智能高质量发展。
冯丹代表。本人供图
?
我国存力建设缺乏顶层设计
冯丹援引一组数据谈道,从全球来看,我国的数据存留率(2.9%)远落后于美国(7.3%)、新加坡(7.75%)、德国(7.37%)等国。“加快我国数据资源储备、提升数据资源规模和质量已经迫在眉睫。”
她提到,我国以DeepSeek为代表的大模型企业通过算法创新、数据工程提升和存储优化,证明了“算法+数据+存储”可有效突破算力桎梏,为全球AI发展贡献了中国智慧。未来在国家投入的AI技术专项中,加大布局“算法创新”和“存储创新”这两个方向,加强顶层设计建强我国存力基础设施,将为我国AI换道超车提供有力支撑。
“缺少国家数据资源储备的战略规划,数据资源被分散储备,限制了数字经济的创新发展和规模扩张。”冯丹说,数据资源分散储备的弊端显而易见,不仅数据使用率低、保存总成本增加,而且由于缺乏规模效应,技术、管理和维护都要重复投入,且难以形成高质量数据集。
同时,由于缺少顶层完善的数据资源保存规范和指引,各行业数据保存规模和质量也参差不齐。冯丹说,尤其各部门各企业对短期价值不明显、但具备长期潜在价值的数据不保存或者少保存,无法满足当今数智化发展阶段的要求,这也同时成为当前人工智能中文语料严重不足的重要因素之一。
另外,由于缺少国家数据资源储备的技术保障,一些关键数据存储技术形成对外依赖,各单位的存储成本高企,同时面临着供应和成本的不确定性风险。
系列措施“支招”存力中心建设
为应对前述挑战,冯丹建议,要加快制定国家数据资源储备战略规划,实施存力中心建设工程。
她建议,可分阶段实施,可以从涉及国计民生的能源、交通、医疗卫生、通信等行业入手,开展数据资源储备中心新模式试点,同时制定关键行业的数据采集、存储规范。最后建立国家数据资源共享平台,形成1(国家数据资源共享平台)+N(重点区域/行业数据资源储备中心)的国家数据资源储备布局,促进储备数据安全共享与流通,提高储备数据的利用效率。
此外,为提升国家数据资源储备的技术保障能力,冯丹建议由国家相关部门牵头设立数据资源存储技术创新攻关专项,以国际难题“数据保存100年、1000年”为牵引,加大对新型存储介质、新型闪存存储器、新型温冷数据存储、数据流通技术等的创新技术研发。同时,科技创新与产业创新融合,支持由领军存储企业联合高校、科研院所、国家实验室等开展联合研究和产品化,发挥企业创新主体作用,提升国家数据资源储备的技术保障能力。
冯丹表示,更进一步,我国也应着手培育数据资源存储技术产业生态,建设国家数据存储创新示范区,开展数据资源存储技术应用工程试点。“建议设立存储产业基金,推动数据资源存储技术上下游企业合作,形成良好的创新氛围与协同效应。”她说。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。