来源: 中国科学报 发布时间:2025-4-28
选择字号:
具有国际影响力的大数据计算方法体系

 

面向管理情境的大数据分布式统计推断。

在国家自然科学基金重大研究计划“大数据驱动的管理与决策”的支持下,研究团队针对管理情境中数据体量庞大、模态复杂、价值稀疏等长期挑战,融合数理统计与计算科学理论方法,攻克了分布式计算、超高维建模和缺失态推断等关键科学难题,建立了具有国际影响力的大数据计算理论与方法体系。传统的集中式计算方式存在计算效率低、隐私暴露风险高等突出问题,分布式计算方式常用来应对这一情况。如何高效整合这些“碎片化”的信息,并确保统计分析结果的准确性,成为一项重大挑战。

以往的分布式计算往往采用“算术平均”或者“最优代表”进行信息聚合,其合理性和最优性没有得到有效保障。为此,研究团队提出了一种基于加权平均法的分布式统计量,并从理论上证明该分布式统计量优良的数理性质和计算性能。

此外,研究团队还考虑了现实场景中数据异质性的存在,构建了基于最优加权策略的分布式统计量及其有效性理论。这一系列研究不仅为分布式计算和联合机器学习提供了关键的理论指引,也为构建高效、安全、可扩展的数据智能系统奠定了基础。

管理决策情境中的大数据常常呈现高度稀疏的特点,并存在数据缺失和不确定性等问题,从而给理论建模和科学决策的准确性带来严峻的挑战。

例如,研究团队从管理决策情境出发,指出数据缺失与用户特征、产品属性等多种因素密切相关,应当为“非随机缺失”,而不是此前假设的“随机缺失”。基于此,研究团队创新性提出了非随机缺失情形下的矩阵填补系列方法。这是一种完全由数据驱动、无需假设缺失机制的填补方法。这种“无模型”的新方法不依赖任何先验信息,即便在缺失机制完全未知的情况下,也能实现高效、准确的缺失值补全。

上述研究成果构建起具有国际影响力的理论和方法体系。同时,研究团队在重点行业和典型企业中开展了成果实践验证和应用示范,充分展现了基础研究对重大产业场景的支撑作用。

《中国科学报》 (2025-04-28 第4版 自然科学基金)
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
地球“极客”勇探火星 新型激光角反射器助力35万公里卫星测距
科学家开发出新型钴硅酸盐沸石催化剂 我国首次实现地月空间卫星激光测距
>>更多
 
一周新闻排行
 
编辑部推荐博文