近日,中国科学院重庆绿色智能技术研究院研究员闪锟团队利用增强张量分解实现高原湖泊水质时空数据高精度修复,相关成果发布于《环境建模与软件》。
水质在线监测通常依托部署于多个站点的传感器,对pH、溶解氧、氮磷、高锰酸盐指数、叶绿素等多种关键指标进行长期、高频时序采集。然而,传感器可能因设备故障、定期维护、校准或通信中断等原因发生停测,造成数据序列出现大量空白。此外,其还易受生物附着、极端天气和人为干扰等因素影响,产生明显偏离真实值的异常数据或随机噪声。这些问题严重制约了数据分析的准确性,对水质评价、污染溯源和预测预警等工作带来极大挑战。
水质数据天然具备“时间–空间–指标”三个维度,可在信息空间中表征为一个三维张量结构。传统统计学插值方法难以有效利用这种多维关联特性。而张量分解模型能够将三维张量分解为一组低秩矩阵(核心因子)的乘积,分别提取出时间变化模式、空间分布模式和指标关联模式,并藉此实现对缺失值的智能推断。
为更精准地刻画不同水质数据时序特性,团队创新性地将张量分解与偏差校正及智能优化算法相结合,提出了多偏差融合的自适应张量分解模型(DBAL)和多偏差非负张量分解集成模型(DBNE),并在云南高原湖泊滇池的水质在线监测系统上进行了应用与验证。
自研模型在方法层面实现了多项突破。通过对指标施加非负约束,确保修复后的水质参数符合物理现实;融合单线性偏差、预处理偏差和时变感知偏差等多种机制,有效捕捉实际指标长期变化的季节性特征与短期波动规律等;引入差分进化算法,实现模型超参数的自适应优化,大幅提升调参效率。
高原湖泊实验结果表明,在随机缺失和连续缺失等多种情景下,模型对多项水质指标的整体插补精度表现优异,Nash-Sutcliffe 效率系数(NSE)超过0.90,均方根误差(RMSE)和平均绝对误差(MAE)显著优于现有主流模型。同时,模型具备高运行效率,全量数据处理耗时控制在5分钟以内,满足真实场景下模型应用部署需求。
研究团队提出的“张量分解-多偏差校正”框架具有较强的通用性与可迁移性,不仅能修复水质时序传感数据,更可广泛应用于水文水资源、大气污染、土壤环境及生态质量评估等领域,有效重构多种复杂环境要素的缺失数据。
相关论文信息:https://doi.org/10.1016/j.envsoft.2025.106667
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。