联邦奇异值分解技术实现“颠覆”式效率提升—新闻

作者：赵广立来源：中国科学报发布时间：2022/5/31 19:45:42

选择字号：小中大

从两年缩短为两分钟！

联邦奇异值分解技术实现“颠覆”式效率提升

日前，香港科技大学与星云Clustar团队基于掩码的联邦基础构建组件研究被国际计算机协会（ACM）2022年国际数据挖掘与知识发现大会（ACM SIGKDD Conference on Knowledge Discovery and Data Mining ）录用。据了解，该项研究成果FedSVD技术可将奇异值分解效率从全同态方法所需的2年加速到2分钟，实现颠覆式效率提升。

ACM SIGKDD“国际数据挖掘与知识发现大会”是数据挖掘领域历史最悠久、规模最大的国际顶级学术会议，也是首个引入大数据、数据科学、预测分析、众包等概念的会议。

奇异值分解（SVD）是一种广泛使用的矩阵分解技术。利用SVD，可以完成主成分分析（PCA）、线性回归（LR）、潜在语义分析（LSA）等众多的机器学习任务。传统解决方案中的SVD要求将数据集中化存储，而随着社会隐私保护意识的提升以及隐私保护条例的颁布，数据的集中化采集违背了隐私保护的要求，SVD的应用也受到了很大影响。为了保护数据隐私，两种类型的联邦SVD方案被提出：基于差分隐私（DP）的联邦SVD；基于同态加密（HE）的联邦SVD。

据相关负责人介绍，现有联邦SVD方案存在一定缺陷，主要包括：差分隐私（DP）的联邦SVD由于引入了不可以移除的噪声，带来了数据可用性上的损失，例如造成模型准确性下降；基于同态加密（HE）的联邦SVD由于使用了加密技术，加密后的密文比明文膨胀很多倍，造成计算效率很低，无法支持大规模数据。金融数据线性回归、自然语言处理潜在语义分析等SVD实际应用场景都对模型准确性和大规模数据的支持有较高要求。但是，目前没有工作可以同时实现支撑大规模数据和模型无损。

效率问题一直是隐私计算行业的重中之重。业界认为，要解决隐私计算的效率问题，需要结合具体企业、具体业务，进行具体分析，选择最适配的基础构建组件，而不是强行追求统一的方式。隐私计算可信联邦学习的未来是多技术、多方案融合并举的，要选择最能落地的来提升效率。选择对自己最有效率的基础构建组件只是第一步，继续优化和加速这个基础构建组件是第二步。双管齐下，效率才能真正提升。

基于此，香港科技大学联合星云Clustar研究团队提出一种基于掩码的联邦SVD思路。该方案使用了一种专门为SVD设计、可移除的掩码。该掩码可从计算结果中完全移除；同时，加掩码后不会造成数据膨胀，所以可以同时保证效率和无损。

在安全性分析方面，该项研究从理论分析和攻击实验两个角度进行安全性分析，理论分析详情请参考论文，攻击实验结果表明，在参数设置合理时，攻击者无法借助独立主成分分析攻击（ICA Attack，一种在数据库中专门设计用来攻击带随机掩码数据的方法）攻击获取到有效的数据信息。

在性能方面，实验结果表明，FedSVD方案误差比基于差分隐私（DP）的联邦SVD小10个数量级，耗时比基于同态加密（HE）的联邦SVD快超过10000倍。此外，大规模数据试验证明FedSVD方案可以很好地支持10亿以上数据规模的SVD以及主成分分析、线性回归、潜在语义分析三种应用。

相关论文信息：https://doi.org/10.1145/3534678.3539402（会议上线后有效）