来源:Frontiers of Computer Science 发布时间:2026/3/26 10:52:49
选择字号:
FCS 文章精要 | 中国科学院软件所&北京民用航空大数据工程研究中心,AutoCache:面向Spark的在线自动缓存解决方案

论文标题:AutoCache: an online and automatic caching solution for Spark

期刊:Frontiers of Computer Science

作者:Hui LI, Shuping JI, Yang LI, Yujie QIAO, Huayi SUI, Zhen TANG, Wei CHEN, Zheng QIN, Wei WANG, Hua ZHONG, Tao HUANG

发表时间:14 Apr 2025

DOI:10.1007/s11704-025-40776-9

微信链接:点击此处阅读微信文章

引用格式:

Hui LI, Shuping JI, Yang LI, Yujie QIAO, Huayi SUI, Zhen TANG, Wei CHEN, Zheng QIN, Wei WANG, Hua ZHONG, Tao HUANG. AutoCache: an online and automatic caching solution for Spark. Front. Comput. Sci., 2026, 20(5): 2005108

阅读原文:

文章精要

针对内存分布式计算框架Apache Spark缓存问题,中国科学院软件研究所团队撰写了研究论文:AutoCache:面向Spark的在线自动缓存解决方案。

文章旨在提出一种非侵入式的在线自动缓存解决方案。AutoCache无需修改应用代码,通过动态解析Spark应用执行路径及DAG(有向无环图),实时分析数据引用模式,自动识别高频访问的RDD并缓存,同时基于重用距离策略及时释放不再使用的缓存数据,从而显著提升应用性能。

技术步骤

通过扩展Spark的DAGScheduler模块实时追踪RDD的依赖关系、引用次数及缓存状态,构建全局历史图(historyGraph);其次,在Stage执行前动态生成子图(subGraph),结合历史图分析RDD重用概率,筛选未缓存且引用次数大于1的RDD加入待缓存列表(PersistRDDs);进一步,基于RDD的最大ID和引用次数选择高价值缓存对象,并通过默认5个Stage间隔的重用距离(ReuseDistance)策略动态释放低价值缓存;最终,调用Spark原生API在线执行缓存(persist)与释放(unpersist)操作,实现自动化内存管理。

实验结果

大量实验结果表明,基于本文提出的面向Spark的在线自动缓存解决方案,可有效提升在线自动缓存能力。成功修复社区已知缓存问题(如SPARK-29686),并在BigDL、Spark-NLP等流行开源库中发现并修复9个未知缓存缺陷。相比于手动缓存及现有工具,多样化负载中具有更优的性能表现。

统计结果表明,在基于大语言模型的软件缺陷动态检测文献中,移动应用的GUI测试、智能模型的缺陷检测以及协议实现软件的测试占据了显著位置。然而,在使用大语言模型进行软件缺陷静态检测的文献中,其中大部分缺陷检测集中在C/C++、Python和Java项目上。总体而言,大语言模型在软件缺陷检测中覆盖了广泛的软件场景。随着大语言模型的理解和推理能力的持续进步,它们将为绝大多数软件缺陷检测场景提供支持,显著提升这一过程的效率。

期刊简介

Frontiers of Computer Science (FCS)是由教育部主管、高等教育出版社和北京航空航天大学共同主办,南京大学支持,SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊,月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为周志华院士,共同主编为熊璋教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐B类期刊;两次入选“中国科技期刊国际影响力提升计划”;入选“第4届中国国际化精品科技期刊”;两次入选“中国科技期刊卓越行动计划”(一期梯队、二期领军)。

中国学术前沿期刊网

http://journal.hep.com.cn

 
 
 
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
科学家制造出可实时扭曲和控制光的芯片 难以捉摸的“核时钟”有望实现
研究发现大型真菌新物种 研究发现旋转速度快得不可思议的小行星
>>更多
 
一周新闻排行
 
编辑部推荐博文