作者:李惠钰 来源:中国科学报 发布时间:2025/6/28 11:26:13
选择字号:
中国团队国际首创存算一体排序架构,攻克智能硬件加速难题

 

在智能驾驶中,城市道路上数百个交通参与者的风险排序需控制在毫秒级别;在短视频推荐系统,每天要从亿级视频中快速排序以匹配用户感兴趣的内容;大语言模型训练时,千万级参数的优先级评估更是家常便饭。这些场景都指向一个核心痛点:排序加速。

由北京大学集成电路学院教授杨玉超、人工智能研究院研究员陶耀宇组成的团队,在国际上首次实现了基于存算一体技术的高效排序硬件架构,解决了传统计算架构面对复杂非线性排序问题时计算效率低下的瓶颈问题,将为具身智能、大语言模型、智能驾驶、智慧交通、智慧城市等人工智能(AI)应用提供更高效的算力支持。

6月25日,相关研究成果发表于《自然-电子》。

排序加速:存算一体架构中难啃的“硬骨头”

排序,作为AI系统中最常用、最耗时的基础操作之一,广泛应用于自然语言处理、信息检索、图神经网络、智能决策等领域。

论文通讯作者陶耀宇表示,在传统的冯·诺依曼计算架构中,处理器与存储器分离的特点导致数据被频繁搬运,严重制约了计算速度和系统能效,因此将存储与计算融合的“存算一体”架构是突破硬件性能的必由之路。而排序加速是存算一体架构中难啃的“硬骨头”。

例如,在智能驾驶场景中,车辆在高速公路等简单环境中,只需对周边几台车的行进路线进行排序,就能判断是否会对自身安全产生影响,整个耗时可控制在毫秒级别。但在复杂的城市环境中,风险可能来自周边的数百个乃至更多的各类交通参与者,排序的复杂程度和硬件延迟就会大幅提高。

再比如,在抖音、小红书等短视频平台的大规模检索与推荐系统中,对用户点击、评分、相似度计算后,常需要对海量的候选内容进行快速排序,找出最相关项,因此,排序性能直接影响系统的响应时间和可扩展性。

另外,在大语言模型训练、机器人路径规划、强化学习搜索等场景中,快速评估多个决策或行动的优劣并进行排序,也是必不可少而又极为费时的步骤。

然而,在传统计算架构下,大规模的非线性排序难以在端侧或边缘设备高效完成,这一过程消耗大量时间与功耗,极大制约了具身智能、智能驾驶等新兴技术的发展与普及。

陶耀宇表示,近年来,存算一体已经在矩阵计算等规则性强的数值计算中取得显著成果。然而由于排序存在逻辑复杂、操作非线性、数据访问不规则,缺乏通用、高效的硬件排序原语等诸多障碍,目前国际主流的存算一体架构均无法解决大数据排序问题,这一难题成为了制约下一代AI计算硬件发展的核心卡点问题。

攻克多个核心技术难题

在AI系统中,排序通常作为数据预处理或决策中间环节存在,一旦执行效率不高,将成为整个系统的主要瓶颈。团队围绕“让数据就地排序”的第一性原理目标,在存算一体架构上攻克了多个核心技术难题,实现了排序速度与能效的数量级提升。

据陶耀宇介绍,该工作取得了诸多突破,首先,开发了一套基于新型存内阵列结构的高并行比较机制;第二,开创性地引入“忆阻器阵列”,实现了低延迟、多通路的硬件级并行排序电路设计;第三,在算子层面,优化了面向人工智能任务的算法-架构协同路径,同时兼容现有矩阵计算;第四,完全自主设计的器件-电路-系统级技术栈整合。

论文第一作者、北京大学集成电路学院博士生余连风介绍:“排序的核心是比较运算,需要精准地实现‘条件判断+数据搬移’,在复杂的应用场景中,要对不同因素的优先级进行比较,因此排序的逻辑非常复杂。一般排序过程需要构建支持多级‘比较-选择’的比较器单元,而传统存算一体架构主要面向‘乘加’‘累加’等操作,难以支持这样的复杂运算。我们的工作成功解决了这一难题,设计了一种‘无比较器’的存算一体排序架构。”

实测结果显示,该硬件方案在典型排序任务中速度提升超15倍,面积效率提升超过32倍,具备并行处理百万级数据元素排序任务的潜力,功耗仅为传统CPU或GPU处理器的1/10。在AI推理场景中,支持动态稀疏度下的推理响应速度可提升70%以上,特别适用于要求极高实时性的任务环境。

“正因为排序计算在AI中是高频、通用、基础且极难处理的一类操作,这一难题的突破意味着存算一体从‘适合特定应用’走向‘可支持更广泛的通用计算’,为AI相关任务构建了全链路的底层硬件架构支持。”陶耀宇说。

提高计算效率,打造加速引擎

据悉,该技术可用于智慧交通图像排序系统、金融智能风控评分引擎、边缘监控设备的目标优先识别模块等场景,应用前景广阔。

在相关测试中,该技术展现出高速度与低功耗的显著优势。例如,在智慧交通场景中,系统有望在毫秒级内完成十万级事件优先级评估,为超大规模交通决策、应急响应调度等提供高效的实时算力支持。

当前,随着AI技术正与物理世界加速融合,算力已从“服务算法”演化为“主导能力边界”的战略资源。“存算一体”超高性能排序加速架构的成功突破,不仅是一次架构创新的胜利,更是将科研成果转化为实际应用、服务国家重大战略需求的重要行动。

陶耀宇表示,该成果未来有望广泛应用于国产智能芯片、边缘AI设备、智能制造终端、智慧城市系统等关键领域,为我国在下一代AI技术与智能硬件竞争中提供坚实底座,也为构建安全、高效、自主可控的新一代智能算力体系提供了“加速引擎”。

“根据初步测算,若该技术在智能终端、工业控制、数据中心等核心应用场景中推广,仅在边缘AI芯片市场就可形成百亿元级年产值潜力,大幅提升传统算力系统的性能。更重要的是,在社会层面,该技术有望推动新一代智慧交通、智慧医疗、智能制造、数字政府系统更加高效运行,释放数据价值,助力新质生产力形成”陶耀宇说。

相关论文信息:https://doi.org/10.1038/s41928-025-01405-2

 
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
天关卫星发现新型暂现X射线天体 韦布发现一颗小型气态巨行星
中麦578黄淮海区创大面积实收高产典型 新型催化剂在工业级大电流密度下稳定运行
>>更多
 
一周新闻排行
 
编辑部推荐博文