|
|
|
|
|
FCS 南京大学詹德川等提出新视角,深入探索不同教师模型能力下的暗知识传递机制 |
|
|
论文标题:Exploring dark knowledge under various teacher capacities and addressing capacity mismatch
期刊:Frontiers of Computer Science
作者:Wen-Shu FAN, Xin-Chun LI, De-Chuan ZHAN
发表时间:14 Aug 2025
DOI:10.1007/s11704-025-41434-w
微信链接:点击此处阅读微信文章

引用格式:
Wen-Shu FAN, Xin-Chun LI, De-Chuan ZHAN. Exploring dark knowledge under various teacher capacities and addressing capacity mismatch. Front. Comput. Sci., 2026, 20(6): 2006333
阅读原文:

摘要
知识蒸馏的核心挑战在于如何将大型教师模型的“暗知识”有效传递给轻量化学生模型。南京大学詹德川团队提出“暗知识本质”新视角,将暗知识定义为非正确类别间的区分度。研究发现,虽然不同能力的教师对类别亲和力的认知一致,但性能更强的教师产生的概率向量区分度反而更低,从而导致“能力失配”现象。实验证明,通过调整教师输出的分布特性,可以显著提升蒸馏效率并优于现有的基准算法。

技术步骤
深度学习模型压缩面临一个核心技术痛点:知识蒸馏(KD)在实践中并不总是遵循“教师越强,学生越优”的逻辑。当教师模型与学生模型之间存在巨大的参数量差异时,往往会出现所谓的“能力失配”现象,即性能极佳的大模型反而无法教好小模型。这种现象的核心症结在于,我们对教师模型输出中所谓的“暗知识”究竟包含什么,以及不同规模的教师在提供这些知识时有何差异,仍然缺乏深度的理论认知与实证分析。
为了解决这一难题,南京大学詹德川团队提出了重新审视“暗知识”构成与传递逻辑的研究框架。该研究摒弃了仅关注预测准确率的传统思路,转而将非正确类别之间的预测概率区分度视为知识传递的关键。研究团队通过对不同容量教师模型的逻辑输出(Logits)进行系统对比,发现强教师模型在正确类别上的过度自信会导致非正确类别间的概率趋于平滑,损失了细粒度的类别亲和力信息。为了量化这一过程,团队构建了认知一致性评价体系,揭示了教师规模虽异,但其对类别间语义关联的底层认知具有高度一致性。
研究表明,在 CIFAR-100 和 ImageNet 等数据集上的广泛实验中,通过增强非正确类别间的区分度,可以有效缓解能力失配带来的负面影响。数据显示,调整后的蒸馏策略使得小型学生模型在面对超大规模教师时,依然能够获得显著的精度提升。这一研究不仅从实证角度解释了知识蒸馏失效的深层原因,也为开发更具鲁棒性的模型压缩与知识迁移方案提供了重要的技术路径。
期刊简介
Frontiers of Computer Science (FCS)是由教育部主管、高等教育出版社和北京航空航天大学共同主办,南京大学支持,SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊,月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为周志华院士,共同主编为熊璋教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐B类期刊;两次入选“中国科技期刊国际影响力提升计划”;入选“第4届中国国际化精品科技期刊”;两次入选“中国科技期刊卓越行动计划”(一期梯队、二期领军)。
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。