FCS | 前沿视点：对比自监督学习的一个综合观点—论文

来源： Frontiers of Computer Science 发布时间：2021/8/2 13:46:59

选择字号：小中大

FCS | 前沿视点：对比自监督学习的一个综合观点

论文标题：A comprehensive perspective of contrastive self-supervised learning (对比自监督学习的一个综合观点)

期刊： Frontiers of Computer Science

作者：Songcan CHEN, Chuanxing GENG

发表时间：13 Jul 2021

DOI：10.1007/s11704-021-1900-9

微信链接：点击此处阅读微信文章

导读

本期FCS Perspective栏目，特邀FCS编委、南京航空航天大学陈松灿教授的观点分享——A comprehensive perspective of contrastive self-supervised learning。该文发表在Frontiers of Computer Science期刊2021年第4期。为帮助读者更精准地理解这篇文章，FCS特别邀请本文作者，对该文进行了翻译，以飨读者。

作者简介

陈松灿，南京航空航天大学教授，IAPR Fellow。1983年毕业于杭州大学数学系（现合并浙江大学），1985年在上海交大完成计算机应用硕士学位，于1986年1月在南京航空航天大学工作。1997年获得了通信和信息系统学博士学位。自1998年至今，担任南京航空航天大学计算机科学与技术学院全职教授。研究兴趣包括模式识别、机器学习和神经计算。

Frontiers of Computer Science, 2021, 15(4): 154332

https://doi.org/10.1007/s11704-021-1900-9

对比自监督学习的一个综合观点

陈松灿，耿传兴 | 南京航空航天大学

背景

自监督学习（SSL），作为机器学习领域一种新的无监督表示学习范式，最近得到广泛关注，它也被图灵奖获得者Yann LeCun认为是机器学习的未来[1]。借助预置任务(Pretext Task)提供的免费监督信号，SSL从无标记数据中学习表示，旨在语义关系不可知的下游（监督）任务上表现良好。它通常分为两个阶段：首先借助自动标注的预置任务（为其核心）学习尽可能通用/不变的表示/特征，然后迁移学得的知识到下游任务（为其最终目标）[2]。

作为SSL的核心，已发展出了一系列的预置任务，其中因与儿童认知发展有着天然的契合关系，即都是通过对比形成概念类，使得对比SSL（cSSL）已成为了当前具有压倒性的主流方法。cSSL通常通过对比一幅给定图像不同的低廉变换增广或聚簇分配的隐表示来学习特征表示，这样的cSSL已在某些设置下甚至超越了监督模型。经验上如此优异的性能吸引了众多学者关注。接下来，我们简要回顾cSSL最新进展[4]。

技术层面。cSSL的核心思想是学习一个映射函数，将语义相近的样本对（正样本对）在特征嵌入空间内映射得更紧密（即最大化一致性），同时将相异的样本对（负样本对）尽可能推开。不同的对比策略发展出了不同的cSSL技术。例如，在示例对比层级，MoCo和SimCLR分别采用动量更新机制和大批次来保持足够的负样本对，而BYOL和SimSiam则放弃负样本对，引入预测模块和固定梯度(stop-gradient)技巧来习得好的表示。在聚簇对比层级，SwAV强制同一图像不同增广（或视图）隶属度的一致性。而最近提出的Barlow Twins则从一个新的对比视角最大化由同一图像增广得到互相关矩阵与单位矩阵间的一致性。

理论层面。Arora等[5]表明采用对比学习目标会降低下游监督任务的样本复杂度，而从多视图冗余性视角作考察，Tsai等[6]与Tosh等[7]分别尝试利用信息论和典型相关分析来解释SSL背后所取得的成功。最近，Wang等[8]证明对比损失渐近优化了两个关键性质，即来自正样本对表示的对齐（即，一致性）和超球上特征诱导分布的均匀性。

尽管众多cSSL技术已陆续被提出，但它们的设计目前仍很大程度上基于直觉或启发性，仍缺乏原则性的指导。此外，由于大部分（对比）自监督学习工作关注于第一阶段的预置任务学习，而对第二阶段的“如何有效迁移习得知识到下游（监督）任务（终极目标）”未作同等重视。因此，本文力图以一种综合性观点就这两个阶段给出一些建设性意见。

观点

1.多视图学习方法论引导的预置任务设计

事实上，从多视图视角来看，现有cSSL技术无非是原视图数据进行显式线性或非线性变换生成的多个增广视图数据（即为数据的多视图化），然后最大化原视图数据和增广视图数据间的一致性。这恰好落入多视图学习需遵循的一致性原则[9]。从该视角考察，我们完全可借鉴现有多视图学习原则（即一致性和多样性）来引导预置任务的设计，以进一步提升习得表示的质量。例如，我们可在另一个多视图学习多样性原则的指导下，进一步增强预置任务在设计方面的多样性，具体如下。

（1）变换的多样性。现有方法主要通过各种显式增广变换来增加原视图数据的多样性。尽管已获得相当的表示，但仍存在以下问题：（i）变换的数量（多样性）非常有限;（ii）不清楚如何选择有效的变换。鉴于此，考虑一些隐式变换，

图1. 多视图学习方法论——一致性和多样性引导的预置任务设计. (a), (b), (c)分别从变换、对比形式、预置任务方面展示了预置任务设计的多样性.T1和T2分别表示不同类型的变换。

（如一些具有变换（如旋转）不变性的网络）来绕过上述问题可能是进一步增强增广视图数据多样性一个有希望的方向（图1（a））。此外，我们还可以考虑模型扰动而不是数据变换，以变换模型方式实现增广视图数据的多样性。

（2）对比的多样性。现有cSSL技术要么是示例级对比要么是聚簇级对比或示例与聚簇间对比。考虑到SSL通常对下游任务不可知，因此仅仅考虑单一对比级远不够充分，而更应考虑多级或多粒度形式的对比（图1（b）展示了对比级的多样性），例如综合考虑特征/像素、示例、近邻、聚簇、（全局和局部）分布、属性/语义等层级的对比。当然，一旦掌握了下游任务的先验知识，我们完全可以针对性地选择或设计相应的对比形式。此外，由于对比损失本质上反映了样本成对的二元关系，进一步扩展和构造反映样本三元甚至更多元关系（如排序关系）的损失函数，可能会挖掘出更多有用信息。

（3）预置任务的多样性。对比预置任务反映了样本成对的二元关系，而其他预置任务，如拼图则揭示了样本的内部结构信息，旋转则属于挖掘视图标记信息等，这意味着现有预置任务在某种程度上互补。由于下游任务通常不可知或属于后见之明，为使所学表示尽可能囊括它们的各种需求，启发我们在未来的工作中，应将对比预置任务与其他预置任务实现有效整合，而不仅仅考虑对比预置任务本身。

2.非目标导向的知识迁移

如所知，（对比）预置任务所学知识最终服务于下游任务，但请注意，与传统（目标导向的）迁移学习[10]不同：传统迁移学习在与目标任务具有相似语义的监督源/上游任务中获得可迁移知识，而SSL则面临非目标导向的知识迁移，知识从无监督的预置任务中获得，其语义关系与下游任务不可知。这可类比为如我们人类的通识和专业知识学习，通过尽可能多地学习和存储各类知识武装自己的大脑，但何时和如何运用哪些所学知识取决于手头要完成的任务或拟解的问题。令人惊讶的是，尽管如此，预置任务习得的表示在下游任务上的表现仍然令人印象深刻，尤其是对比预置任务。对此，普遍的共识是预置任务习得了相对通用/不变的表示，因此目前绝大多数方法只是利用预置任务训练的网络作为特征提取器来迁移所学表示。在此，我们想额外强调在迁移所学知识时，一些可能被忽略的方面。

（1）判别信息的迁移。来自预置任务判别信息的迁移也可能是关键因素之一。这是因为：（i）来自数据本身的免费监督信号捕获了数据内在的判别信息；（ii）由于预置任务与下游任务大都同属判别任务，如此获得的判别信息可能也有益于下游任务。请注意，习得的表示虽已暗含了一定判别信息，但未必就是全部，这值得进一步深度挖掘。知识蒸馏是一种手段，其他方法还需进一步探索。

（2）数据和预置任务的偏置或偏向。预置任务使用的数据集与下游任务可能不同，这可能会导致数据偏置或偏向，包括特征分布或标记的漂移。另外，预置任务与下游任务属性的内在差异不可避免地为习得的表示或判别信息引入了预置任务偏置，这些都应在迁移所学知识时加以考虑。

总结

各种证据表明（对比）SSL正在推动计算机视觉（CV）领域中更通用表示学习模型的出现。事实上，不仅在CV领域，OpenAI开发的GPT-3在没有任何人工监督预训练和微调的情况下，在多个自然语言处理（NLP）基准数据集上取得SOTA性能。最近，Facebook AI 提供了一种新的无监督语音识别（SR）体系wav2vec-U，它仅需一个文本转音素系统来生成音素序列，无需任何标记的语音，且其性能直逼完全监督模型。因此，有理由相信SSL将在CV、NLP、SR，甚至它们间的跨模态任务等多方面取得进一步突破。此外，更有趣的是，除了无监督学习领域外，SSL还为其他机器学习领域注入了新的活力，如监督学习、半监督学习等，这似乎预示着SSL能为整个机器学习的进展提供新的助力！

参考文献

1. Hinton G, LeCunn Y, Bengio Y. AAAI’2020 keynotes turing award winners event.

https://www.youtube.com/watch?v=UX8OubxsY8w

2. Jing L, Tian Y. Self-supervised visual feature learning with deep neural networks: a survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, DOI:10.1109/TPAMI.2020.2992393

3. So I. Cognitive development in children: piaget development and learning. Journal of Research in Science Teaching, 1964, 2: 176–186

4. Jaiswal A, Babu A R, Zadeh M Z, Banerjee D, Makedon F. A survey oncontrastive self-supervised learning. Technologies, 2021, 9(1): 2

5. Saunshi N, Plevrakis O, Arora S, Khodak M, Khandeparkar H. A theoretical analysis of contrastive unsupervised representation learning. In:Proceedings of the 36th International Conference on Machine Learning.2019, 5628–5637

6. Tsai Y H H, Wu Y, Salakhutdinov R, Morency L P. Self-supervised learning from a multi-view perspective. In: Proceedings of the 8th International Conference on Learning Representations. 2020

7. Tosh C, Krishnamurthy A, Hsu D. Contrastive learning, multi-view redundancy, and linear models. In: Proceedings of the 32nd International Conference on Algorithmic Learning Theory. 2021, 1179–1206

8. Wang T, Isola P. Understanding contrastive representation learning through alignment and uniformity on the hypersphere. In: Proceedings of the 37th International Conference on Machine Learning. 2020, 9929–9939

9. Wang W, Zhou Z H. Analyzing co-training style algorithms. In: Proceedings of the 18th European Conference on Machine Learning. 2007, 454–465

10. Pan J S, Yang Q. A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 2009, 22(10): 1345–1359

FCS Perspective|观点：强化学习中的异策略评估

FCS Perspective|Thomas G. Dietterich观点：人工智能与人类组织的鲁棒性

Frontiers of Computer Science

Frontiers of Computer Science （FCS）是由教育部主管、高等教育出版社和北京航空航天大学共同主办、SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊，双月刊，全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为周志华教授，共同主编为熊璋教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库（CSCD）核心库等收录，为 CCF 推荐期刊；两次入选“中国科技期刊国际影响力提升计划”；入选“第4届中国国际化精品科技期刊”；入选“中国科技期刊卓越行动计划项目”。

《前沿》系列英文学术期刊

由教育部主管、高等教育出版社主办的《前沿》（Frontiers）系列英文学术期刊，于2006年正式创刊，以网络版和印刷版向全球发行。系列期刊包括基础科学、生命科学、工程技术和人文社会科学四个主题，是我国覆盖学科最广泛的英文学术期刊群，其中13种被SCI收录，其他也被A&HCI、Ei、MEDLINE或相应学科国际权威检索系统收录，具有一定的国际学术影响力。系列期刊采用在线优先出版方式，保证文章以最快速度发表。

高等教育出版社入选“中国科技期刊卓越行动计划”集群化项目。Frontier系列期刊中：13种被SCI收录；1种被A&HCI收录；6种被Ei收录；2种被MEDLINE收录；11种中国科技核心期刊；16种被CSCD收录。

中国学术前沿期刊网

http://journal.hep.com.cn

特别声明：本文转载仅仅是出于传播信息的需要，并不意味着代表本网站观点或证实其内容的真实性；如其他媒体、网站或个人从本网站转载使用，须保留本网站注明的“来源”，并自负版权等法律责任；作者如果不希望被转载或者联系转载稿费等事宜，请与我们接洽。

编辑部推荐博文
基金申请季，这里有2份攻略请查收！科学网2026年1月十佳博文榜单公布！打碗花、打破碗花花、牵牛花、喇叭花，还分不清？寒假港澳之旅：理想和现实盘点2025年在Nature发文Top 10的中国机构温敏性结晶和刻蚀碳布电极构筑高性能液态铜基热电池更多>>