Paper Card

Problem:

  1. 有监督训练的 ViT 目标过窄,限制 ViT 的特征表达。
  2. 希望验证 ViT 在 self-supervised learning 情境下能否涌现出更高阶的语义结构特征。

Key Idea: 利用 ViT 进行自监督学习,并研究其表征中是否自然出现可分离的语义区域与更强的语义特征。

Key Trick:

  1. 同一输入图像生成多个增强视图 (multi-crop),student 看所有视图,teacher 只看 global views。
  2. Teacher 输出经过 centering 和 sharpening,并通过 EMA 持续更新。
  3. Student 使用 cross-entropy 对齐 teacher 输出,在不引入负样本的前提下避免 collapse。

Limitation: N/A


Paper Notes