My Obsidian Blog

❯

❯

❯

DINO Emerging Properties in Self Supervised Vision Transformers

DINO-Emerging Properties in Self-Supervised Vision Transformers

2026年6月22日1分钟阅读

paper-reading
self-supervised-learning
vision-transformer

Paper Card

Problem:

有监督训练的 ViT 目标过窄，限制 ViT 的特征表达。
希望验证 ViT 在 self-supervised learning 情境下能否涌现出更高阶的语义结构特征。

Key Idea: 利用 ViT 进行自监督学习，并研究其表征中是否自然出现可分离的语义区域与更强的语义特征。

Key Trick:

同一输入图像生成多个增强视图 (multi-crop)，student 看所有视图，teacher 只看 global views。
Teacher 输出经过 centering 和 sharpening，并通过 EMA 持续更新。
Student 使用 cross-entropy 对齐 teacher 输出，在不引入负样本的前提下避免 collapse。

Limitation: N/A

Paper Notes

Edit

继续完善这篇笔记

编辑本文快速补充

关系图谱

Paper Card
Paper Notes

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community