计算机视觉表征学习中一条极其根本的线索。不是在对比技术好坏而是在追问一个视觉系统究竟该在多大程度上“记住”变换又在多大程度上“忘记”变换任何视觉任务都可以被重新表述为一种不变性与等变性需求的组合分类要求强不变性。一只猫无论出现在画面何处、何种姿态、何种光照输出标签都必须是“猫”。这时位置、旋转、光照这些变换必须被彻底忘记。检测与分割要求局部等变类别不变。物体平移边界框必须跟着平移位置等变但框内的语义标签仍然是“猫”类别不变。像素位置的精确性必须被记住。姿态估计要求输出空间的严格等变。人体向左转30度输出的骨骼关键点坐标必须也围绕相应轴旋转30度。变换被完整记住并以可预测的方式传递。视觉导航与3D重建要求跨视角的结构化等变。相机移动时特征点在图像上的位置变化必须符合对极几何。此时不仅要记住变换还要记住其三维空间中的群结构。没有哪个单一的不变性或等变性设置可以通吃所有任务。一个表征之所以“好”恰恰是因为它在“记住什么变换忘记什么变换”这个选择题上刚好切中了下游任务的需求。因此这个权衡本身就是定义视觉表征能力的元语言。视觉信号的全部变化本质上都来自物理变换物体的运动、相机的视角、光照的方向、几何形变。一个视觉系统若要对物理世界建模就必须对每一个变换做出一个基本决定这个变换是否影响我关心的语义若不影响我需要不变性彻底忽略它。若影响我需要等变性精确跟踪它。除此以外不存在第三种逻辑可能。你可以部分忽略、部分跟踪但这正是两者在光谱上的内插而不是第三极。因此不变性与等变性是对“系统如何处理变换”这一元问题的完备二分。任何视觉表征本质上就是在所有可能的变换上定义从“完全不变”到“完全等变”的一段偏好曲线。人们常提到的表征学习理想属性仔细解剖会发现它们无不在追求某种特定的不变/等变配置层级化处理从边缘到部件再到物体这并非独立的目标而是实现“局部等变、全局不变”的策略。低级层保持空间等变以编码细节高级层抹去位置信息获得不变性。层级结构只是搭建这条光谱的脚手架。解耦表征将物体的形状、纹理、姿态、光照等因子分开表示。分开之后对每个因子你要么不变、要么等变。解耦本身不是终点终点是让你能方便地只对姿态等变便于操控而对身份不变便于识别。解耦是实现灵活不变/等变控制的手段。稀疏性在稀疏编码年代稀疏性被认为是好表征的核心。但Olshausen与Field的经典工作表明稀疏性之所以产生类V1的感受野是因为它实现了对平移等变换的局部不变性和等变性的折中。稀疏性只是一个统计先验它服务的目标依然是特定不变/等变结构。信息最大化如InfoMax原则要求表征保留尽可能多的输入信息。这相当于要求对所有变换保持等变性什么都不忘记。但单纯的等变表征对分类无用必须在某个瓶颈处转换为不变性。所以信息最大化必须在某些条件下退让于不变性两者总是成对出现。鲁棒性与泛化性说一个表征“对光照鲁棒”实际就是说它对光照变化不变。说它能“泛化到新视角”要么是它对视角变化不变要么是它能等变地外推视角变换。泛化性只是不变/等变性在测试分布上的表现。因此不变/等变是“第一性”的其他属性是“第二性”的。你可以用不变/等变来解释一切但无法用别的概念反过来统摄不变/等变。回溯历史不变/等变这条线索不仅贯穿始终而且每一次突破都是因为找到了一种新的方式来实现更复杂、更灵活的不变/等变平衡手工设计时代SIFT、HOG用固定的局部几何归一化硬编码不变性。优势是明确劣势是等变完全丢失无法做几何推理。CNN时代通过卷积和池化结构性地将平移等变与局部/全局不变嵌入网络。这是首次在可学习框架中同时保留两者。群等变CNN将等变性拓展到旋转、镜像等有限群拓宽了可记住的变换种类。ViT和自注意力放弃结构性等变用数据和位置编码学习在哪里等变、在哪里不变使光谱选择变得连续、自适应。自监督预训练对比学习用增强直接定义不变集掩码建模用重建强行保留等变。任务本身就成了不变/等变的声明书。世界模型和生成式预测未来帧要求模型对相机运动、物体动力学具有精确的等变性同时从中抽象出不变的概念。每一次前进都不是引入了一个和不变/等变无关的新原则而是打破了之前对这种平衡的僵化设定使得平衡本身更动态、更丰富、更贴近物理世界真实的变换结构。这个框架可以解释所有视觉任务的成功与失败为什么分类网络的深层特征用于检测效果差因为深层过度不变丢掉了位置等变。为什么MAE特征做分类稍弱但检测很强因为它保留了过多的空间等变需要经过微调才能将等变转化为语义不变。为什么CLIP对纹理偏见和姿势变化敏感因为它主要追求跨模态语义不变对某些低级几何变换可能既没保留等变也没学会不变。为什么3D视觉需要显式的位姿等变因为空间的本质是运动群必须等变地跟踪它。