对计算机视觉的基本认知三（表征学习与变换）

张

张建站

2026/6/1 2:32:06

10分钟阅读

计算机视觉表征学习中一条极其根本的线索。不是在对比技术好坏而是在追问一个视觉系统究竟该在多大程度上“记住”变换又在多大程度上“忘记”变换任何视觉任务都可以被重新表述为一种不变性与等变性需求的组合分类要求强不变性。一只猫无论出现在画面何处、何种姿态、何种光照输出标签都必须是“猫”。这时位置、旋转、光照这些变换必须被彻底忘记。检测与分割要求局部等变类别不变。物体平移边界框必须跟着平移位置等变但框内的语义标签仍然是“猫”类别不变。像素位置的精确性必须被记住。姿态估计要求输出空间的严格等变。人体向左转30度输出的骨骼关键点坐标必须也围绕相应轴旋转30度。变换被完整记住并以可预测的方式传递。视觉导航与3D重建要求跨视角的结构化等变。相机移动时特征点在图像上的位置变化必须符合对极几何。此时不仅要记住变换还要记住其三维空间中的群结构。没有哪个单一的不变性或等变性设置可以通吃所有任务。一个表征之所以“好”恰恰是因为它在“记住什么变换忘记什么变换”这个选择题上刚好切中了下游任务的需求。因此这个权衡本身就是定义视觉表征能力的元语言。视觉信号的全部变化本质上都来自物理变换物体的运动、相机的视角、光照的方向、几何形变。一个视觉系统若要对物理世界建模就必须对每一个变换做出一个基本决定这个变换是否影响我关心的语义若不影响我需要不变性彻底忽略它。若影响我需要等变性精确跟踪它。除此以外不存在第三种逻辑可能。你可以部分忽略、部分跟踪但这正是两者在光谱上的内插而不是第三极。因此不变性与等变性是对“系统如何处理变换”这一元问题的完备二分。任何视觉表征本质上就是在所有可能的变换上定义从“完全不变”到“完全等变”的一段偏好曲线。人们常提到的表征学习理想属性仔细解剖会发现它们无不在追求某种特定的不变/等变配置层级化处理从边缘到部件再到物体这并非独立的目标而是实现“局部等变、全局不变”的策略。低级层保持空间等变以编码细节高级层抹去位置信息获得不变性。层级结构只是搭建这条光谱的脚手架。解耦表征将物体的形状、纹理、姿态、光照等因子分开表示。分开之后对每个因子你要么不变、要么等变。解耦本身不是终点终点是让你能方便地只对姿态等变便于操控而对身份不变便于识别。解耦是实现灵活不变/等变控制的手段。稀疏性在稀疏编码年代稀疏性被认为是好表征的核心。但Olshausen与Field的经典工作表明稀疏性之所以产生类V1的感受野是因为它实现了对平移等变换的局部不变性和等变性的折中。稀疏性只是一个统计先验它服务的目标依然是特定不变/等变结构。信息最大化如InfoMax原则要求表征保留尽可能多的输入信息。这相当于要求对所有变换保持等变性什么都不忘记。但单纯的等变表征对分类无用必须在某个瓶颈处转换为不变性。所以信息最大化必须在某些条件下退让于不变性两者总是成对出现。鲁棒性与泛化性说一个表征“对光照鲁棒”实际就是说它对光照变化不变。说它能“泛化到新视角”要么是它对视角变化不变要么是它能等变地外推视角变换。泛化性只是不变/等变性在测试分布上的表现。因此不变/等变是“第一性”的其他属性是“第二性”的。你可以用不变/等变来解释一切但无法用别的概念反过来统摄不变/等变。回溯历史不变/等变这条线索不仅贯穿始终而且每一次突破都是因为找到了一种新的方式来实现更复杂、更灵活的不变/等变平衡手工设计时代SIFT、HOG用固定的局部几何归一化硬编码不变性。优势是明确劣势是等变完全丢失无法做几何推理。CNN时代通过卷积和池化结构性地将平移等变与局部/全局不变嵌入网络。这是首次在可学习框架中同时保留两者。群等变CNN将等变性拓展到旋转、镜像等有限群拓宽了可记住的变换种类。ViT和自注意力放弃结构性等变用数据和位置编码学习在哪里等变、在哪里不变使光谱选择变得连续、自适应。自监督预训练对比学习用增强直接定义不变集掩码建模用重建强行保留等变。任务本身就成了不变/等变的声明书。世界模型和生成式预测未来帧要求模型对相机运动、物体动力学具有精确的等变性同时从中抽象出不变的概念。每一次前进都不是引入了一个和不变/等变无关的新原则而是打破了之前对这种平衡的僵化设定使得平衡本身更动态、更丰富、更贴近物理世界真实的变换结构。这个框架可以解释所有视觉任务的成功与失败为什么分类网络的深层特征用于检测效果差因为深层过度不变丢掉了位置等变。为什么MAE特征做分类稍弱但检测很强因为它保留了过多的空间等变需要经过微调才能将等变转化为语义不变。为什么CLIP对纹理偏见和姿势变化敏感因为它主要追求跨模态语义不变对某些低级几何变换可能既没保留等变也没学会不变。为什么3D视觉需要显式的位姿等变因为空间的本质是运动群必须等变地跟踪它。

Windows 11下UAC3.0音频设备兼容性实测：你的USB声卡为什么没声音？

Windows 11下UAC3.0音频设备兼容性实战指南：从原理到解决方案当你兴奋地将新购入的USB声卡插入Windows 11电脑，却发现系统毫无反应——这不是个例。随着UAC3.0设备的普及，这类兼容性问题正困扰着越来越多的用户。本文将带你深入理解问题根源…...

2026/5/30 14:31:32 阅读更多 →

PPO算法里的GAE到底怎么算？一个PyTorch逆向遍历代码带你彻底搞懂优势估计

PPO算法中的GAE计算：从数学原理到PyTorch逆向遍历实现在强化学习领域，PPO（Proximal Policy Optimization）算法因其出色的性能和稳定性成为当前最受欢迎的算法之一。而其中广义优势估计（Generalized Advantage Estimati…...

2026/5/30 11:28:12 阅读更多 →

品牌内容创新方法论：从流量思维到关系思维，构建反脆弱内容生态

1. 项目概述：一次关于品牌内容创新的深度对话最近和一位在品牌内容领域深耕了十几年的老朋友Thomas Ma聊了聊，感触很深。我们聊的不是那些浮在表面的“品牌应该做短视频还是做直播”的泛泛之谈，而是深入到品牌内容创新的底层逻辑、实操中的真…...

2026/5/31 20:13:17 阅读更多 →

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…...

2026/5/31 0:02:01 阅读更多 →

Lindy路线图前瞻：3个已被验证的信号，预示Q3将启动下一代AI原生平台重构

更多请点击： https://intelliparadigm.com 第一章：Lindy路线图前瞻：3个已被验证的信号，预示Q3将启动下一代AI原生平台重构信号一：核心基础设施层API调用量连续8周突破临界阈值 Lindy平台的 /v2/execute与 /v3/plan端…...

2026/6/1 0:20:41 阅读更多 →

【AI工具智能排行榜TOP10】：2024年实测数据驱动的生产力跃迁指南（仅限本周开放下载）

更多请点击： https://kaifayun.com 第一章：AI工具智能排行榜TOP10的底层逻辑与评估范式 AI工具排行榜并非主观评分的产物，而是由多维可量化指标驱动的系统性工程。其核心在于构建一个兼顾能力广度、推理深度、工程鲁棒性与生态协同性的评估范…...

2026/5/31 0:08:54 阅读更多 →

3步解决博德之门3模组管理难题：BG3ModManager完整使用指南

3步解决博德之门3模组管理难题：BG3ModManager完整使用指南【免费下载链接】BG3ModManager A mod manager for Baldurs Gate 3. This is the only official source! 项目地址: https://gitcode.com/gh_mirrors/bg/BG3ModManager BG3ModManager是专为《博德之…...

2026/5/31 0:17:22 阅读更多 →