1. PCA 理论基础与数学原理1.1 PCA 基本思想与几何意义主成分分析(Principal Component Analysis, PCA)是一种基于线性代数的无监督学习方法,其核心目标是通过正交变换将一组可能存在相关性的高维变量转换为一组线性不相关的低维变量,这些新的低维变量被称为主成分。从几何角度来看,PCA 实质上是在高维空间中选择一组新的正交坐标轴(主成分方向),这些轴按照数据方差从大到小排序。几何上,PCA 可被直观理解为一次最优的旋转变换(orthogonal transformation)。这种旋转矩阵由协方差矩阵 Σ 的特征向量构成,而新坐标 y₁、y₂正是第一、第二主成分。这种几何解释深刻揭示了 PCA 的物理意义:它并非简单删除变量,而是通过坐标系重构,将信息 “聚焦” 到少数几个最具判别力的方向上,从而实现信息浓缩与噪声抑制的双重功效。更具体地说,PCA 等价于对原始正交坐标系进行刚体旋转变换(不含平移与缩放),使新坐标轴精准对齐数据椭球体的主轴方向 —— 长轴对应最大方差(第一主成分),次长轴对应次大方差(第二主成分),以此类推;数据点在新坐标系下的坐标即为其在各主成分上的投影值。在主成分分析中,“最重要的方向” 是指能够捕获数据中方差(variance)最大的方向。主成分是按照特征值大小排序的特征向量:第一主成分(PC1)特征值最大,对应变化最大的方向。PCA 提取 “最重要的方向” 的含义,指的是通过数学方法识别数据分布中变化最大的方向,从而降低维度的同时保留尽可能多的信息。1.2 数学推导过程PCA 的数学推导基于严格的优化理论。设原始数据为中心化后的矩阵 X ∈ ℝ^(n×d)(n 为样本数,d 为维度),我们希望找到第一个主成分 w₁ ∈ ℝ^(d×1)(单位向量),满足最大化投影方差的目标函数:max⁡w1Tw1=1Var(Xw1)\max_{\boldsymbol{w}_1^T \boldsymbol{w}_1 = 1} \quad \text{Var}(X \boldsymbol{w}_1)maxw1T​w1​=1​Var(Xw1​)其中方差的计算公式为:Var(Xw1)=1n−1(Xw1)T(Xw1)=1n−1w1TXTXw1\text{Var}(X \boldsymbol{w}_1) = \frac{1}{n - 1} (X \boldsymbol{w}_1)^T (X \boldsymbol{w}_1) = \frac{1}{n - 1} \boldsymbol{w}_1^T X^T X \boldsymbol{w}_1Var(Xw1​)=n−11​(Xw1​)T(Xw1​)=n−11​w1T​XTXw1​这与协方差矩阵 C = (1/(n-1)) X^T X 相关,因此目标函数可简化为:Var(Xw1)=w1TCw1\text{Var}(X \boldsymbol{w}_1) = \boldsymbol{w}_1^T C \boldsymbol{w}_1Var(Xw1​)=