『linear algebra-6』eigenvalue
特征值
本篇是对高等代数中"特征值与特征向量"的定义、定理以及计算方法的速记,不涉及严密的推导证明。
一、特征值与特征向量
什么是简单的"表示矩阵":对角阵 或 分块对角阵
线性变换的特征值与特征向量:设 \(\phi \in \mathcal{L}(\text{V}_\text{K}^n)\),若存在 \(\lambda \in \text{K}\),非零 \(e \in \text{V}\),使得 \(\phi(e) = \lambda e\)
- 特征值:\(\lambda\) 是 \(\phi\) 的特征值
- 特征向量:\(e\) 是 \(\phi\) 对应 \(\lambda\) 的特征向量
- 特征子空间:\(\text{V}_{\lambda} = \{v \in \text{V} \ | \ \phi(v) = \lambda v \} = \{\lambda \ 的特征向量\} \cup \{\textbf{0}\}\)
矩阵的特征值与特征向量:设 \(\text{A} \in \text{M}_n(\text{K})\),若存在 \(\lambda \in \text{K}\),非零 \(\alpha \in \text{K}^n\),使得 \(\text{A} \alpha = \lambda \alpha\)
- 特征值:\(\lambda\) 是 \(\text{A}\) 的特征值
- 特征向量:\(\alpha\) 是 \(\text{A}\) 对应 \(\lambda\) 的特征向量
- 特征子空间:\(\text{V}_\lambda\) 为线性方程组 \((\lambda \text{I} - \text{A}) = 0\) 的解空间
特征值的充要条件:以下四个命题等价
\(\lambda_0\) 是 \(\text{A}\) 的特征值 \(\Leftrightarrow\) 存在非零 \(\alpha\) 使得 \(\text{A}\alpha = \lambda_0 \alpha\) \(\Leftrightarrow\) 线性方程组 \((\lambda \text{I} - \text{A})x = 0\) 存在非零解 \(\Leftrightarrow\) \(|\lambda \text{I} - \text{A}| = 0\)
特征值的几何含义:在某个线性变换 \(\phi\) 下,空间中的某个向量只是做了拉伸操作 \(\lambda\),并没有偏离原先方向
"特征值" 与 "相似矩阵":相似矩阵具有相同的特征值(记重数),\(\text{A} \cong \text{P}^{-1}\text{AP}\)(\(\text{P}\) 可逆)
"特征值" 与 "矩阵":设 \(\text{A}\) 的特征值为 \(\lambda_1, \dots \lambda_n\),则有 \(\sum \lambda_i = \text{tr}(\text{A})\),\(\Pi \ \lambda_i = |\text{A}|\)(\(\text{A}\) 可逆 \(\Leftrightarrow\) 特征值 \(\lambda_i\) 全部不是 0)
求解特征值和特征向量的方法:
求出特征多项式 \(|\lambda \text{I} - \text{A}|\) 的根(计算行列式 \(\Rightarrow\) 分解因式求出 \(\lambda\)),即特征值 \(\lambda_1, \dots, \lambda_n\)
注意:\(\lambda_i\) 里可能有重根,因此要计入重根的数量,保证(可重复)的特征值数量为 \(n\)
对每一个 \(\lambda_i\),求解线性方程组 \((\lambda_i \text{I} - \text{A})x = 0\) 的非零解(由奇异必有非零解),即为 \(\lambda_i\) 对应的特征向量 \(\alpha_i\)
上三角化:设 \(\text{A} \in \text{M}_n(\text{k})\) 的所有特征值都在 \(\text{K}\) 上,则有 \(\text{A}\) 必相似于上(下)三角方阵,且 \(\text{P}^{-1}\text{AP}\) 对角线为 \(\lambda_1, \dots, \lambda_n\)
"特征值" 与 "多项式":设 \(f\) 为 \(n\) 次多项式,\(\text{A}\) 的特征值为 \(\lambda_1, \dots ,\lambda_n\),则有 \(f(\text{A})\) 的特征值为 \(f(\lambda_1), \dots, f(\lambda_n)\)
"特征值" 与 "矩阵运算":
- "特征值" 与 "逆阵":设可逆 \(\text{A}\) 的特征值为 \(\lambda_1, \dots, \lambda_n\),则有 \(\text{A}^{-1}\) 的特征值为 \(\lambda_1^{-1}, \dots ,\lambda_n^{-1}\)
- "特征值" 与 "数乘":设 \(\text{A}\) 的特征值为 \(\lambda_1, \dots, \lambda_n\),则有 \(k\text{A}\) 的特征值为 \(k\lambda_1, \dots, k\lambda_n\)
- 转置不改变矩阵的特征值
二、可对角化
线性变换与矩阵的可对角化:"可对角化"是指线性变换 \(\phi\) 在某组基下 \(\{e_i\}_{1\dots n}\) 的表示矩阵为对角阵 \(\text{diag}(\lambda_1, \dots, \lambda_n)\)
- 线性变换可对角化:设 \(\phi \in \mathcal{L}(\text{V}_V^n)\),则 \(\phi\) 可对角化 \(\Leftrightarrow\) \(\phi\) 有 \(n\) 个线性无关的特征向量
- 矩阵可对角化:设 \(\text{A} \in \text{M}_n(\text{K})\),则 \(\text{A}\) 可对角化 \(\Leftrightarrow\) \(\text{A}\) 有 \(n\) 个线性无关的特征向量,即存在可逆 \(\text{P}\),使 \(\text{P}^{-1}\text{AP}\) 为对角阵
特征子空间存在直和:设 \(\phi\) 有 \(k\) 个不同的特征值,\(\text{V}_i\) 是特征值 \(\lambda_i\) 对应的特征子空间,则有 \(\sum_{i=1}^k \text{V}_i = \bigoplus_{i=1}^k \text{V}_i\)
"可对角化" 与 "直和":\(\phi\) 可对角化 \(\Leftrightarrow\) 全空间 \(\text{V} = \bigoplus_{i=1}^k \text{V}_i\)
"特征值" 与 "线性相关":属于不同特征值(\(\lambda_{1\dots k}\))的特征向量必然线性无关
"特征值" 与 "可对角化":若 \(\phi\) 有 \(n\) 个不同的特征值(\(n\) 个不同的特征值 \(\Rightarrow\) \(n\) 个线性无关特征向量),则有 \(\phi\) 必然可对角化
"代数重数" 与 "几何重数":设 \(\lambda_0\) 是 \(\phi\) 的一个特征值,\(\text{V}_0\) 是属于 \(\lambda_0\) 的特征子空间
- 代数重数:\(\phi\) 的特征多项式中 根\(\lambda_0\) 的重数
- 几何重数:即 \(\dim(\text{V}_0)\)
且总有重要关系:对于任意特征值,"几何重数" \(\le\) "代数重数",即 特征子空间的维数 \(\le\) 特征值的次数
利用两个重数判断可对角化:设 \(\phi\) 的第 \(i\) 个代数重数为 \(m_i\),第 \(i\) 个几何重数为 \(t_i\)
则有 \(\forall \ 1 \le i \le k\) ,\(m_i = t_i\) \(\Leftrightarrow\) \(\phi\) 可对角化
\(\text{Cayley-Hamilton}\) 定理:
- 几何形式:设 \(\phi \in \mathcal{L}(\text{V}_\text{K}^n)\),\(f\) 是 \(\phi\) 的特征多项式,则有 \(f(\phi) = \textbf{0}\)
- 代数形式:设 \(\text{A} \in \text{M}_n(\text{K})\),\(f\) 是 \(\text{A}\) 的特征多项式,则有 \(f(\text{A}) = \textbf{O}\)
三、实对称阵的对角化
实对称阵的特征值:实对称矩阵的所有特征值都是实数
实对称矩阵的正交性:实对称矩阵对应于不同特征值的特征向量都是正交的(比"线性无关"更强)
实对称矩阵一定可以对角化:设 \(\text{A}\) 是实对称矩阵,存在 \(n\) 阶正交阵 \(\text{T}\),使得 \(\text{T}^{-1}\text{AT} = \text{diag}(\lambda_1, \dots, \lambda_n)\)
求解实对称矩阵对角化:设 \(\text{A}\) 是 \(n\) 阶实对称矩阵,求解正交阵 \(\text{T}\),使 \(\text{A} \cong \text{diag}(\lambda_1, \dots, \lambda)\)
- 求解 \(|\lambda\text{I} - \text{A}| = \Pi_{i}^k(\lambda - \lambda_i)^{r_i} = 0\),得到全部 \(k\) 个互不相同的特征值 \(\lambda_{1\dots k}\)
- 由 \(\text{A}\) 可对角化,\(r_i\) 重特征值一定对应 \(r_i\) 个线性无关的特征向量(代数重数 = 几何重数)
- 利用 \(\text{Schmidt}\) 正交化,将每个特征值对应的 \(r_i\) 个特征向量进行正交化、单位化
- 将化得的 \(n\) 个相互正交的特征列向量拼成一个 \(n\) 阶方阵,即为正交阵 \(\text{T}\)
上述算法常被使用于求解二次型 \(x^T\text{A}x\) 的合同标准型
注意:最终计算的对角阵 \(\text{diag}(\lambda_1, \dots, \lambda_n)\) 中 \(\lambda_i\) 的排布方式要遵从 \(\text{T}\) 中正交化特征向量对应的排布顺序
四、\(\text{Jordan}\) 标准型
\(\text{Jordan}\) 型矩阵:一种特殊的分块对角阵,记作 \(\text{J}\),形式如下: \[ \text{J} = \begin{bmatrix} \text{J}_1(\lambda_1) & & & \\ & \text{J}_2(\lambda_2) & & \\ & & \ddots & \\ & & & \text{J}_s(\lambda_s) \end{bmatrix} \] 其中小方阵 \(\text{J}_i\) 称为 \(\text{Jordan}\) 块,形式如下: \[ \text{J}_i(\lambda_i) = \begin{bmatrix} \lambda_i & 1 & & \\ & \lambda_i & \ddots & \\ & & \ddots & 1 \\ & & & \lambda_i \end{bmatrix} \quad \text{where }i = 1, \dots, s \]
其中 \(\lambda_i\) 可能等于 \(\lambda_j\),即允许各约当块对应的特征值取值相等
注意:当 \(\text{A}\) 的线性无关特征向量个数 \(< n\) 时(无法对角化),总有 \(\text{A}\) 相似于 \(\text{J}\),即对角化的推广情形
\(\text{Jordan}\) 标准型:与 \(\text{A}\) 相似的 \(\text{Jordan}\) 型矩阵 \(\text{P}^{-1}\text{AP}\) ;其中 \(\lambda_i\) 都是 \(\text{A}\) 的特征值,但 \(\text{P}\) 中列向量不全是 \(\text{A}\) 的特征向量
\(\lambda\) 矩阵:若 \(\text{A}=(a_{ij})_{n\times n}\) 的元素 \(a_{ij}\) 是关于 \(\lambda\) 的多项式,则称 \(\text{A}\) 是 \(\lambda\) 矩阵,记作 \(\text{A}(\lambda)\)
\(\lambda\) 矩阵的初等变换:与普通矩阵类似,同样有 3 类初等变换
- 第一类初等变换:矩阵的某两行(列)调换顺序
- 第二类初等变换:矩阵的某一行(列)乘以非零常数
- 第三类初等变换:矩阵的某一行(列)乘以多项式 \(\phi(\lambda)\) 后累加到另一行(列)
若 \(\text{A}(\lambda)\) 可经过初等变换得到 \(\text{B}(\lambda)\),则称 \(\text{A}\) 和 \(\text{B}\) 相抵,记作 \(\text{A}(\lambda) \sim \text{B}(\lambda)\)
特征矩阵的相抵标准型:\(\text{A}\) 的特征矩阵 \(\text{A}(\lambda) = \lambda \text{I} - \text{A}\) 相抵于由 不变因子 构成的对角阵,形式如下 \[ \text{A}(\lambda) = \lambda\text{I} - \text{A} \sim \begin{bmatrix} d_1(\lambda) & & & \\ & d_2(\lambda) & & \\ & & \ddots & \\ & & & d_n(\lambda) \end{bmatrix} \] 其中 \(d_i(\lambda)\) 称作 \(\lambda \text{I} - \text{A}\) 的不变因子,其主要满足以下两条性质:
- \(d_i(\lambda)\) 均为首一多项式(\(\lambda\) 的最高次项系数为 \(1\))
- 整除关系:\(d_i(\lambda) \ | \ d_{i+1}(\lambda)\),即 \(d_{i+1}(\lambda) = q_i(\lambda) d_{i}(\lambda)\)(\(q_i\) 也是关于 \(\lambda\) 的多项式)
初等因子:每一个次数 \(\ge 1\) 的不变因子都可以分解为若干一次因式幂的乘积,该乘积也叫"初等因子"
比如不变因子 \(d_i(\lambda) = (\lambda - 1)(\lambda - 3)^2(\lambda - 2)^3\) 的初等因子分别为 \((\lambda - 1), (\lambda - 3)^2, (\lambda - 2)^3\)
\(\text{Jordan}\) 分解定理:若 \(n\) 阶 \(\text{A}\) 的特征矩阵 \(\lambda \text{I} - \text{A}\) 的初等因子为 \((\lambda - \lambda_1)^{m_1}, \dots, (\lambda - \lambda_k)^{m_k}\),其中 \(\sum_{i=1}^k m_i = n\)
则 \(\text{A}\) 与其 \(\text{Jordan}\) 标准型相似,即 \(\text{A} \simeq \text{P}^{-1}\text{AP} = \text{diag}(\text{J}_1(\lambda_1), \dots, \text{J}_k(\lambda_k))\),其中 \(\text{P}\) 是可逆阵
注意:\(k\) 个 \(\text{Jordan}\) 块对应 \(\text{A}\) 的 \(k\) 个线性无关的特征向量,\(k \le n\)
"\(\text{Jordan}\) 标准型" 与 "两个重数"
- 代数重数:以 \(\lambda_i\) 为特征值的 \(\text{Jordan}\) 块的阶数之和 \(= \lambda_i\) 的代数重数
- 几何重数:以 \(\lambda_i\) 为特征值的 \(\text{Jordan}\) 块的块数 $= _i $ 的几何重数
一般情况下 "块数" < "阶数之和";当 "块数" = "阶数之和" 时,代数重数 = 几何重数,说明可以对角化了