特殊矩阵
简化计算:
对角矩阵:
三角矩阵:
解释结构与性质:
对称矩阵:
正定矩阵:
正交矩阵及其良好性质:
若矩阵\(A\)是正交矩阵,则\(A^{-1}=A\).
一个方阵 \(A \in \mathbb{C}^{n \times n}\) 被称为 Hermitian 矩阵,如果它等于自身的共轭转置: $\(A = A^H \quad (即 \ A = \overline{A}^T)\)$ 用元素表示即:\(a_{ij} = \overline{a_{ji}}\)。
初等推论: 1. 主对角线元素必为实数:因为 \(a_{ii} = \overline{a_{ii}}\),只有实数满足此条件。 2. 实对称阵是特例:如果 \(A\) 的元素全是实数,那么 \(A^H = A^T\),此时 Hermitian 矩阵等价于实对称矩阵。
特征值的实数性
结论: Hermitian 矩阵的所有特征值均为实数。 * 初等证明思路: 设 \(\lambda\) 是 \(A\) 的特征值,\(x\) 是对应的特征向量(\(x \neq 0\))。 由 \(Ax = \lambda x\),两边左乘 \(x^H\) 得:\(x^H Ax = \lambda x^H x\)。 对等式两边取共轭转置:\((x^H Ax)^H = (\lambda x^H x)^H \implies x^H A^H x = \bar{\lambda} x^H x\)。 因为 \(A^H = A\),所以 \(x^H Ax = \bar{\lambda} x^H x\)。 从而 \(\lambda (x^H x) = \bar{\lambda} (x^H x)\)。由于 \(x^H x = \|x\|_2^2 > 0\),必有 \(\lambda = \bar{\lambda}\),即 \(\lambda \in \mathbb{R}\)。
特征向量的正交性
结论: 属于不同特征值的特征向量必然正交。 * 这意味着我们可以找到一组标准正交基,由 \(A\) 的特征向量组成。
谱分解(对角化)
结论: 每一个 Hermitian 矩阵都可以被酉对角化。 存在酉矩阵 \(U\)(满足 \(U^H U = I\))和实对角阵 \(\Lambda\),使得: $\(A = U \Lambda U^H\)$ 即 \(A = \sum_{i=1}^n \lambda_i u_i u_i^H\),其中 \(u_i\) 是 \(A\) 的标准正交特征向量。
矩阵分析与泛函性质
瑞利商
对于 Hermitian 矩阵 \(A\),其瑞利商定义为: $\(R(A, x) = \frac{x^H Ax}{x^H x}, \quad x \neq 0\)$ * 性质:\(R(A, x)\) 的取值范围恰好是 \([ \lambda_{\min}, \lambda_{\max} ]\)。 * 这意味着特征值可以通过变分方法(求极值)来定义,而非仅仅通过特征方程。
Hermitian矩阵对应的二次型 \(f(x) = x^H Ax\) 总是实数。 根据特征值正负情况,可分为:
- 正定 (Positive Definite):所有 \(\lambda_i > 0\)。
- 半正定:所有 \(\lambda_i \geq 0\)。
在处理 Hermitian 矩阵时,有两个非常有用的进阶结论值得掌握:
柯西交错定理
设 \(A\) 是 \(n\) 阶 Hermitian 矩阵,其特征值为 \(\lambda_1 \leq \lambda_2 \leq \dots \leq \lambda_n\)。 若 \(B\) 是从 \(A\) 中删去一行及对应一列得到的 \(n-1\) 阶子阵,其特征值为 \(\mu_1 \leq \mu_2 \leq \dots \leq \mu_{n-1}\)。 则特征值满足交错关系: $\(\lambda_1 \leq \mu_1 \leq \lambda_2 \leq \mu_2 \leq \dots \leq \mu_{n-1} \leq \lambda_n\)$ * 物理意义:这在扰动分析和子系统研究中极其重要。它告诉我们,移除系统的一个维度(投影)会使特征值向中间收缩。
极小极大定理
特征值不仅是瑞利商的极值,还可以通过下面的方式定义: $\(\lambda_k = \min_{\dim(V)=k} \max_{0 \neq x \in V} \frac{x^H Ax}{x^H x}\)$ * 这个定理允许我们在不知道特征向量的具体形式时,通过子空间的搜索来估计第 \(k\) 个特征值的范围。
与奇异值 (SVD) 的关系
对于 Hermitian 矩阵 \(A\),其奇异值 \(\sigma_i\) 等于特征值绝对值的降序排列: $\(\sigma_i = |\lambda_i|\)$ 这使得 Hermitian 矩阵在很多算法(如 PCA 或矩阵压缩)中处理起来比非对称矩阵简单得多,因为其结构极其稳固且具有完美的对称美感。
三角矩阵的特征值是其对角线上的元素值
非奇异上三角矩阵的逆矩阵为上三角矩阵
正定Hermite矩阵\(A\)可以分解为\(A=T^HDT\),其中\(T\)为上三角矩阵,为\(D\)实对角矩阵。
LU分解(LU Decomposition)是线性代数中一种将方阵分解为一个下三角矩阵(Lower triangular)和一个上三角矩阵(Upper triangular)乘积的技术。
它是计算机求解线性方程组、计算行列式以及矩阵求逆的核心底层算法。
LU分解:设 \(A\) 是一个 \(n \times n\) 的方阵,若能找到:
\(L\):对角线元素全为 1 的单位下三角矩阵;\(U\):上三角矩阵
使得:\(A = LU\)
写成矩阵形式: $$ \begin{bmatrix} a_{11} & a_{12} & a_{13} \ a_{21} & a_{22} & a_{23} \ a_{31} & a_{32} & a_{33} \end{bmatrix} = \begin{bmatrix} 1 & 0 & 0 \ l_{21} & 1 & 0 \ l_{31} & l_{32} & 1 \end{bmatrix} \begin{bmatrix} u_{11} & u_{12} & u_{13} \ 0 & u_{22} & u_{23} \ 0 & 0 & u_{33} \end{bmatrix} $$
LU 分解本质上是对高斯消元法过程的记录。 * \(U\) 矩阵:是高斯消去法结束后得到的行阶梯形矩阵。 * \(L\) 矩阵:记录了消元过程中所做的行变换操作。其元素 \(l_{ij}\) 恰好是消去第 \(i\) 行第 \(j\) 列元素时所使用的倍数。
LU 分解的用途
(1) 求解线性方程组 \(Ax = b\)
有了 \(LU\) 分解,原方程变为 \(LUx = b\)。分两步走: 1. 前向替换:令 \(Ux = y\),解 \(Ly = b\)。由于 \(L\) 是下三角,\(y_1\) 可以直接得出,进而带入求 \(y_2, \dots\),计算量极小。 2. 后向替换:解 \(Ux = y\)。由于 \(U\) 是上三角,从底向上即可逐一解出 \(x\)。 优势:如果有多个不同的 \(b\)(右端项),我们只需要做一次昂贵的 \(LU\) 分解(\(O(n^3)\)),剩下的求解过程非常快(\(O(n^2)\))。
(2) 求行列式
由于 \(\det(A) = \det(L) \cdot \det(U)\),且三角矩阵的行列式等于对角元的乘积: $\(\det(A) = 1 \times 1 \times \dots \times (u_{11} \cdot u_{22} \dots u_{nn}) = \prod u_{ii}\)$ 这比按代数余子式展开要快得多。
并不是所有方阵都有 LU 分解。方阵 \(A\) 有唯一 LU 分解的充要条件是其所有的顺序主子式均不为 0。 如果在消元过程中遇到了主元(diagonal element)为 0 的情况,高斯消去法就必须交换行。
为了解决主元为 0 或为了数值稳定性(防止主元太小导致舍入误差放大),计算机通常使用 \(PLU\) 分解:
$\(PA = LU\)$
其中 \(P\) 是一个置换矩阵(Permutation Matrix),它记录了消元过程中行的交换。这是 Matlab、NumPy 等软件中 lu() 函数实际执行的算法。
3. 与 \(T^H DT\) 的联系
回顾你之前问到的 \(A = T^H D T\): * 如果 \(A\) 是 Hermite 正定矩阵,那么它的 \(LU\) 分解中,\(U\) 的行和 \(L\) 的列是对称的。 * 我们可以把 \(U\) 里的对角元提出来提取成 \(D\),此时 \(A = L D L^H\)。 * 所以,\(T^H DT\)(或 \(LDL^H\))其实就是 LU 分解在对称/Hermite 矩阵下的特殊且优化的形式。
此命题实际上是在描述正定矩阵的 \(LDL^H\) 分解(在 \(T\) 为单位对角矩阵的情况下)。既然 \(A\) 是正定矩阵(Positive Definite),其性质保证了分解的稳定性与存在性。
证明
1. 预备结论:LU 分解的存在性 对于正定矩阵 \(A\),其所有的顺序主子式均大于 0(Sylvester 准则)。根据线性代数基本定理,若一个矩阵的所有顺序主子式均非零,则它存在唯一的 \(LU\) 分解,其中 \(L\) 为单位下三角矩阵(对角线全为 1),\(U\) 为上三角矩阵。 故可设: $\(A = L U\)$
2. 提取对角项 令 \(D\) 为 \(U\) 的对角元构成的对角矩阵,即 \(D = \text{diag}(u_{11}, u_{22}, \dots, u_{nn})\)。由于 \(A\) 正定,其顺序主子式 \(\det(A_k) = u_{11} \dots u_{kk} > 0\),因此 \(D\) 的所有对角元 \(u_{ii} > 0\),即 \(D\) 为实正定对角阵。 我们可以将 \(U\) 进一步分解为 \(U = D \tilde{T}\),其中 \(\tilde{T}\) 是单位上三角矩阵。此时: $\(A = L D \tilde{T}\)$
3. 利用 Hermite 性质 由于 \(A\) 是 Hermite 矩阵,满足 \(A = A^H\)。代入上式得: $\(L D \tilde{T} = (L D \tilde{T})^H = \tilde{T}^H D^H L^H\)$ 由于 \(D\) 是实对角阵,故 \(D^H = D\)。于是: $\(L D \tilde{T} = \tilde{T}^H D L^H\)$
4. 唯一性引理 在线性代数中,如果一个矩阵能够分解为“单位下三角 \(\times\) 对角阵 \(\times\) 单位上三角”,在对角阵元均非零的情况下,这种分解是唯一的。 在等式 \(L(D \tilde{T}) = \tilde{T}^H (D L^H)\) 中: * 左侧的 \(L\) 是单位下三角矩阵,右侧的 \(\tilde{T}^H\) 也是单位下三角矩阵。 * 左侧的 \(\tilde{T}\) 是单位上三角矩阵,右侧的 \(L^H\) 也是单位上三角矩阵。 根据分解的唯一性,必有: $\(L = \tilde{T}^H \quad \text{且} \quad \tilde{T} = L^H\)$ 记 \(T = \tilde{T} = L^H\),显然由于 \(L\) 是下三角,则 \(T\) 是上三角。
5. 结论 代回原式得: $\(A = T^H D T\)$ 其中 \(T\) 为单位上三角矩阵,\(D\) 为实对角矩阵。证毕。
数理拓展:从 \(T^H DT\) 到 Cholesky 分解
这个结论在计算数学中极其实用。我们可以进一步拓展出几个关键结论:
1. Cholesky 分解(平方根分解)
由于 \(D\) 的对角元 \(d_{ii} > 0\),我们可以定义 \(\sqrt{D} = \text{diag}(\sqrt{d_{11}}, \dots, \sqrt{d_{nn}})\)。 令 \(R = \sqrt{D} T\),由于上三角矩阵的乘积仍为上三角,故 \(R\) 也是上三角矩阵。 则原式变为: $\(A = T^H \sqrt{D} \sqrt{D} T = ( \sqrt{D} T )^H ( \sqrt{D} T ) = R^H R\)$ 这就是著名的 Cholesky 分解。它说明任何正定矩阵都可以看作是某个上三角矩阵的“模平方”。
2. 与高斯消去法的联系
在实际计算中,找出这些矩阵的过程本质上就是不换行的高斯消去法。\(D\) 的元素实际上就是消元过程中的主元(Pivots)。
3. 惯性定理(Sylvester's Law of Inertia)
虽然我们这里讨论的是正定矩阵(特征值全为正),但对于一般的 Hermite 矩阵 \(A\),依然可以做类似的分解 \(A = T^H D T\)(只要主子式不为 0)。 结论:\(D\) 中正元素的个数和负元素的个数,分别等于 \(A\) 的正特征值和负特征值的个数。这告诉我们,这种三角分解保持了矩阵的惯性(Inertia),即特征值的符号分布不变。
4. 几何解释:椭球的变换
如果把 \(x^H A x = 1\) 看作高维空间中的一个椭球面。\(A = T^H D T\) 的分解意味着:任何一个椭球都可以通过一个剪切变换(Shear transformation,\(T\) 矩阵的作用)变成一个标准的主轴对齐的椭球(\(D\) 矩阵对应的形式)。由于 \(T\) 是单位上三角矩阵,它的行列式为 1,这意味着这种剪切变换是极其特殊的——它是保体积的。
这是一个非常精彩的直觉。正定 Hermite 矩阵 \(A\) 的 \(T^H D T\) 分解(及 Cholesky 分解)与 奇异值分解 (SVD) 之间存在深刻的内在联系,但它们从完全不同的角度描述了矩阵的结构。
我们可以从以下几个维度来看待它们的关系:
对于正定矩阵:SVD 退化为特征值分解 (EVD)
首先,对于一个正定 Hermite 矩阵 \(A\),它的奇异值分解有一个特殊的简化: * 奇异值分解:\(A = U \Sigma V^H\) * 特征值分解:\(A = Q \Lambda Q^H\)(其中 \(Q\) 是酉矩阵,\(\Lambda\) 是特征值对角阵)
因为 \(A\) 是正定的,它的特征值 \(\lambda_i\) 全部为正实数且等于其奇异值 \(\sigma_i\)。此时,\(U = V = Q\)。 所以对正定矩阵而言,SVD 本质上就是找主轴方向(旋转),而 \(T^H D T\) 是在找消元路径(剪切)。
2. 几何变换的视角:旋转 vs. 剪切
这是两者最直观的区别:
-
SVD (\(A = Q \Lambda Q^H\)): 它告诉我们:任何椭球体都可以通过旋转(\(Q^H\) 将观测轴对齐到椭球主轴)、缩放(\(\Lambda\) 改变各轴长度)再旋转回原位(\(Q\))来表示。 核心工具是:旋转(归一化后的正交基)。
-
LDL 分解 (\(A = T^H D T\)): 它告诉我们:同样的椭球体也可以通过一套剪切变换(\(T\) 是单位上三角,代表一系列不改变体积的横向平移组合)和缩放(\(D\))来表示。 核心工具是:高斯消去(剪切力)。
3. 数值的“平方根”联系
对于一个一般的非奇异长方矩阵 \(M\)(不一定是对称或正定的),SVD 与 Cholesky 有一个直接的转化桥梁:
考虑构造正定矩阵 \(A = M^H M\): 1. 从 SVD 出发: 若 \(M = U\Sigma V^H\),则 \(A = (V \Sigma U^H)(U \Sigma V^H) = V \Sigma^2 V^H\)。 这说明 \(A\) 的特征值是 \(M\) 奇异值的平方,且 \(A\) 的特征向量矩阵 \(V\) 就是 \(M\) 的右奇异向量。 2. 从 Cholesky/LDL 出发: \(A = R^H R\) (其中 \(R\) 即我们之前推导的 \(\sqrt{D}T\))。 在数值计算中,如果你想求 \(M\) 的奇异值,直接计算 \(M^H M\) 的特征值往往会损失精度。一种更稳健的方法是通过 QR 分解。
4. QR 分解:两者的中间人
这里引入一个拓展结论:QR 分解是将两者串联的关键。 对于一般矩阵 \(M\): * \(M = QR\) (\(Q\) 是正交阵,\(R\) 是上三角阵)。 * 那么 \(M^H M = (R^H Q^H)(QR) = R^H R\)。
你会发现,\(M\) 的 QR 分解中的 \(R\),本质上就是 \(M^H M\) 的 Cholesky 分解中的那个上三角矩阵 \(T\)。
数理总结与拓展:计算效率与稳定性
在工程应用中,这两者的选择体现了“精度”与“速度”的权衡:
-
计算复杂度:
- \(T^H DT\) (Cholesky):约 \(n^3/3\) 次运算,速度极快。常用于最小二乘法的正规方程组求解。
- SVD:约 \(O(n^3)\) 次运算,但常数项大得多(通常快慢相差一个数量级)。
-
数值稳定性(条件数):
- \(T^H DT\) 对矩阵的性质比较敏感。如果矩阵接近奇异(即有的奇异值极小),消元过程中的主元 \(D\) 可能会变得非常不稳定。
- SVD 则是数值计算中最稳定的工具。它能清晰地告诉你矩阵的“有效秩”,即哪些维度是真实的,哪些只是噪声。
以下是为您整理的 Markdown 格式内容,数学公式部分采用了标准的 LaTeX 语法(支持 MathJax/KaTeX 渲染):
Vandermonde 矩阵与 Fourier 矩阵
在工程应用中经常会遇到每行元素组成一个等比序列的特殊矩阵,这就是 Vandermonde 矩阵。Vandermonde 矩阵的形式是:
性质: * \(A^T\) 也是 Vandermonde 矩阵。 * 当 \(A\) 的 \(n\) 个参数 \(x_1, x_2, \dots, x_n\) 都不相同时,Vandermonde 矩阵是行满秩的。
Vandermonde 矩阵的行列式
Vandermonde 矩阵的行列式,从阶为 2 和 3 开始推导:
2阶情况
3阶情况
大胆猜测(数学归纳法):
Vandermonde 矩阵的应用:内插问题
Vandermonde 矩阵常见于数值分析的内插 (interpolation) 问题。 给出 \(n\) 个资料点 \((x_i, y_i), i = 1, 2, \dots, n\), 求 \((n-1)\) 次多项式:
满足: $$ \begin{aligned} p(x_1) &= a_0 + a_1x_1 + \dots + a_{n-1}x_1^{n-1} = y_1 \ p(x_2) &= a_0 + a_1x_2 + \dots + a_{n-1}x_2^{n-1} = y_2 \ &\vdots \ p(x_n) &= a_0 + a_1x_n + \dots + a_{n-1}x_n^{n-1} = y_n \end{aligned} $$
将上面的线性方程组写为矩阵形式 \(A\mathbf{a} = \mathbf{y}\),其中 \(A\) 为 \(n \times n\) 阶 Vandermonde 矩阵。内插问题就是要解出系数向量 \(\mathbf{a} = [a_0 \ a_1 \ \dots \ a_{n-1}]^T\)。
结论: 如果 \(n\) 个参数 \(x_1, x_2, \dots, x_n\) 彼此相异,推知 \(\det A_n \neq 0\),则 \(A\) 是可逆的,方程式必定存在唯一解。
Vandermonde 矩阵应用:扩展 Prony 方法
例 2.1 (扩展 Prony 方法): 在谐波恢复的扩展 Prony 方法中,信号模型假定是一组 \(p\) 个指数函数的叠加,这组指数函数有任意的幅值、相位、频率和阻尼因子。于是离散时间的数学模型是:
被用作拟合观测数据 \(x_1, x_2, \dots, x_{N-1}\) 的数学模型。通常假定 \(b_i\) 和 \(z_i\) 为复数,并且:
参数含义: * \(A_i\):幅值 * \(\theta_i\):相位 (rad) * \(\alpha_i\):阻尼因子 * \(f_i\):振荡频率 (Hz) * \(\Delta t\):采样间隔 (s)
PPT 第三页提到了用 Vandermonde 矩阵做 多项式插值。虽然理论上完美(解唯一存在),但在计算机实现时,它有一个致命缺点:极度病态(Ill-conditioned)。
- 直观解释: 假设我们的节点是 \(x = [1, 2, 3, \dots, 10]\)。 在矩阵的最后一列,元素会变成 \(10^9\)。 这意味着:矩阵的第一列全是 \(1\),最后一列全是巨大的数。消元过程中,微小的舍入误差会被放大亿万倍。
- 结论: 在数值分析中,我们虽然用 Vandermonde 矩阵建立理论,但在编写程序时,通常会改用 拉格朗日插值 或 牛顿插值,因为它们避开了这种“因冥次产生的数值爆炸”。
三、 从 Vandermonde 到 Fourier(傅里叶)的华丽转身
这是 PPT 标题中 “Fourier 矩阵” 出现的理由。傅里叶矩阵是解决 Vandermonde 矩阵病态问题的“终极方案”。
如果我们不随便选 \(x_i\),而是选单位圆上均匀分布的点: $\(x_k = e^{-\mathrm{j} \frac{2\pi}{N} k}, \quad k=0, 1, \dots, N-1\)$ 这时候,Vandermonde 矩阵就变成了 离散傅里叶变换矩阵 (DFT Matrix) \(W\): $\(W = \begin{bmatrix} 1 & 1 & 1 & \dots \\ 1 & \omega & \omega^2 & \dots \\ 1 & \omega^2 & \omega^4 & \dots \\ \vdots & \vdots & \vdots & \ddots \end{bmatrix}\)$
为什么这很重要? 1. 正交性:此时矩阵的列互相正交。这意味着它不仅可逆,而且逆矩阵非常好求(就是其共轭转置),数值上极其稳定。 2. 物理意义:Vandermonde 矩阵是在做“点点对应”,而 Fourier 矩阵是在做“时域到频域的平移”。
四、 扩展 Prony 方法:信号背后的“指纹”
PPT 第四页提到的 Prony 方法是信号处理的高级内容。它的逻辑是:
- 模型:假设信号 \(\widehat{x}_n = \sum b_i z_i^n\)。这其实就是一堆 Vandermonde 结构的叠加。
- 核心难点:多项式插值(第三页)中,\(x_i\) 是已知的(节点坐标);但在 Prony 方法中,\(z_i\)(信号的频率和阻尼)是未知的。
- 解法本质:
- 先通过构造一个伴随矩阵(Linear Prediction)求出这些 \(z_i\)。
- 一旦 \(z_i\) 求出来了,剩下的系数 \(b_i\)(幅度和相位)就变成了一个标准的 Vandermonde 线性方程组求解问题。
拓展结论:超分辨率(Super-resolution)的根基
Vandermonde 矩阵的结构是现代空间谱估计(如 MUSIC, ESPRIT 算法)的基础。
- 相关结论:在天线阵列信号处理中,如果 \(n\) 个信号从不同方向射入天线,天线收到的相位差恰好构成一个 Vandermonde 向量。
- 为什么能破分辨率极限? 因为 Vandermonde 矩阵的线性无关性只取决于 \(z_i\) 是否相同。只要两个信号的频率(或方向)有极微小的差别,Vandermonde 矩阵就是满秩的。理论上,只要信噪比足够高,我们可以分辨无限接近的两个信号方向。