第三讲

矩阵的性能指标

性能指标	矩阵性能
二次型	矩阵的正定性与负定性
行列式	矩阵的奇异性
特征值	矩阵的奇异性、正定性和对角元素的结构
迹	矩阵对角元素之和、特征值之和
秩	行（列）的之间的线性无关项

正定性：考虑优化$\min\{x^TAx+b^Tx\}$，若$A$是正定矩阵，则优化函数是凸函数，此优化问题有全局最优解。

（对矩阵求导）

行列式不为0的矩阵称为非奇异矩阵

矩阵乘积的行列式等于矩阵行列式的乘积

矩阵的二次型

任何一个实对称矩阵$A$或复共轭矩阵的二次型定义为$x^HAx$，其中可以是任意的非零复向量。

矩阵的二次型取实数，可以和零比较大小。

特征值

通过分析矩阵的特征值，可以进行图象主要内容做出判定

范数

0-范数刻画了向量中非零元素的个数

1-范数是向量元素绝对值之和

1-范数是0范数最紧致的凸松弛，即1-范数是0-范数的凸包

迹

矩阵的迹是方阵主对角线元素之和，也为矩阵特征值之和

考虑优化：$\min \limits_{\mathrm{x}}(A\mathrm{x}-b)^2+|\mathrm{x}|_0$（1），为NPC问题，改进优化为$\min \limits_{\mathrm{x}}(A\mathrm{x}-b)^2+|\mathrm{x}|_1$（2），此为凸优化，且可以证明最优解也是（1）式的最优解，并且（2）的求解非常高效。

迹可用于初步判断矩阵的相似性。

迹的性质：

（1）线性性：$tr(p A+qB)=ptr(A)+qtr(B),p,q\in\mathbb{R},A,B\in M_{n\times n}$

（2）若$A\in \mathbb{R}^{m\times n},B\in\mathbb{R}^{n\times m}$，则$tr(AB)=tr(BA)$

（3）若$A\in \mathbb{R}^{m\times n}$，则$tr(A^TA)=0\Leftrightarrow A=0_{m\times n}$

（4）$tr(xy^T)=y^Tx;x^TAx=tr(Axx^T)$

特征值分解：$\displaystyle A=\sum\lambda_i u_i u_i^T$

秩

在压缩感知中，通过分析信号矩阵的秩，可以找到信号的稀疏表示，从而实现对信号的高效压缩和恢复。

秩的部分性质

对$A$左乘或右乘一个非奇异矩阵后，其秩保持不变。

$rank(A^TA)=rank(AA^T)=rank(A)$

$rank(A^HA)=rank(AA^H)=rank(A)$

内积与范数

度量向量空间中向量的关系

角度与相似性：在向量空间中，矩阵内积可用于计算向量之间的夹角，进而衡量向量间的相似程度。在文本分类等自然语言处理任务中，可将文本表示为向量，通过计算向量内积来判断文本的相似性。
正交性判断：当两个向量的内积为0时，它们相互正交。在信号处理中，将复杂信号分解为相互正交的基信号之和，利用向量的正交性，能使信号分解和处理更高效，傅里叶变换就是基于三角函数系的正交性。

定义空间中的几何结构

诱导范数：矩阵内积可诱导范数，为向量空间赋予了度量结构，用于衡量向量的长度或大小。

优化与最小二乘法：在曲线拟合中：对于给定的一组数据点，要找到一条最佳拟合曲线，可转化为求解一个线性方程组的最小二乘问题。通过定义误差向量的内积，构建目标函数，利用内积的性质来求解使误差最小的参数，从而得到最优拟合曲线。

一个向量的$\varepsilon$-邻域（对$L_2$范数）：$N_{\varepsilon}(x)=\{||y-x||_2\le \varepsilon\}$

邻域是最优化理论和方法中的一个重要概念，当我们讨论一种优化算法的性能时，局部最优（在某个邻域最优）比全局最优（在整个定义域最优）更方便进行比较和确定。

$L_p$范数：$||x||_p=(\displaystyle \sum_{i=1}^{n}|x_i|^p)^{\frac{1}{p}}$

$L_{\infty}$范数：$||x||_{\infty}=\max\{|x_1|,|x_2|,\cdots,|x_n|\}$

在数学上，$\max$ 函数不可微，这让计算机在做梯度下降（优化）时很麻烦。

在深度学习和优化算法中，我们需要求导（计算梯度）。 * Hard Max： 导数要么是1（最大值那个点），要么是 0（其他点），在切换处导数不存在。 * Softmax/LogSumExp： 我们希望有一个函数，既能像 $\max$ 一步样找出老大，又是处处平滑可导的。

无穷范数是 $p$-范数在 $p \to \infty$ 时的极限： $$\|x\|_p = \left( \sum |x_i|^p \right)^{1/p}$$ 当 $p$ 变得很大时，最大的那个 $x_i$ 经过 $p$ 次方放大，会远超其他项，从而主导整个求和式。

Softmax 的逻辑与之非常相似：我们不直接取 $x_i$ 的 $p$ 次方，而是取它的指数 $e^{x_i}$。

通常我们说 Softmax 近似无穷范数，指的其实是它的能量函数形式（LogSumExp）： $$\max(x_1, \dots, x_n) \approx \ln(e^{x_1} + e^{x_2} + \dots + e^{x_n})$$

结论： 指数函数极大地放大了那个最大的数，使得求和后再取对数的结果非常接近最大值。
极值的近似值（标量）： 即上面说的 $LSE(x) = \ln \sum e^{x_i}$。它得到的是一个数值，近似于最大值的大小。
选择行为的近似（向量）： 即我们常说的 Softmax 函数 $\displaystyle \sigma(x)_i = \frac{e^{x_i}}{\sum e^{x_j}}$。它得到的是一个概率分布。它近似的是“只选最大值”这个动作：
- Hard Max 的选择： $[0, 0, 1, 0]$（One-hot 编码，只提拔老大）。
- Softmax 的选择： $[0.01, 0.02, 0.96, 0.01]$（老大占绝对优势，但给老二老三留了点面子）。

为了让近似更精准，我们通常引入一个参数 $T$（温度）： $$\displaystyle \text{Softmax}(x)_i = \frac{e^{x_i/T}}{\sum e^{x_j/T}}$$

当 $T$ 非常小（趋近于 0）时，Softmax 的输出会变得非常“尖锐”，无限接近于真实的无穷范数（Hard Max）。
当 $T$ 很大时，输出会变得平滑。

“Softmax 是无穷范数的近似” 利用指数函数的爆炸增长特性，在保持数学函数平滑、可导的前提下，成功地从一组数中“挑”出了那个最大的数（或者得到了最大值的大小）。这使得我们可以在神经网络中通过误差反向传播来学习如何提取最重要的特征。

$p=-1$时为几何范数

**Hölder 不等式 ** 对向量 $x, y \in \mathbb{R}^n$，若 $\displaystyle 1/p + 1/q = 1$（其中 $p, q \ge 1$），则： $$|x^T y| \le \|x\|_p \|y\|_q$$ 其中 $\|x\|_p = \left( \sum_{i=1}^n |x_i|^p \right)^{1/p}$。

证明简述： 该证明通常基于 Young 不等式：若 $a, b \ge 0$ 且 $1/p + 1/q = 1$，则 $\displaystyle ab \le \frac{a^p}{p} + \frac{b^q}{q}$。

如果 $\|x\|_p = 0$ 或 $\|y\|_q = 0$，不等式显然成立。
令 $u = \frac{x}{\|x\|_p}$，$v = \frac{y}{\|y\|_q}$。即 $\|u\|_p = 1, \|v\|_q = 1$。
对每一分量应用 Young 不等式：$\displaystyle |u_i v_i| \le \frac{|u_i|^p}{p} + \frac{|v_i|^q}{q}$。
对 $i=1$ 到 $n$ 求和： $$\displaystyle \sum |u_i v_i| \le \frac{1}{p} \sum |u_i|^p + \frac{1}{q} \sum |v_i|^q = \frac{1}{p}(1) + \frac{1}{q}(1) = 1$$
代回 $x, y$ 得：$\displaystyle \frac{\sum |x_i y_i|}{\|x\|_p \|y\|_q} \le 1 \Rightarrow |x^T y| \le \|x\|_p \|y\|_q$。

Cauchy-Schwarz 不等式是 Hölder 不等式在 $p=q=2$ 时的特殊情况： $$|x^T y| \le \|x\|_2 \|y\|_2$$

**范数的等价性 **

内容：在有限维向量空间 $\mathbb{R}^n$ 中，任意两个范数 $\|\cdot\|_\alpha$ 和 $\|\cdot\|_\beta$ 都是等价的。即存在常数 $c_1, c_2 > 0$，使得对于所有 $x \in \mathbb{R}^n$： $$c_1 \|x\|_\alpha \le \|x\|_\beta \le c_2 \|x\|_\alpha$$

意义：这意味着在 $\mathbb{R}^n$ 中，一个序列在一种范数下收敛，在另一种范数下也必然收敛。

(1) 证明 $\|x\|_2 \le \|x\|_1 \le \sqrt{n} \|x\|_2$

左半部分： $\|x\|_2 \le \|x\|_1$ $$\|x\|_1^2 = (\sum |x_i|)^2 = \sum |x_i|^2 + \sum_{i \neq j} |x_i x_j| \ge \sum |x_i|^2 = \|x\|_2^2$$ 两边开根号得 $\|x\|_2 \le \|x\|_1$。
右半部分： $\|x\|_1 \le \sqrt{n} \|x\|_2$ 利用 Cauchy-Schwarz 不等式，令向量 $a = (|x_1|, \dots, |x_n|)$，$b = (1, \dots, 1)$： $$\|x\|_1 = \sum |x_i| \cdot 1 \le \left(\sum |x_i|^2\right)^{1/2} \left(\sum 1^2\right)^{1/2} = \|x\|_2 \cdot \sqrt{n}$$

(2) 证明 $\|x\|_\infty \le \|x\|_2 \le \sqrt{n} \|x\|_\infty$

左半部分： $\|x\|_\infty \le \|x\|_2$ 设 $|x_k| = \max_i |x_i| = \|x\|_\infty$。那么 $\|x\|_2 = \sqrt{x_1^2 + \dots + x_k^2 + \dots + x_n^2} \ge \sqrt{x_k^2} = |x_k| = \|x\|_\infty$。
右半部分： $\|x\|_2 \le \sqrt{n} \|x\|_\infty$ $\|x\|_2^2 = \sum_{i=1}^n x_i^2 \le \sum_{i=1}^n (\max |x_j|)^2 = \sum_{i=1}^n \|x\|_\infty^2 = n \|x\|_\infty^2$。开根号得 $\|x\|_2 \le \sqrt{n} \|x\|_\infty$。

(3) 证明 $\|x\|_\infty \le \|x\|_1 \le n \|x\|_\infty$

左半部分： $\|x\|_\infty \le \|x\|_1$ 显然，$\|x\|_1 = \sum |x_i| \ge \max |x_i| = \|x\|_\infty$。
右半部分： $\|x\|_1 \le n \|x\|_\infty$ $\|x\|_1 = \sum_{i=1}^n |x_i| \le \sum_{i=1}^n (\max |x_j|) = \sum_{i=1}^n \|x\|_\infty = n \|x\|_\infty$。

如果两个非零向量$\mathrm{x,y}$的内积等于零，则称向量$\mathrm{x}$与$\mathrm{y}$是正交的。

要成为一个矩阵范数，必须满足以下四个核心性质：

（1）非负性与定性：$\|A\| \ge 0$ 且 $\|A\| = 0 \iff A = 0$

（2）齐次性：$\|aA\| = |a| \cdot \|A\|$ （对所有标量 $a$）

（3）三角不等式：$\|A + B\| \le \|A\| + \|B\|$

（4）次可乘性：$\|A \cdot B\| \le \|A\| \cdot \|B\|$

这是矩阵范数特有的性质，保证了矩阵相乘后的范数是可以被两个因子矩阵的范数积所控制的。在数值分析中，这个性质对于估计误差边界非常重要。

为什么要研究矩阵范数？

误差分析： 在解方程组 $Ax = b$ 时，如果 $A$ 或 $b$ 有微小误差，范数可以帮助我们计算结果 $x$ 会偏离多少（通过条件数）。
收敛性判定： 在迭代算法中，我们通过观察矩阵或向量范数是否趋近于 0 来判断算法是否收敛。
稳定性： 矩阵范数是衡量线性系统稳定性的关键指标。

按元素定义的范数

\[\displaystyle \|A\|_p = \left( \sum_{i=1}^m \sum_{j=1}^n |a_{ij}|^p \right)^{1/p}\]

和范数（$p=1$），$\displaystyle \|A\|_1 = \sum_{i=1}^m \sum_{j=1}^n |a_{ij}|$

Frobenius范数 （$p=2$）$\displaystyle \|A\|_F = \sqrt{\sum_{i=1}^m \sum_{j=1}^n |a_{ij}|^2}$

最大范数 （$p=\infty$），$\|A\|_\infty = \max_{i,j} \{|a_{ij}|\}$

诱导范数 / 算子范数

\[\displaystyle \|A\|_p = \sup_{x \neq 0} \left\| A \left( \frac{x}{\|x\|_p} \right) \right\|_p = \max_{\|x\|_p=1} \|Ax\|_p=\max\limits_{x\neq 0}\frac{||Ax||_p}{||x||_p}\]

被称为矩阵算子范数。

物理意义： 如果我们把矩阵 $A$ 看作是一个从空间 $X$ 到空间 $Y$ 的线性映射，诱导范数衡量的就是：在 $A$ 的作用下，单位向量最多能被拉伸多长。
- $\|x\|_p=1$：选取所有“长度为 1”的向量 $x$（即在单位圆/单位球上）。
- $\|Ax\|_p$：计算这些向量经过矩阵 $A$ 变换后的新长度。
- $\max$：这些新长度中的最大值，就是矩阵的诱导范数。
常见的诱导范数：
- $\|A\|_1$ (列和范数)： 矩阵每一列绝对值之和的最大值。
- $\|A\|_\infty$ (行和范数)： 矩阵每一行绝对值之和的最大值。
- $\|A\|_2$ (谱范数)： 矩阵 $A$ 的最大奇异值 ($\sigma_{max}$)，它表示在欧几里得空间中 $A$ 对向量的最大拉伸倍数。

在数值分析和算法误差估计中，通常算子范数更加重要，因它直接关联了矩阵运算对数据误差的放大程度。

矩阵 2-范数（谱范数） 的性质及其与特征值的联系

矩阵 1-范数和 $\infty$-范数 容易计算，复杂度为 $O(n^2)$。
矩阵 2-范数 的计算要复杂得多。

定理：若 $A \in \mathbb{R}^{m \times n}$，那么存在一个单位向量 $z$，使得 $A^T A z = \mu^2 z$，其中 $\mu = \|A\|_2$。

注：由此定理可知，矩阵 $A$ 2-范数的平方，是 $A^T A$ 的最大特征值。

解释：考虑范数满足的性质4，$||Ax||\le ||A||\cdot ||x||$

为什么我们只在几个特殊的方向（特征向量）上验证了不等式，那么其他杂乱无章的方向怎么办？

可以涵盖，因特征向量构成一组基。

（谱定理）对称矩阵 $M = A^TA$的单位特征向量 $v_1, v_2, \dots, v_n$ 构成整个 $n$ 维空间的一组正交基。

考虑任意向量 $x$ 在矩阵 $A$ 作用下的长度平方 $\|Ax\|^2$： $$\|Ax\|^2 = x^T (A^TA) x$$

带入$x=c_1v_1+\cdots +c_nv_n$ ，由$A^TAv_i = \lambda_i v_i$以及特征向量彼此正交性质，得 $$\|Ax\|^2 = \lambda_1 c_1^2 + \lambda_2 c_2^2 + \dots + \lambda_n c_n^2$$

现在证明 $\|Ax\|^2\le \lambda_{max} \cdot \|x\|^2$。

$\|x\|^2 = c_1^2 + c_2^2 + \dots + c_n^2$。 $$\begin{aligned} \|Ax\|^2 &= \lambda_1 c_1^2 + \lambda_2 c_2^2 + \dots + \lambda_n c_n^2 \\ &\le \lambda_{max} c_1^2 + \lambda_{max} c_2^2 + \dots + \lambda_{max} c_n^2 \\ &= \lambda_{max} (c_1^2 + c_2^2 + \dots + c_n^2) \\ &= \lambda_{max} \|x\|^2 \end{aligned}$$

而记$||Ax||^2_2$为$\lambda,\lambda\neq \lambda_{max}$时，必存在某个$\lambda_{max}$使得范数不等式不成立，即此范数定义不满足要求。

$\|A\|_2$ 实际上等于 $A$ 的最大奇异值 ($\sigma_{max}$)。
这解释了为什么 2-范数的计算比 1-范数复杂，因为它通常需要进行奇异值分解 (SVD) 或求解特征向量问题。

证明：（变分法（极值法））：

据诱导范数的定义，$\|A\|_2$ 是使 $\|Ax\|_2$ 达到最大的那个值。定义函数 $g(x)$，是 $\|Ax\|_2$ 平方的一半（为了微分方便）： $$\displaystyle g(x) = \frac{1}{2} \frac{\|Ax\|_2^2}{\|x\|_2^2} = \frac{1}{2} \frac{x^T A^T A x}{x^T x}$$ 这个形式被称为瑞利商。

假设 $z$ 是使 $g(x)$ 达到最大值的向量（即使得 $\|Az\|_2 = \|A\|_2$ 的方向）。在多元微积分中，如果一个函数在某点取得极值，那么该点处的梯度必须为 0： $$\nabla g(z) = 0$$

$g(x)$ 对分量 $z_i$ 求偏导： $$\displaystyle \frac{\partial g(z)}{\partial z_i} = \frac{(z^T z) [A^T A z]_i - (z^T A^T A z) z_i}{(z^T z)^2}$$ 由于 $z$ 是单位向量，满足 $z^T z = \|z\|_2^2 = 1$。将 $z^T z = 1$ 代入并令梯度为 0，得到向量形式的等式： $$A^T A z - (z^T A^T A z) z = 0$$ 移项得： $$A^T A z = (z^T A^T A z) z$$

注意到 $z^T A^T A z = (Az)^T (Az) = \|Az\|_2^2$。

按照之前的假设，$\|Az\|_2 = \|A\|_2 = \mu$。

所以 $z^T A^T A z = \mu^2$。

代回等式得：$A^T A z = \mu^2 z$。

要算 $\|A\|_2$，需计算矩阵 $A^T A$ 的特征值，然后取其最大值的平方根。

矩阵范数在数值计算中的应用价值

**误差估计 **
- 多范数评估：在数值计算中，误差是不可避免的（如浮动汇率造成的舍入误差）。不同的范数能从不同角度刻画误差。例如，$L_\infty$ 范数关注的是分量中的“最大误差”，而 $L_2$ 范数关注的是“整体能量误差”。通过不同范数间的转换，可以更灵活地给出误差的上界。
- 控制误差传播：在进行矩阵运算（如 $Ax=b$）时，输入端的微小误差会通过算法传播。了解范数间的比例关系，有助于预估误差在最坏情况下的放大倍数。
**数值稳定性分析 **
- 评估算法稳定性：一个稳定的算法应保证输入的小扰动不会导致输出的剧烈变化。范数关系可以揭示某种算法是否在特定度量下表现出病态。
- 选择合适范数：有些范数（如 $L_1$ 或 $L_\infty$ 范数）计算极快，而有些（如 $L_2$ 范数）计算涉及特征值，成本较高。界定关系允许我们在理论分析时使用精确的范数，而在实际计算中替换成计算低廉的范数。

范数的等价性定理

在有限维线性空间（如 $\mathbb{R}^n$ 或 $\mathbb{R}^{m \times n}$）中，任何两种范数都是等价的。这意味着，对于任意两个范数 $\|\cdot\|_a$ 和 $\|\cdot\|_b$，总存在正常数 $c_1$ 和 $c_2$，使得： $$c_1 \|A\|_a \leq \|A\|_b \leq c_2 \|A\|_a$$ 这对数值计算至关重要：如果一个算法在某种范数下是收敛的，那么它在所有范数下都收敛。

常用的矩阵范数及其界定关系

假设 $A$ 是 $n \times n$ 的矩阵，常用范数间的具体界限如下（这是PPT中“界定关系”的数学体现）： * $L_2$ 范数与 $L_1, L_\infty$ 的关系： $$\frac{1}{\sqrt{n}} \|A\|_\infty \leq \|A\|_2 \leq \sqrt{n} \|A\|_\infty$$ $$\frac{1}{\sqrt{n}} \|A\|_1 \leq \|A\|_2 \leq \sqrt{n} \|A\|_1$$ * $L_1$ 与 $L_\infty$ 的关系： $$\frac{1}{n} \|A\|_\infty \leq \|A\|_1 \leq n \|A\|_\infty$$

条件数与稳定性

对于线性方程组 $Ax=b$，条件数定义为： $$\kappa(A) = \|A\| \cdot \|A^{-1}\|$$

误差传播公式：$\frac{\|\delta x\|}{\|x\|} \leq \kappa(A) \frac{\|\delta b\|}{\|b\|}$。
结论：如果 $\kappa(A)$ 很大，说明矩阵是“病态”的，此时即使 $\delta b$（输入误差）很小，导致的 $\delta x$（结果误差）也会被放大 $\kappa(A)$ 倍。通过研究不同范数下的 $\kappa(A)$，计算人员可以选择使条件数尽量小的度量方式或算法路径来提高可靠性。

计算效率的权衡

$L_1$ 范数（列和范数）：只需加法和绝对值，计算最快。
$L_\infty$ 范数（行和范数）：同上。
$L_2$ 范数（谱范数）：等于 $A^T A$ 最大特征值的平方根，计算开销巨大。 应用推论：在实际工程中，常利用 $L_1$ 或 $L_\infty$ 的误差界来近似估计 $L_2$ 下的误差，从而在保证精度的前提下提高效率。

$|\langle A, B \rangle|^2 \leq \|A\|^2 \|B\|^2$

含义： 两个矩阵的“内积”的平方，绝对不会超过它们各自“长度”（范数）平方的乘积。
几何意义： 如果我们定义两个矩阵之间的夹角 $\theta$，那么 $\cos \theta = \frac{\langle A, B \rangle}{\|A\|\|B\|}$。因为 $|\cos \theta| \leq 1$，所以分子必然小于等于分母。
等号成立条件： 当且仅当 $A$ 和 $B$ 线性相关（即一个矩阵是另一个矩阵的常数倍 $A=cB$）时，意味着它们在矩阵空间中指向同一个“方向”。

Pythagoras 定理（勾股定理）

公式： 若 $\langle A, B \rangle = 0$，则 $\|A + B\|^2 = \|A\|^2 + \|B\|^2$

含义： 如果两个矩阵的内积为 0，我们称这两个矩阵正交。在这种情况下，它们和的平方等于它们平方的和。

矩阵乘法的范数相容性

公式： $\|Ax\| \leq \|A\| \|x\|$

含义： 这是一个非常重要的误差放缩性质。它告诉我们：一个向量 $x$ 经过矩阵 $A$ 作用（线性变换）后，新向量 $Ax$ 的长度不会超过“矩阵的规模”乘以“原向量的长度”。

我们通常使用的是 Frobenius 内积。对于复矩阵 $A, B \in \mathbb{C}^{m \times n}$，定义为： $$\displaystyle \langle A, B \rangle = \text{tr}(A^H B) = \sum_{i=1}^m \sum_{j=1}^n \overline{a_{ij}} b_{ij}$$ 其中 $A^H$ 是共轭转置，$\text{tr}$ 是矩阵的迹。简单来说，就是把两个矩阵对应位置的元素相乘再求和。

为什么 $\|Ax\|_2 \leq \|A\|_2 \|x\|_2$ 总是成立？

这里的 $\|A\|_2$ 通常指谱范数（矩阵的最大奇异值）。根据定义，矩阵的诱导范数本身就是定义为： $$\|A\|_2 = \max_{x \neq 0} \frac{\|Ax\|_2}{\|x\|_2}$$ 既然 $\|A\|_2$ 是这个分式的最大值，那么对于任何特定的 $x$，显然有： $$\|A\|_2 \geq \frac{\|Ax\|_2}{\|x\|_2} \implies \|Ax\|_2 \leq \|A\|_2 \|x\|_2$$

Frobenius 范数与谱范数的关系

PPT 提到了 $\|Ax\|_F \leq \|A\|_F \|x\|_F$。一个有趣的初等结论是：对于任何矩阵 $A$，谱范数 $\|A\|_2$ 和 Frobenius 范数 $\|A\|_F$ 满足： $$\|A\|_2 \leq \|A\|_F \leq \sqrt{r} \|A\|_2$$ 其中 $r$ 是矩阵的秩。这意味着 Frobenius 范数虽然计算简单（直接算平方和），但它会比谱范数更“慷慨”地估计矩阵的放大能力。在实际计算误差界限时，如果我们想要更紧致的估计，通常优先使用谱范数；如果我们想要快速计算，则使用 Frobenius 范数。

这一页 PPT 的核心在于阐述矩阵扰动理论（Matrix Perturbation Theory）的实际应用价值。所谓“扰动”，通俗理解就是对矩阵元素进行微小的改动（例如由于测量误差或计算机舍入产生的 $\Delta A$），研究这些微小改动如何影响最终结果。

以下是针对 PPT 两个主要板块的深度解读及数理拓展。

一、数值分析 (Numerical Analysis)

PPT 强调了在算法设计中，我们需要知道程序是否“弱不禁风”。

算法稳定性与敏感性：
- 在求解 $Ax=b$ 时，如果矩阵 $A$ 发生微小变化 $\Delta A$，解 $x$ 可能发生巨大的偏移。这就是所谓的“病态”问题。
- 数理结论推导：假设 $A$ 是非奇异矩阵，扰动后的方程为 $(A + \Delta A)(x + \delta x) = b$。忽略二阶小量 $\Delta A \cdot \delta x$，可以推得相对误差的界限： $$\frac{\|\delta x\|}{\|x\|} \approx \frac{\|A^{-1} \Delta A x\|}{\|x\|} \leq \|A\| \|A^{-1}\| \frac{\|\Delta A\|}{\|A\|}$$ 这里出现的 $\|A\| \|A^{-1}\|$ 正是条件数 $\kappa(A)$。它量化了扰动的放大倍数。
误差分析（有限精度计算）：
- 计算机存储浮点数时是有截断的（例如 $0.1$ 在二进制中是无限循环小数）。每一次加法或乘法都会引入微小扰动。研究扰动理论能让我们知道，在经过一万次运算后，结果还有几位是有效的。

二、线性系统理论 (Linear System Theory)

在控制工程和力学中，系统的状态通常由矩阵的特征值决定。

系统稳定性分析：
- 对于线性微分方程 $\dot{x} = Ax$，系统的稳定性取决于矩阵 $A$ 的特征值 $\lambda$ 的实部是否全为负。
- 扰动的影响：如果一个系统的特征值非常靠近虚轴，那么一个微小的参数扰动 $\Delta A$ 就可能让特征值跳到右半平面，导致系统从“稳定”变成“爆炸”（不稳定）。这就是研究“稳定性鲁棒性”的初衷。
系统性能评估：
- 参数的变化（如环境温度改变导致电阻变化，进而改变电路矩阵）会影响系统的响应速度（收敛快慢）。

特征值的扰动

Bauer-Fike 定理专门描述特征值的“位移”范围：

设 $A$ 是可对角化矩阵，$V$ 是其特征向量矩阵（即 $V^{-1}AV = \text{diag}(\lambda_1, \dots, \lambda_n)$）。如果 $\Delta A$ 是对 $A$ 的扰动，且 $\mu$ 是扰动后矩阵 $A + \Delta A$ 的任意一个特征值，那么在 $A$ 原有的特征值中，至少存在一个 $\lambda_k$ 满足： $$|\mu - \lambda_k| \leq \kappa_p(V) \|\Delta A\|_p$$ 其中 $\kappa(V) = \|V\| \|V^{-1}\|$ 是特征向量矩阵的条件数。

扰动大小成正比：特征值的改变量 $|\mu - \lambda_k|$ 基本上受到矩阵扰动量 $\|\Delta A\|$ 的控制。
特征向量的质量决定稳定性：如果特征向量矩阵 $V$ 是正交矩阵（例如 $A$ 是对称矩阵时），则 $\kappa(V)=1$，特征值非常稳定，不会发生剧烈跳变。
非对称矩阵的危险性：如果 $A$ 严重非对称，其特征向量可能极其接近线性相关，导致 $\kappa(V)$ 巨大，此时哪怕 $\Delta A$ 及其微小，特征值 $\mu$ 也会飞向远处，导致系统分析失效。

数学上的“精确解”在工程中是不存在的。我们必须通过扰动分析，确保算法在数据有噪声、计算有舍入、物理参数有变动的情况下，依然能够给出“基本正确”的结果。

这两页PPT展示了矩阵分析中非常经典且重要的扰动理论，核心内容围绕Neumann级数（诺伊曼级数）及其对逆矩阵误差的估计。

以下是对这两页内容的详细逻辑拆解与数理拓展：

如果一个矩阵离单位矩阵“足够近”，那么它一定可逆，且它的逆可以写成无限求和的形式。

若 $\|F\|_p < 1$，则： * $(I - F)$ 是非奇异的（即一定可逆）。 * 它的逆矩阵可以表示为：$(I - F)^{-1} = I + F + F^2 + F^3 + \dots$ * 它的范数上界为：$\|(I - F)^{-1}\|_p \leq \frac{1}{1 - \|F\|_p}$。

这其实就是实数中几何级数（等比级数）在矩阵空间的推广。在初等数学中，如果 $|x| < 1$，我们有： $$\frac{1}{1-x} = \sum_{k=0}^{\infty} x^k = 1 + x + x^2 + \dots$$ 且其绝对值有界：$|\frac{1}{1-x}| \leq \frac{1}{1-|x|}$。矩阵引理只是把数变成了矩阵，把绝对值变成了范数。

非奇异性证明（反证法）：假设 $(I-F)$ 不可逆，那么方程 $(I-F)x = 0$ 一定有非零解 $x$。这样得出 $x = Fx$，两边取范数得 $\|x\| = \|Fx\| \leq \|F\| \cdot \|x\|$。由于 $x$ 非零，约掉 $\|x\|$ 得到 $\|F\| \geq 1$，这与前提 $\|F\| < 1$ 矛盾。
表达式证明：利用恒等式 $(\sum F^k)(I-F) = I - F^{N+1}$。只要当 $N \to \infty$ 时，$F^{N+1}$ 趋于零，等式左边收敛后的乘积就是单位矩阵。

逆矩阵的扰动界限

如果矩阵 $A$ 变成 $A+E$（$E$ 是微小扰动），新的逆矩阵和旧的差多少？

设 $A$ 可逆，若扰动 $E$ 满足 $\|A^{-1}E\| < 1$（即扰动相对于原矩阵的逆较小），则 $A+E$ 也可逆，且满足： $$\|(A+E)^{-1} - A^{-1}\|_p \leq \frac{\|E\|_p \|A^{-1}\|_p^2}{1 - r}$$ 其中 $r = \|A^{-1}E\|_p$。

在工程计算中，我们往往无法获得精确的 $A$，只能得到带误差的 $A+E$。这个公式给出了结果误差的上界。你可以看到，误差不仅取决于扰动 $E$ 的大小，还取决于 $\|A^{-1}\|$ 的平方。如果 $A$ 接近奇异（即 $A^{-1}$ 很大），那么微小的扰动 $E$ 也会引起逆矩阵的剧烈震荡。

实际上，矩阵级数 $\sum F^k$ 收敛的充分必要条件是 $F$ 的谱半径满足： $$\rho(F) < 1$$ （谱半径 $\rho(F)$ 是指 $F$ 所有特征值绝对值的最大值）。

拓展解释：因为任何范数都大于等于谱半径 ($\rho(F) \leq \|F\|$)，所以只要范数小于 1，谱半径一定小于 1。但在某些情况下，虽然范数大于 1，只要谱半径小于 1，级数依然收敛。

相对误差的形式（更常用的版本）

在数值分析中，我们更关心相对误差。由上述定理可以导出著名的相对误差界限： $$\frac{\|(A+E)^{-1} - A^{-1}\|}{\|A^{-1}\|} \leq \frac{\kappa(A)}{1 - \kappa(A) \frac{\|E\|}{\|A\|}} \cdot \frac{\|E\|}{\|A\|}$$ 其中 $\kappa(A) = \|A\| \cdot \|A^{-1}\|$ 是矩阵的条件数。 * 结论拓展：这个形式清晰地展示了，条件数 $\kappa(A)$ 是误差的放大因子。如果 $\kappa(A) = 10^4$，那么矩阵输入端 $1\%$ 的误差，可能导致输出端产生无法接受的巨大偏差。

为什么求逆在数值计算中很“危险”？

从这两个 PPT 页面的推导可以看出，求逆运算对扰动非常敏感。在实际编程（如 Python 的 NumPy 或 MATLAB）中，我们通常不直接计算 $A^{-1}$，而是使用 LU分解或QR分解来求解 $Ax = b$。这就是为了规避扰动在求逆过程中被 $\|A^{-1}\|^2$ 这种项过度放大的风险。

第三讲

按元素定义的范数

诱导范数 / 算子范数

一、 数值分析 (Numerical Analysis)

二、 线性系统理论 (Linear System Theory)

一、数值分析 (Numerical Analysis)

二、线性系统理论 (Linear System Theory)