本文详细介绍了线性代数的核心内容,涵盖行列式、矩阵、向量、线性方程组、特征值与特征向量、二次型等主题。文章首先介绍了行列式的定义、计算方法和性质。接着,讨论了矩阵的基本运算、秩、逆矩阵等概念,以及矩阵的分块、转置和相抵等性质。随后,探讨了向量的线性相关性和线性表示,线性方程组的解法和解的结构。然后,阐述了特征值与特征向量的理论,包括矩阵的相似对角化和 Jordan 标准型。最后,介绍了二次型及其标准化和规范化方法,以及正定矩阵的判定与应用。文章还补充了一部分重要定理的详细证明,帮助读者深入理解线性代数的理论基础。
(摘要由 OpenAI GPT 4o 生成)
本文中使用符号 \(I\) 表示单位矩阵,\(O\) 表示零矩阵。
线性代数 for 考研数学¶
考研数学线性代数部分包含:行列式、矩阵、向量、线性方程组、特征值与特征向量、二次型。
一共是 3 填空 1 选择 1 简答 = 32 分 / 150 分。
如果没有特殊说明,本文讨论的矩阵都是实数域上的矩阵。
行列式¶
行列式:不同行不同列元素乘积的代数和:\(\displaystyle \det(A) = \sum_{j_1j_2\dots j_n} (-1)^{\tau(j_1j_2\dots j_n)} a_{1j_1} a_{2j_2} \dots a_{nj_n}\)。其中 \(\tau(j_1j_2\dots j_n)\) 是 \(j_1j_2\dots j_n\) 的逆序数,即序列 \(j_1j_2\dots j_n\) 中逆序对的个数。\(4\) 阶及以上的行列式不能使用主对角线-副对角线法则计算。
按行或列展开行列式¶
以 \(3\) 阶行列式为例。设 \(A = \begin{bmatrix} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33} \end{bmatrix}\),
余子式 \(M_{ij}\) 是将 \(A\) 中第 \(i\) 行第 \(j\) 列元素划去后,剩下的元素按原来的顺序排成行列式。例如 \(M_{11} = \begin{vmatrix} a_{22} & a_{23} \\ a_{32} & a_{33} \end{vmatrix}\)。
代数余子式 \(A_{ij} = (-1)^{i + j} M_{ij}\)。例如 \(A_{11} = (-1)^{1+1}\begin{vmatrix} a_{22} & a_{23} \\ a_{32} & a_{33} \end{vmatrix}\)。
行列式可以按行或列展开,有 \(\displaystyle \det(A) = \sum_{i = 1}^n a_{ij} A_{ij} = \sum_{j = 1}^n a_{ij} A_{ij}\)。
如果行列式中某一行(列)的元素与另一行(列)的代数余子式相乘后累加,会得到 \(0\),即当 \(i \neq j\), \(\displaystyle \sum_{k = 1}^n a_{ik} A_{jk} = 0\)。
另外,可以按多行展开行列式(拉普拉斯定理)。
伴随矩阵¶
将矩阵 \(A\) 的所有代数余子式按原先位置的转置排列为新的矩阵,这个矩阵就是 \(A\) 的伴随矩阵,记作 \(A^\star\)。
伴随矩阵的意义是 \(A^\star A = \det(A) I\)。即如果 \(A\) 可逆,那么 \(\displaystyle A^{-1} = \frac{1}{\det(A)} A^\star\)。
矩阵运算对伴随的影响¶
- \((kA)^\star = k^{n-1} A^\star\)
- \((AB)^\star = B^\star A^\star\)
- \((A^\star)^T = (A^T)^\star\)
- \((A^\star)^{-1} = (A^{-1})^\star = \displaystyle \frac{1}{\det(A)} A\)
- \((A^\star)^\star = \det(A)^{n-2} A\)
行列式的计算¶
- 对具体的行列式,通过行列式的性质进行计算,即:互换、倍乘、分拆、倍加性质
- 爪形行列式的计算:可以设法化为对角线上的三角行列式。
- 主对角线上的三角行列式:\(\begin{vmatrix} a_{11} & \dots & a_{1n} \\ & \diagdown & \vdots \\ & & a_{nn} \end{vmatrix} = \begin{vmatrix} a_{11} & \\ \vdots & \diagdown & \\ a_{n_1} & \dots & a_{nn} \end{vmatrix} = a_{11} a_{22} \dots a_{nn}\)
- 副对角线上的三角行列式:\(\begin{vmatrix} a_{11} & \dots & a_{1n} \\ \vdots & \diagup & \\ a_{n1} & & \end{vmatrix} = \begin{vmatrix} & & a_{1n} \\ & \diagup & \vdots \\ a_{n1} & \dots & a_{nn} \end{vmatrix} = (-1)^{\textstyle\frac{n(n-1)}{2}} a_{1n} a_{2(n-1)} \dots a_{n1}\)
- 以上两个性质在分块矩阵中的推广:
- \(\begin{vmatrix} A & O \\ \star & B \end{vmatrix} = \begin{vmatrix} A & O \\ \star & B \end{vmatrix} = \det(A) \det(B)\)
- \(\begin{vmatrix} O & A \\ B & \star \end{vmatrix} = \begin{vmatrix} \star & A \\ B & O \end{vmatrix} = (-1)^{mn}\det(A) \det(B)\),\(A \in \mathbb{P}^{n\times n}\),\(B \in \mathbb{P}^{m \times m}\)
- 准对角矩阵行列式:\(\displaystyle \begin{vmatrix}A_1 & & & \\ & A_2 & & \\ & & \ddots & \\ & & & A_n\end{vmatrix} = \prod_{i = 1}^n \det(A_i)\)
- 范德蒙行列式:\(\displaystyle \begin{vmatrix} 1 & x_1^1 & x_1^2 & \dots & x_1^{n-1} \\ 1 & x_2^1 & x_2^2 & \dots & x_2^{n-1} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_n^1 & x_n^2 & \dots & x_n^{n-1} \end{vmatrix} = \prod_{1 \leq i < j \leq n} (x_j - x_i)\)
矩阵运算对行列式的影响¶
- \(\det(kA) = k^n \det(A)\)
- \(\det(AB) = \det(A) \det(B)\)
- \(\displaystyle \frac{\det(\lambda I_m - AB)}{\lambda^m} = \frac{\det(\lambda I_n - BA)}{\lambda^n}\),此处 \(A \in \mathbb{P}^{m \times n}\),\(B \in \mathbb{P}^{n \times m}\)
- \(\det(A^T) = \det(A)\)
- \(A^\star A = \det(A) I\)
- \(\displaystyle \det(A^{-1}) = \frac{1}{\det(A)}\)
- \(\det(A^\star) = \det(A)^{n-1}\)
克莱姆法则¶
线性方程组 \(AX = b\),如果 \(\det(A) \neq 0\),则有且只有唯一解 \(x_1 = \displaystyle \frac{\det(A_1)}{\det(A)}\),\(x_2 = \displaystyle \frac{\det(A_2)}{\det(A)}\),\(\dots\),\(x_n = \displaystyle \frac{\det(A_n)}{\det(A)}\),其中 \(A_i\) 是将 \(A\) 的第 \(i\) 列替换为 \(b\) 后的矩阵。
矩阵¶
矩阵的运算¶
矩阵乘法不服从交换律,但是满足结合律和分配律。
由于矩阵乘法满足分配律,因此可以对矩阵进行因式分解,即 \(A(B + C) = AB + AC\)。
在矩阵的乘法中,常用的运算技巧是将矩阵列化为列向量进行计算:\(A \begin{bmatrix} \beta_1 & \beta_2 & \dots & \beta_n \end{bmatrix} = \begin{bmatrix} A \beta_1 & A \beta_2 & \dots & A \beta_n \end{bmatrix}\)
矩阵乘积的迹是满足交换律的,即 \(\text{tr}(AB) = \text{tr}(BA)\)。
关于零矩阵¶
- \(AA = O\) \(\nRightarrow\) \(A = O\)。反例:\(\begin{bmatrix} 0 & a \\ 0 & 0 \end{bmatrix}\)。
- \(AB = O\) \(\nRightarrow\) \(A = O\) 或 \(B = O\)。这是上面的弱化版本。
- \(A^T A = O\) \(\Rightarrow\) \(A = O\),在实数域上成立,复数域上不成立。
矩阵的转置¶
矩阵运算对转置的影响¶
- \((A^T)^T = A\)
- \((A + B)^T = A^T + B^T\)
- \((kA)^T = kA^T\)
- \((AB)^T = B^T A^T\)
- \((A^{-1})^T = (A^T)^{-1}\)
特殊的矩阵:对称矩阵¶
从任意矩阵 \(A\) 构造对称矩阵:\(\displaystyle \frac{1}{2} (A + A^T)\)。
在实数域上的对称矩阵拥有以下常用性质:
- 实对称矩阵是一种特殊的 Hermitian 矩阵,因此其所有的特征值都是实数、所有的特征向量都是实数域上的向量
- 实对称矩阵属于不同特征值的特征向量是正交的
- 实对称矩阵的每一个特征值的代数重数等于几何重数,即实对称矩阵是可对角化的
特殊的矩阵:反对称矩阵¶
从任意矩阵 \(A\) 构造反对称矩阵:\(\displaystyle \frac{1}{2} (A - A^T)\)。
在实数域上的反对称矩阵拥有以下常用性质:
- 反对称矩阵的对角线元素一定是 \(0\)
- 反对称矩阵的特征值必然是成对出现的纯虚数 \(\pm \lambda i\) 或 \(0\)1
- 反对称矩阵的秩只能是偶数
- 反对称矩阵的行列式一定是非负数
- 二次型 \(\mathbf{x}^T A \mathbf{x}\) 中,如果 \(A\) 是反对称矩阵,那么 \(\mathbf{x}^T A \mathbf{x} = 0\)
- 两个反对称矩阵的乘积是对称矩阵
分块矩阵及其运算¶
以下运算律默认出现的所有矩阵运算都是合法的:
- \(\begin{bmatrix} A_{11} & \dots & A_{1n} \\ \vdots & \ddots & \vdots \\ A_{m1} & \dots & A_{mn} \end{bmatrix} \pm \begin{bmatrix} B_{11} & \dots & B_{1n} \\ \vdots & \ddots & \vdots \\ B_{m1} & \dots & B_{mn} \end{bmatrix} = \begin{bmatrix} A_{11} \pm B_{11} & \dots & A_{1n} \pm B_{1n} \\ \vdots & \ddots & \vdots \\ A_{m1} \pm B_{m1} & \dots & A_{mn} \pm B_{mn} \end{bmatrix}\)
- \(\begin{bmatrix} A_{11} & \dots & A_{1n} \\ \vdots & \ddots & \vdots \\ A_{m1} & \dots & A_{mn} \end{bmatrix} \begin{bmatrix} B_{11} & \dots & B_{1n} \\ \vdots & \ddots & \vdots \\ B_{m1} & \dots & B_{mn} \end{bmatrix} = \begin{bmatrix} C_{11} & \dots & C_{1n} \\ \vdots & \ddots & \vdots \\ C_{m1} & \dots & C_{mn} \end{bmatrix}\),其中 \(C_{ij} = \displaystyle \sum_{k = 1}^n A_{ik} B_{kj}\),与矩阵元素为数时的矩阵乘法一致。
对分块矩阵,如果运算合法(例如,每一个分块都是规模相等的方阵),则同样适用初等变换的结论。
矩阵的秩¶
矩阵的秩的若干个等价的定义:
- 线性无关的行或列的最大个数;
- 列向量或行向量的极大线性无关组的向量个数;
- 矩阵的非零子式的最大阶数。
矩阵的秩的性质¶
- 矩阵的秩是初等变换中的不变量:初等行变换不改变矩阵的秩,初等列变换不改变矩阵的秩
- 推论:如果 \(P, Q\) 都是可逆矩阵,那么 \(r(A) = r(PA) = r(AQ) = r(PAQ)\)
- \(r(A) = n\) \(\Leftrightarrow\) \(A\) 可逆 \(\Leftrightarrow\) \(\det(A) \neq 0\)
- \(r(A) = 0\) \(\Leftrightarrow\) \(A = O\)
- \(r(A) = 1\) \(\Leftrightarrow\) \(A\) 的列向量是同一个向量的不同倍,即 \(\exists \mathbf{a}, \mathbf{b} \neq \mathbf{0}\) 使得 \(A = \mathbf{a} \mathbf{b}^T\)
矩阵运算对秩的影响¶
- \(r(A) = r(A^T) = r(A^T A) = r(A A^T)\)2
- \(r(A)\) 或 \(r(B) \leq r(\begin{bmatrix} A & B \end{bmatrix}) \leq r(A) + r(B)\)
- \(r(\begin{bmatrix} A & O \\ O & B \end{bmatrix}) = r(A) + r(B)\)
- \(r(A + B) \leq r(A) + r(B)\)
- 如果 \(P, Q\) 都是可逆矩阵,那么 \(r(A) = r(PA) = r(AQ) = r(PAQ)\)
- 如果 \(P\) 是列满秩的矩阵,那么 \(r(A) = r(PA)\)(以 \(P\) 作为新的基)
- 如果 \(Q\) 是行满秩的矩阵,那么 \(r(A) = r(AQ)\)(上面的结论转置即得)
- 如果 \(r(AB) < r(A)\) 或者 \(r(BA) < r(A)\),那么必然有 \(r(B) < n\),即 \(B\) 是不可逆矩阵
- \(r(AB) \leq \min\{r(A), r(B)\}\)
- \(r(AB) \geq r(A) + r(B) - n\)(Sylvester 不等式,要求 \(A, B\) 均为方阵)
- \(A^{m\times n}, B^{n\times s}\),如果 \(AB = O\),那么 \(r(A) + r(B) \leq n\)
- \(r(A^\star) = \begin{cases} n & \text{if } r(A) = n \\ 1 & \text{if } r(A) = n - 1 \\ 0 & \text{if } r (A) \leq n - 2 \end{cases}\)
Note
如果 \(r(AB) < r(A)\) 或者 \(r(BA) < r(A)\),那么必然有 \(r(B) < n\),即 \(B\) 是不可逆矩阵,这个命题反过来不正确,反例为 \(\begin{bmatrix} 1 & 1 \\ 0 & 0 \end{bmatrix} \begin{bmatrix} 0 & 1 \\ 0 & 1 \end{bmatrix} = \begin{bmatrix} 0 & 2 \\ 0 & 0 \end{bmatrix}\)。即任意矩阵乘以不满秩的矩阵,秩不一定会降低。
矩阵的相抵¶
通过秩来划分所有的矩阵:如果矩阵 \(A\) 通过初等变换可以得到矩阵 \(B\),即 \(r(A) = r(B)\),则称 \(A\) 与 \(B\) 相抵。
矩阵的逆¶
\(A A^{-1} = A^{-1} A = I\),对于复数域上的矩阵,如果 \(AB = I\),一定可以推出 \(BA = I\),即左逆一定等于右逆。
矩阵可逆的判断¶
矩阵 \(A\) 可逆的充要条件:
- \(r(A) = n\);
- \(\det(A) \neq 0\);
- 矩阵 \(A\) 表示为若干初等矩阵的乘积
可逆的判断2:如果 \(A\) 可以表示为若干初等矩阵的乘积,则 \(A\) 可逆。反之亦然成立。
求逆矩阵¶
两种主要方法:伴随矩阵法、初等变换法。
伴随矩阵法:\(\displaystyle A^{-1} = \frac{1}{\det(A)} A^\star\)。
初等变换法:对矩阵 \(\begin{bmatrix} A & I \end{bmatrix}\) 进行初等行变换,将 \(A\) 变为单位矩阵,此时矩阵将变为 \(\begin{bmatrix} I & A^{-1} \end{bmatrix}\) ,矩阵的右半部分即 \(A\) 的逆矩阵。
分块矩阵求逆¶
使用待定系数法列方程组求解逆矩阵。
例. 如果 \(A\),\(D\) 均为可逆矩阵,求 \(\begin{bmatrix} A & O \\ C & D \end{bmatrix}^{-1}\)。
\(\begin{vmatrix} A & O \\ C & D \end{vmatrix}^{-1} = \det(A) \det(D) \neq 0\),从而矩阵 \(\begin{bmatrix} A & O \\ C & D \end{bmatrix}\) 可逆。
设 \(\begin{bmatrix} A & O \\ C & D \end{bmatrix}^{-1} = \begin{bmatrix} X & Y \\ Z & W \end{bmatrix}\),则有 \(\begin{bmatrix} A & O \\ C & D \end{bmatrix} \begin{bmatrix} X & Y \\ Z & W \end{bmatrix} = \begin{bmatrix} I & O \\ O & I \end{bmatrix}\),
从而有 \(\begin{cases}AX = I \\AY = O \\CX + DZ = O \\CY + DW = I\end{cases}\)。解得 \(\begin{cases} X = A^{-1} \\ Y = O \\ Z = -D^{-1}CA^{-1} \\ W = D^{-1} \end{cases}\)。
从而 \(\begin{bmatrix} A & O \\ C & D \end{bmatrix}^{-1} = \begin{bmatrix} A^{-1} & O \\ -D^{-1}CA^{-1} & D^{-1} \end{bmatrix}\)。
矩阵运算对逆的影响¶
- \((A^{-1})^{-1} = A\)
- \((kA)^{-1} = \displaystyle \frac{1}{k} A^{-1}\)
- \((AB)^{-1} = B^{-1} A^{-1}\)
矩阵的初等变换¶
用变换矩阵的乘法表示矩阵的初等变换:左乘初等矩阵为行变换、右乘初等矩阵为列变换。
矩阵的初等变换包括:
- 交换两行(列)的变换:\(E_{ij}\) \(:=\) 在 \(I\) 中交换对应的两行(列)。\(\det(E_{ij}) = -1\),由实际意义可知 \(E_{ij}^{-1} = E_{ij}\);
- 倍乘一行(列)的变换:\(E_{i, c}\) \(:=\) 在 \(I\) 中第 \(i\) 行(列) \(\times c\)。\(\det(E_{i, c}) = c\),由实际意义可知 \(E_{i, c}^{-1} = E_{i, 1/c}\) ;
- 某一行(列)倍乘后加到另一行(列)的变换:\(E_{ij, c}\) \(:=\) 在 \(I\) 中第 \(i\) 行(列)乘 \(c\) 后加到第 \(j\) 行(列)。\(\det(E_{ij, c}) = 1\),\(E_{ij, c}^{-1} = E_{ij, -c}\)。
问题:可逆矩阵 \(A^{n\times n}\) 是否可以通过有限次初等行变换变为 \(E\) —— 与解方程组的过程一致。
向量¶
将线性方程组 \(A\mathbf{x} = \mathbf{b}\) 看作 \(x_1 \mathbf{\alpha}_1 + x_2 \mathbf{\alpha}_2 + \dots + x_n \mathbf{\alpha}_n = \mathbf{b}\),从而得到向量的线性相关性、线性无关性、线性表示等概念。
线性相关与线性表出¶
为方便表记,约定 \(A = \begin{bmatrix} \mathbf{\alpha}_1 & \mathbf{\alpha}_2 & \dots & \mathbf{\alpha}_n \end{bmatrix}\),\(\mathbf{x} = \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix}\),\(\mathbf{b} = \mathbf{\beta}\)。
向量组 \(\mathbf{\alpha}_1, \mathbf{\alpha}_2, \dots, \mathbf{\alpha}_n\) 是线性相关的,当且仅当存在不全为 \(0\) 的数 \(x_1, x_2, \dots, x_n\) 使得 \(x_1 \mathbf{\alpha}_1 + x_2 \mathbf{\alpha}_2 + \dots + x_n \mathbf{\alpha}_n = \mathbf{0}\)。即方程组 \(A\mathbf{x} = \mathbf{0}\) 有非零解。
向量 \(\mathbf{\beta}\) 可以由向量组 \(\mathbf{\alpha}_1, \mathbf{\alpha}_2, \dots, \mathbf{\alpha}_n\) 线性表示,当且仅当存在数 \(x_1, x_2, \dots, x_n\) 使得 \(x_1 \mathbf{\alpha}_1 + x_2 \mathbf{\alpha}_2 + \dots + x_n \mathbf{\alpha}_n = \mathbf{\beta}\)。即方程组 \(A\mathbf{x} = \mathbf{\beta}\) 有解。
向量组 \(\mathbf{\alpha}_1, \mathbf{\alpha}_2, \dots, \mathbf{\alpha}_n\) 线性相关 \(\Leftrightarrow\) \(\mathbf{\alpha}_1, \mathbf{\alpha}_2, \dots, \mathbf{\alpha}_n\) 中至少有一个向量可以由其他向量线性表示。
向量组 \(\mathbf{\alpha}_1, \mathbf{\alpha}_2, \dots, \mathbf{\alpha}_n\) 线性无关 \(\Leftrightarrow\) \(\mathbf{\alpha}_1, \mathbf{\alpha}_2, \dots, \mathbf{\alpha}_n\) 中任何一个向量都不能由其他向量线性表示。
往向量组中添加向量对线性相关性的影响¶
(Base Case) 由单个非零向量组成的向量组是线性无关的;
(Inductive Case) 往线性无关组中添加向量,如果添加到向量不能用原来组内的向量线性表示,那么新的向量组是线性无关的。
往向量组中添加向量:要么新的向量组变为线性相关的;要么向量组保持线性无关。即,添加向量增加了向量组的线性相关性。(考虑齐次方程组的情形,添加越多未知数,方程组越可能有不足够的约束条件,从而导致齐次方程组有非零解)
往向量组中添加维数,线性相关性减少。同样考虑齐次方程组的情形,添加维数相当于增加新的方程,这增加了约束条件,从而导致齐次方程组有更高的概率只有零解。
如果 \(\mathbf{\alpha_1} \dots \mathbf{\alpha_n}\) 非零且两两正交,那么 \(\mathbf{\alpha_1} \dots \mathbf{\alpha_n}\) 一定线性无关。反之未然。
向量组的等价¶
对于向量组 \(I : \mathbf{\alpha}_1, \mathbf{\alpha}_2, \dots, \mathbf{\alpha}_n\) 和 \(II: \mathbf{\beta}_1, \mathbf{\beta}_2, \dots, \mathbf{\beta}_m\):
- 如果每一个 \(II\) 中的向量 \(\mathbf{\beta}_1, \mathbf{\beta}_2, \dots, \mathbf{\beta}_m\) 都可以由向量组 \(I\) 线性表示,那么称向量组 \(II\) 可由 \(I\) 线性表示;
- 如果每一个 \(I\) 中的向量 \(\mathbf{\alpha}_1, \mathbf{\alpha}_2, \dots, \mathbf{\alpha}_n\) 都可以由向量组 \(II\) 线性表示,那么称向量组 \(I\) 可由 \(II\) 线性表示;
如果向量组 \(I\) 可由向量组 \(II\) 线性表示,且向量组 \(II\) 可由向量组 \(I\) 线性表示,那么称向量组 \(I\) 和 \(II\) 等价。
极大线性无关组与向量组的秩¶
极大线性无关组:向量组中的向量组成的子向量组,这个子向量组是线性无关的,但是再添加任何一个原先向量组中的向量都会使得这个子集线性相关。
向量组的秩:向量组的极大线性无关组的向量个数。
寻找极大线性无关组¶
使用下面的方法寻找所有可能的极大线性无关组:
- 通过初等行变换将矩阵化为行阶梯形矩阵,确定向量组的秩(三秩相等);
- 选取非零的 \(r\) 阶子式,将其对应的列向量组成的向量组就是极大线性无关组(行变换不改变列向量的相对位置,不改变矩阵的秩)。
将第 2 步简化为寻找每行第一个非 \(0\) 的数所在的列,能够快速地找到一组极大线性无关组。
极大线性无关组与向量组的秩的性质¶
- 向量组与其对应的极大线性无关组是等价的
- 向量组的极大线性无关组不一定唯一
- 如果 \(I: \mathbf{\alpha}_1, \mathbf{\alpha}_2, \dots, \mathbf{\alpha}_n\),\(II: \mathbf{\alpha}_1, \mathbf{\alpha}_2, \dots, \mathbf{\alpha}_n, \mathbf{\beta}\):
- \(r(I) = r(II)\) 当且仅当 \(\mathbf{\beta}\) 可由 \(\mathbf{\alpha}_1, \mathbf{\alpha}_2, \dots, \mathbf{\alpha}_n\) 线性表示
- \(r(I) = r(II) + 1\) 当且仅当 \(\mathbf{\beta}\) 不能由 \(\mathbf{\alpha}_1, \mathbf{\alpha}_2, \dots, \mathbf{\alpha}_n\) 线性表示
- 对于向量组 \(I : \mathbf{\alpha}_1, \mathbf{\alpha}_2, \dots, \mathbf{\alpha}_n\) 和 \(II: \mathbf{\beta}_1, \mathbf{\beta}_2, \dots, \mathbf{\beta}_m\) :
- 如果 \(I\) 可由 \(II\) 线性表示,那么 \(r(I) \leq r(II)\)。
- 如果 \(I\) 可由 \(II\) 线性表示,而 \(II\) 不能由 \(I\) 线性表示,那么 \(r(I) < r(II)\)。
- 如果 \(I\) 和 \(II\) 等价,那么 \(r(I) = r(II)\)。
- 如果 \(n = m\)(两个向量组有相同个数的向量),那么如果 \(I\) 和 \(II\) 等价,则它们对应的矩阵也有相同的秩。
- 如果 \(r(I) = r(II)\),并且 \(I\) 可由 \(II\) 线性表示,那么 \(I\) 和 \(II\) 等价。
向量组的秩、矩阵的行秩和列秩¶
由矩阵的行向量组成的向量组的秩称为矩阵的行秩;由矩阵的列向量组成的向量组的秩称为矩阵的列秩。
矩阵的行秩、列秩、矩阵的秩三秩相等。3
非齐次线性方程组解的结构¶
通过向量理论研究线性方程组,可以自然地得到:
\(A\mathbf{x} = \mathbf{b}\) 有解当且仅当 \(r(A) = r(\begin{bmatrix} A & \mathbf{b} \end{bmatrix})\);
\(A\mathbf{x} = \mathbf{b}\) 无解当且仅当 \(r(A) < r(\begin{bmatrix} A & \mathbf{b} \end{bmatrix}) = r(A) + 1\)。
线性方程组¶
线性方程组解的结构¶
秩 \(r(A)\):对方程组 \(A\mathbf{x} = \mathbf{0}\) 的未知数的约束数量。
对于齐次方程组 \(A\mathbf{x} = \mathbf{0}\),有 \(\dim W_0 = n - r(A)\)(齐次方程组的解空间是一个 \(n - r(A)\) 维的子空间)。
线性映射的维数定理:设 \(V, W\) 为 \(\mathbb{P}\) 上两个线性空间并且 \(\dim V\) 有限,对线性映射 \(\varphi \in \operatorname{Hom}_{\mathbb{P}}(V, W)\),有 \(\dim\operatorname{Im}(\varphi) + \dim\operatorname{Ker}(\varphi) = \dim V\)。
对于齐次方程组 \(A\mathbf{x} = \mathbf{0}\),如果 \(r(A) = n\),那么只有零解;如果 \(r(A) < n\),那么有无穷多解。
对于非齐次方程组 \(A\mathbf{x} = \mathbf{b}\),只有当 \(r(A) = r(\begin{bmatrix} A & \mathbf{b} \end{bmatrix})\) 时才有解,解的结构是特解加上对于的齐次方程组的通解。
任意两个非齐次的解之差是对应齐次方程组的解。
解空间:对于 \(A\mathbf{x} = \mathbf{0}\),解空间的基是 \(n - r(A)\) 个线性无关的解向量;对于 \(A\mathbf{x} = \mathbf{b}\),解空间是特解 + 对应的齐次方程组的解空间。
基础解系:解向量的最大线性无关组;解空间的基。
线性方程组的一般求解法¶
矩阵运算对线性方程组的影响¶
- 如果 \(A^{m \times n}\),\(B^{n \times s} = \begin{bmatrix} \mathbf{\beta}_1 & \mathbf{\beta}_2 & \dots & \mathbf{\beta}_s \end{bmatrix}\),并且 \(AB = 0\),那么 \(\beta_1, \beta_2, \dots, \beta_s\) 是 \(A\mathbf{x} = \mathbf{0}\) 的解4
- 如果 \(A\mathbf{x} = \mathbf{0}\) 与 \(B\mathbf{x} = \mathbf{0}\) 同解,那么 \(r(A) = r(B)\)
- 如果 \(A\mathbf{x} = \mathbf{b}\) 与 \(B\mathbf{x} = \mathbf{b}\) 同解,那么 \(r(A) = r(B)\)
- 设 \(I: A\mathbf{x} = \mathbf{0}\),\(II: B\mathbf{x} = \mathbf{0}\),\(III: \begin{bmatrix} A \\ B \end{bmatrix}\mathbf{x} = \mathbf{0}\)。则 \(III\) 的解空间是 \(I\) 和 \(II\) 的解空间的并集。(还原成方程组的形式,这个结论是显然的)
求解两个方程组的公共解¶
设 \(I: A\mathbf{x} = \mathbf{0}\),\(II: B\mathbf{x} = \mathbf{0}\),求解 \(I\) 和 \(II\) 的公共解。
并设 \(I\) 的基础解系为 \(\mathbf{\alpha}_1, \mathbf{\alpha}_2, \dots, \mathbf{\alpha}_n\),\(II\) 的基础解系为 \(\mathbf{\beta}_1, \mathbf{\beta}_2, \dots, \mathbf{\beta}_l\)。
假设 \(\mathbf{\gamma}\) 是 \(I\) 和 \(II\) 的公共解,那么 \(\mathbf{\gamma}\) 必然能够通过 \(A\) 的基础解系线性表出;同理,\(\mathbf{\gamma}\) 必然能够通过 \(B\) 的基础解系线性表出。那么:
存在 \(x_1, x_2, \dots, x_n\) ,\(y_1, y_2, \dots, y_l\) 使得
原问题转化为求解线性方程组
将该线性方程组的解中的 \(x_1, x_2, \dots, x_n\) 或者 \(y_1, y_2, \dots, y_l\) 代入到 \(\mathbf{\gamma}\) 中,即可得到所有的公共解。
两个方程组同解的条件¶
一般是已知两个方程组同解,求解未知的参数。
两个线性方程组同解,必要条件是它们的系数矩阵的秩相等。
通过秩相等以及其他条件进行推理,得到可能的参数,回代验证。
抽象的方程组同解问题:把解设出来。
线性方程组理论的应用¶
利用两个方程组同解证明秩相等¶
可以利用线性方程组的理论证明:
- \(r(AA^T) = r(A)\)、\(r(A^TA) = r(A)\);
- 如果 \(A\) 列满秩,那么 \(r(AB) = r(B)\)。
特征值理论¶
特征值是针对方阵而言的。
特征值与特征向量¶
如果 \(A\mathbf{v} = \lambda \mathbf{v}\),并且 \(\mathbf{v} \neq 0\),那么 \(\lambda\) 是 \(A\) 的特征值,\(\mathbf{v}\) 是 \(A\) 的对应于特征值 \(\lambda\) 的特征向量
用定义求解特征向量:\(A\mathbf{v} = \lambda \mathbf{v}\),即 \((A - \lambda I)\mathbf{v} = \mathbf{0}\),求解 \((A - \lambda I)\mathbf{v} = \mathbf{0}\) 的非零解即可,特征值:\(\det(A - \lambda I) = 0\),特征向量实际上是齐次方程组的解空间的基,解空间又被称为特征子空间。
矩阵的特征多项式:\(f(\lambda) = \det(A - \lambda I) = 0\)。
特征值与特征向量的性质¶
- \(\displaystyle \sum \lambda_i = tr(A)\)
- \(\displaystyle \prod \lambda_i = \det(A)\)
- 属于不同特征值的特征向量线性无关
- \(k\) 重特征值至多有 \(k\) 个线性无关的特征向量,即 \(\dim V_{\lambda} \leq k\)
- 如果 \(r(A) = 1\),那么其特征多项式 \(\displaystyle \det(A - \lambda I) = \lambda^n - \left( \sum_{i = 0}^n a_{ii} \right) \lambda^{n - 1}\),从而 \(\lambda_1 = \lambda_2 = \dots = \lambda_{n-1} = 0\),\(\lambda_n = tr(A)\)
- 一眼就能看出 \(r(A) = 1\) 的矩阵:\(\alpha \beta^T\)(\(\alpha, \beta \neq \mathbf{0}\)),并且对于这样的矩阵,\(tr(A) = \alpha^T \beta = <\alpha, \beta>\)
- \(A^{n \times n}\),如果 \(A\) 是上三角矩阵 \(\begin{bmatrix} a_{11} & a_{12} & \dots & a_{1n} \\ 0 & a_{22} & \dots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \dots & a_{nn} \end{bmatrix}\),那么 \(A\) 的特征值是对角线上的元素 \(a_{11}, a_{22}, \dots, a_{nn}\)
- 上三角行列式的计算:\(\displaystyle \begin{vmatrix} a_{11} - \lambda & a_{12} & \dots & a_{1n} \\ 0 & a_{22} - \lambda & \dots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \dots & a_{nn} - \lambda \end{vmatrix} = \prod_{i = 1}^n (a_{ii} - \lambda)\)
- 如果 \(\alpha\), \(\beta\) 是 \(A\) 关于特征值 \(\lambda\) 的特征向量,那么 \(k_1\alpha + k_2\beta\) 也是 \(A\) 关于特征值 \(\lambda\) 的特征向量
- 如果 \(\alpha\),\(\beta\) 是 \(A\) 关于不同特征值的特征向量,那么 \(\alpha + \beta\) 不是 \(A\) 的特征向量
- 设 \(f(x)\) 为矩阵 \(A\) 的特征多项式,则有 \(f(A) = O\),即特征多项式是一个零化多项式(Hamilton-Cayley 定理)
- 最小多项式:首项系数为 \(1\)、次数最低的零化多项式,最小多项式的根都是特征值,所有零化多项式都是最小多项式的倍式,但并不是所有零化多项式的所有根都是特征值
矩阵运算对特征值、特征向量的影响¶
已知矩阵 \(A\) 的特征值 \(\lambda\) 和其对应的特征向量 \(\mathbf{v}\),即 \(A\mathbf{v} = \lambda \mathbf{v}\),那么可以推出:
- \(\det(\lambda I - A^T) = \det(\lambda I - A) = 0\),即 \(\lambda\) 是 \(A^T\) 的特征值;
- \(\displaystyle A^{-1}\mathbf{v} = \frac{1}{\lambda} \mathbf{v}\),\(\displaystyle \frac{1}{\lambda}\) 是 \(A^{-1}\) 的特征值,\(\mathbf{v}\) 是 \(A^{-1}\) 的特征向量;
- \(A^k \mathbf{v} = \lambda^k \mathbf{v}\),\(\lambda^k\) 是 \(A^k\) 的特征值,\(\mathbf{v}\) 是 \(A^k\) 的特征向量;
- \((A + kI) \mathbf{v} = (\lambda + k) \mathbf{v}\),\(\lambda + k\) 是 \(A + kI\) 的特征值,\(\mathbf{v}\) 是 \(A + kI\) 的特征向量;
- 对于任意多项式 \(g()\),\(g(A)\mathbf{v} = g(\lambda) \mathbf{v}\),即 \(g(\lambda)\) 是 \(g(A)\) 的特征值,\(\mathbf{v}\) 是 \(g(A)\) 的特征向量。
- \(\displaystyle A^\star \mathbf{v} = \det(A) \frac{1}{\lambda} \mathbf{v}\),\(\displaystyle \frac{\det(A)}{\lambda}\) 是 \(A^\star\) 的特征值,\(\mathbf{v}\) 是 \(A^\star\) 的特征向量。
Note
以上的结论 3, 5 是 \(\Rightarrow\) 的关系,不保证反过来的结论一定成立。
如果追加条件 \(P^{-1}AP = B\),那么可以推出:
- \(B(P^{-1}\mathbf{v}) = \lambda (P^{-1}\mathbf{v})\),\(P^{-1}\mathbf{v}\) 是 \(B\) 的特征向量,\(\lambda\) 是 \(B\) 的特征值。
如果追加条件 \(A = P^{-1}BP\),那么可以推出:
- \(A(P\mathbf{v}) = \lambda (P\mathbf{v})\),\(P\mathbf{v}\) 是 \(A\) 的特征向量,\(\lambda\) 是 \(A\) 的特征值。
特征值与线性方程组的联系¶
例. 已知 \(A\mathbf{x} = \mathbf{b}\) 的解是 \(5\mathbf{b} + k_1 \mathbf{\alpha}_1 + k_2 \mathbf{\alpha}_2\),求 \(A\) 的特征值。
解. 由解的结构,\(5\mathbf{b}\) 是非齐次方程 \(A\mathbf{x} = \mathbf{b}\) 的解,从而 \(\displaystyle A\mathbf{b} = \frac{1}{5}\mathbf{b}\),即 \(\displaystyle \frac{1}{5}\) 是 \(A\) 的特征值,属于该特征值的特征向量是 \(\mathbf{b}\)。又由于 \(\mathbf{\alpha}_1\) 和 \(\mathbf{\alpha}_2\) 是 \(A\mathbf{x} = \mathbf{0}\) 的解,从而 \(A\mathbf{\alpha}_1 = 0 = 0 \mathbf{\alpha}_1\),\(A\mathbf{\alpha}_2 = 0 = 0 \mathbf{\alpha}_2\),从而 \(0\) 是 \(A\) 的特征值,属于该特征值的特征向量是 \(\mathbf{\alpha}_1\) 和 \(\mathbf{\alpha}_2\)。
矩阵的相似性¶
如果存在可逆矩阵 \(P\) 使得 \(P^{-1}AP = B\),那么称 \(A\) 和 \(B\) 相似,记作 \(A \sim B\)。
相似是等价关系,满足自反、对称、传递。
矩阵运算对相似性的影响¶
若 \(A = P^{-1}BP\) 则有:
- \((A + kI) = P^{-1} (B + kI) P\),即 \((A + kI) \sim (B + kI)\);
- \(A^k = P^{-1} B^k P\),即 \(A^k \sim B^k\);
- \(A^{-1} = P^{-1} B^{-1} P\),即 \(A^{-1} \sim B^{-1}\);
- \(A^\star = (P^\star)^{-1} B^\star P^\star\),即 \(A^\star \sim B^\star\);
- \(A^T = ({P^T})^{-1} B^T P^T\),即 \(A^T \sim B^T\)。
矩阵的相似对角化¶
相似对角化:\(P^{-1}A P = \Lambda\),其中 \(\Lambda = \begin{bmatrix} \lambda_1 I_{k_1} & & & \\ & \lambda_2 I_{k_2} & & \\ & & \ddots & \\ & & & \lambda_s I_{k_s} \end{bmatrix}\),\(k_i\) 是 \(\lambda_i\) 对应的特征值的重数,\(I_{k_i}\) 是 \(k_i\) 阶单位矩阵。
解方程组 \(A\begin{bmatrix} \mathbf{\gamma}_{1} & \dots & \mathbf{\gamma}_{n} \end{bmatrix} = \begin{bmatrix} \mathbf{\gamma}_{1} & \dots & \mathbf{\gamma}_{n} \end{bmatrix} \begin{bmatrix} d_1 & & \\ & \ddots & \\ & & d_n\end{bmatrix}\) (\(P^{-1}A P = D\),两边同左乘 \(P\))可以得到:
\(P = \begin{bmatrix} \mathbf{v}_{11} \mathbf{v}_{12} \dots \mathbf{v}_{1k_1} \mathbf{v}_{21} \mathbf{v}_{22} \dots \mathbf{v}_{2k_2} \dots \mathbf{v}_{s1} \mathbf{v}_{s2} \dots \mathbf{v}_{sk_s} \end{bmatrix}\),\(\mathbf{v}_{ij}\) 是 \(\lambda_i\) 对应的特征值的线性无关的特征向量。
这个过程还可以说明,可以相似对角化的矩阵,所有的特征向量线性无关,因为 \(P\) 是可逆矩阵,从而 \(P\) 的列向量线性无关。
相似的一个意义:将矩阵看作列向量组,矩阵的特征值与选取的基向量无关,可以通过变基求解矩阵的特征值。
关于矩阵的相似对角化,下列命题等价:
- 矩阵 \(A^{n \times n}\) 可对角化
- \(A\) 有 \(n\) 个线性无关的特征向量
- \(A\) 的每个特征值的特征子空间的维数等于特征值的重数,即 \(\dim V_{\lambda_i} = k_i\)
- \(A\) 的特征子空间的维数之和等于 \(n\),即 \(\dim V_{\lambda_1} + \dim V_{\lambda_2} + \dots + \dim V_{\lambda_s} = n\)
判断是否可以相似对角化:¶
- 实对称矩阵一定可以相似对角化
- 有 \(n\) 个不同的特征值的矩阵一定可以相似对角化
- 以上两个条件都不满足,计算重数大于 \(1\) 的特征值的特征子空间的维数,即计算 \(\dim V_{\lambda_i} = n - r(A - \lambda_i I)\),如果所有的 \(\dim V_{\lambda_i} = k_i\),则可以相似对角化。(先算特征值,再算 \(A - \lambda_i I\) 的秩)
实对称矩阵¶
实对称矩阵一定可以相似对角化,并且实对称矩阵属于不同特征值的特征向量相互正交。5
实对称矩阵的特征值都是实数。
实对称矩阵可以使用正交矩阵相似对角化,即存在正交矩阵 \(Q\) 使得 \(Q^{-1} A Q = Q^{T} A Q = \Lambda\),其中 \(\Lambda\) 是由矩阵 \(A\) 的特征值组成的对角矩阵。
求满足 \(Q^{T}AQ = Q^{-1}AQ = \Lambda\) 的正交矩阵 \(Q\):
- 求特征值、特征向量;
- 改造特征向量使之正交化:
- 如果特征值不同,由于实对称矩阵属于不同特征值的特征向量相互正交,只需要单位化这些特征向量; - 需要单位化的原因:\(A^T A\) 的各元素是 \(A\) 的列向量的内积,而正交矩阵要求 \(A^T A = I\),从而要求 \(A\) 的列向量正交,并且模长为 \(1\)
- 如果特征值代数重数大于 \(1\),对应的特征向量不正交,需要进行 Schmidt 正交化,然后单位化。
Schmidt 正交化¶
设 \(\alpha_1, \alpha_2, \dots \alpha_n\) 线性无关,通过下面的方法构造 \(\text{span}(\alpha_1, \alpha_2, \dots \alpha_n)\) 的一组正交基 \(\beta_1, \beta_2, \dots \beta_n\):
- \(\displaystyle \beta_1 = \alpha_1\);
- \(\displaystyle \beta_2 = \alpha_2 - \frac{\alpha_2 \cdot \beta_1}{\beta_1 \cdot \beta_1} \beta_1\);
- \(\displaystyle \beta_3 = \alpha_3 - \frac{\alpha_3 \cdot \beta_1}{\beta_1 \cdot \beta_1} \beta_1 - \frac{\alpha_3 \cdot \beta_2}{\beta_2 \cdot \beta_2} \beta_2\);
- ...;
- \(\displaystyle \beta_n = \alpha_n - \frac{\alpha_n \cdot \beta_1}{\beta_1 \cdot \beta_1} \beta_1 - \frac{\alpha_n \cdot \beta_2}{\beta_2 \cdot \beta_2} \beta_2 - \dots - \frac{\alpha_n \cdot \beta_{n - 1}}{\beta_{n - 1} \cdot \beta_{n - 1}} \beta_{n - 1}\)。
Schmidt 正交化的几何直观:\(\displaystyle \frac{\alpha_2 \cdot \beta_1}{\beta_1 \cdot \beta_1}\beta_1\) 是 \(\beta_1\) 上 \(\alpha_2\) 的投影,从 \(\alpha_2\) 中减去这个投影,得到的向量就是 \(\beta_2\),由三角形法则,\(\beta_2\) 与 \(\beta_1\) 正交。
判断矩阵的相似性¶
如果 \(A \sim B\),则有以下必要条件:
- \(\det(A) = \det(B)\)
- \(tr(A) = tr(B)\)
- \(A \sim \Lambda\),\(B \sim \Lambda\) \(\Rightarrow\) \(r(A) = r(B)\)
- \(\det(A - \lambda I) = \det(B - \lambda I)\) \(\Rightarrow\) \(\lambda_A = \lambda_B\)
满足上面的条件,但是 \(A \sim B\) 不成立的情况:其中一个矩阵无法相似对角化。
判断矩阵的相似性的充分条件:\(A \sim \Lambda\),\(B \sim \Lambda\),由相似的传递性,\(A \sim B\)。
判断两个不可相似对角化的矩阵是否相似¶
任意系数域为 \(\mathbb{K}\) 的矩阵 \(A\),只要其特征值都在 \(\mathbb{K}\) 中,那么一定存在一个与之相似的 Jordan 标准型矩阵。
使用相似的传递性,可以得到:两个矩阵相似,当且仅当它们的 Jordan 标准型相同。
下面简要介绍 Jordan 标准型的计算方法:
Jordan 标准型块:\(J_{\lambda, n} = \begin{bmatrix} \lambda & 1 & 0 & \dots & 0 \\ 0 & \lambda & 1 & \dots & 0 \\ 0 & 0 & \lambda & \dots & 0 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & 0 & \dots & \lambda \end{bmatrix}_{n \times n}\)
Jordan 标准型:\(J = \begin{bmatrix} J_{\lambda_i} & & & \\ & J_{\lambda_i} & & \\ & & \ddots & \\ & & & J_{\lambda_i} \end{bmatrix}\)
- 求出矩阵 \(A\) 的特征值 \(\lambda_1, \lambda_2, \dots, \lambda_s\);
- 对于每个特征值 \(\lambda_i\),求出其代数重数 \(a_i\) 和几何重数 \(g_i\);
- 当 \(g_i = a_i = k\) 时,特征值 \(\lambda_i\) 对应 \(k\) 个 \(J_{\lambda_i, 1} = \begin{bmatrix} \lambda_i \end{bmatrix}\) 块;
- 当 \(g_i < a_i\) 时,特征值 \(\lambda_i\) 对应 \(g_i\) 个 Jordan 标准型块。它们的大小的计算方法是:从 \(k = 1\) 起,计算每一个 \(\dim \ker(A - \lambda_i I)^k\),直到不变,求出相邻核空间维数的差值 \(\delta_k = \dim \ker(A - \lambda_i I)^k - \dim \ker(A - \lambda_i I)^{k - 1}\), \(\delta_k\) 表示大小大于等于 \(k\) 的 Jordan 块的数量,最后将所有的 Jordan 块按大小从大到小排列;
- 性质:所有 Jordan 标准型块的大小之和等于 \(a_i\);
- 对于二重特征值,当几何重数不等于代数重数时,几何重数只可能是 \(1\),即 Jordan 标准型块一定是 \(\begin{bmatrix} \lambda_i & 1 \\ 0 & \lambda_i \end{bmatrix}\);
- 对于三重特征值,当几何重数不等于代数重数时,几何重数只可能是 \(1\) 或者 \(2\),分别对应 Jordan 标准型块 \(\begin{bmatrix} J_{\lambda_i, 3} \end{bmatrix}\) 和 \(\begin{bmatrix} J_{\lambda_i, 2} & 0 \\ 0 & J_{\lambda_i, 1} \end{bmatrix}\)。
由此可知,两个不可相似对角化的矩阵相似的必要条件是,它们的特征值相同,且对应特征值的几何重数也相同。
有关此时过渡矩阵的计算:广义特征向量(英文)。
二次型¶
为简便起见,以下的讨论都是针对 \(3\) 阶的实二次型。
二次型与二次型矩阵¶
二次型是关于 \(n\) 个变量 \(x_1, x_2, \dots, x_n\) 的二次齐次多项式,三阶的二次型形如:
二次型可以写为矩阵乘法的形式:
对称矩阵 \(A\) 称为二次型 \(f(\mathbf{x})\) 的二次型矩阵。
二次型的秩¶
二次型 \(\mathbf{x}^T A \mathbf{x}\) 的秩被定义为二次型矩阵 \(A\) 的秩。
坐标变换¶
令 \(\begin{cases}x_1 = c_{11}y_1 + c_{12}y_2 + c_{13}y_3 \\ x_2 = c_{21}y_1 + c_{22}y_2 + c_{23}y_3 \\ x_3 = c_{31}y_1 + c_{32}y_2 + c_{33}y_3 \end{cases}\),即 \(x = Cy\),其中 \(C = \begin{bmatrix} c_{11} & c_{12} & c_{13} \\ c_{21} & c_{22} & c_{23} \\ c_{31} & c_{32} & c_{33} \end{bmatrix}\)。
如果有矩阵 \(C\) 是可逆矩阵(维护了一个一一对应的映射关系),那么称 \(x = Cy\) 为坐标变换。
对于二次型 \(\mathbf{x}^T A \mathbf{x}\),如果有坐标变换 \(x = Cy\),那么有:\(\mathbf{x}^T A \mathbf{x} = \mathbf{y}^T C^T A C \mathbf{y}\),令 \(C^T A C = B\),那么通过坐标变换得到的矩阵 \(B\) 和原矩阵 \(A\) 是合同的。
合同矩阵¶
如果存在可逆矩阵 \(Q\),使得 \(A = Q^T B Q\),那么称 \(A\) 和 \(B\) 是合同的。
Note
此处并没有要求 \(Q^T\) 是 \(Q\) 的逆矩阵。
当 \(Q^T \neq Q^{-1}\) 时,\(A\) 和 \(B\) 是合同但不相似的,它们的特征值符号相同,而值不尽相同。如果 \(A\) 和 \(B\) 是两个二次型矩阵,此时不存在正交变换 \(\mathbf{x} = C\mathbf{y}\) 使 \(A\) 对应的二次型变换为 \(B\) 对应的二次型。这种情况下,寻找满足 \(A = Q^T B Q\) 的矩阵 \(Q\) 需要通过配方法。
合同关系是一种等价关系,满足自反、对称、传递。
合同矩阵的判定¶
通过标准型的正惯性指数 \(p\) 和负惯性指数 \(q\) 来判定两个矩阵是否合同。(充要条件)
对于实对称矩阵,它们一定与 \(\Lambda = \begin{bmatrix} \lambda_1 & & \\ & \ddots & \\ & & \lambda_3 \end{bmatrix}\) 合同,通过传递性,可以通过它们的特征值的正负来判定是否合同。
对于两个不可相似对角化的矩阵,判定它们是否合同比较复杂,可以使用下面的两个定理进行排除:
定理. 如果矩阵 \(A\) 与 \(B\) 合同,那么它们的秩相等。
定理. 如果矩阵 \(A\) 与 \(B\) 合同,并且其中一个矩阵 \(A\) 是实对称矩阵,那么另一个矩阵 \(B\) 也是实对称矩阵。
二次型的标准型¶
如果二次型中仅有平方项,没有交叉项,那么这个二次型是标准型的。
定理. 任何二次型都存在某一个合适的坐标变换 \(C\) 将其化为标准型。
二次型有两种方法化为标准型:配方法与正交变换法。
配方法化二次型为标准型¶
例. 将二次型 \(f = 1x_1^2 + 1x_2^2 + 4x_3^2 + 5x_1x_2 + 1x_1x_3 + 4x_2x_3\) 化为标准型。
令 \(\begin{cases} \displaystyle y_1 = 2x_1 + 5x_2 + x_3 \\ \displaystyle y_2 = 7x_2 - x_3 \\ \displaystyle y_3 = x_3 \end{cases}\),解出 \(\begin{cases}\displaystyle x_1 = y_1 - \frac{5}{7}y_2 - \frac{12}{7}y_3\\ \displaystyle x_2 = \frac{1}{7} y_2 + \frac{1}{7}y_3\\\displaystyle x_3 = y_3\end{cases}\),即可得到坐标变换矩阵 \(C\)。这种方法得到的矩阵 \(C\) 必然是可逆的:
对于不含平方项的二次型,通过先作一次坐标变换构造平方差公式,凑出平方项,然后使用与上面相同的方法。
例. 将二次型 \(f = 2x_1x_2 - 4x_1x_3\) 化为标准型。
令 \(\begin{cases} x_1 = y_1 + y_2 \\ x_2 = y_1 - y_2 \\ x_3 = y_3 \end{cases}\),从而:
令 \(\begin{cases} z_1 = y_1 - y_3 \\ z_2 = y_2 + y_3 \\ z_3 = y_3 \end{cases}\),解出 \(\begin{cases} y_1 = z_1 + z_3 \\ y_2 = z_2 - z_3 \\ y_3 = z_3 \end{cases}\),即可得到坐标变换矩阵 \(C\)(\(\mathbf{x} = C \mathbf{z}\)):
Note
使用配方法得到的坐标变换矩阵不一定是正交的,即使通过配方将二次型变换为 \(f = \lambda_1 y_1^2 + \lambda_2 y_2^2 + \dots\)。
正交变换法化二次型为标准型¶
实对称矩阵必可使用正交矩阵相似对角化。即实对称矩阵 \(A\),存在正交矩阵 \(U\),使得 \(U^{-1} A U = \Lambda\),其中 \(\Lambda = \begin{bmatrix} \lambda_1 & 0 & 0 \\ 0 & \lambda_2 & 0 \\ 0 & 0 & \lambda_3 \end{bmatrix}\)。
作坐标变换 \(\mathbf{x} = U \mathbf{y}\):
几何意义上,这是在对圆锥曲线作旋转。从而,正交变换是保持内积不变的变换。
二次型的规范型¶
如果标准型中的系数只有 \(1\) 和 \(-1\),那么这个二次型是规范型的。
使用坐标的伸缩变换将标准型化为规范型,如下面的例子所示。
例. 将 \(f = 11 x_1^2 + 45 x_2^2 + 14 x^3_2\) 化为规范型。
令 \(\begin{cases} x_1 = \sqrt{11} y_1 \\ x_2 = \sqrt{45} y_2 \\ x_3 = \sqrt{14} y_3 \end{cases}\),坐标变换矩阵 \(C = \begin{bmatrix} \sqrt{11} & 0 & 0 \\ 0 & \sqrt{45} & 0 \\ 0 & 0 & \sqrt{14} \end{bmatrix}\),即可得到规范型。
惯性指数¶
正惯性指数 \(p=\) 标准型/规范型中正平方项的个数;
负惯性指数 \(q=\) 标准型/规范型中负平方项的个数。
定理. (Sylvester 惯性定理)任何实二次型可以通过可逆的线性变换 \(\mathbf{x} = C \mathbf{y}\) 化为唯一的规范型。并且经过任意可逆的线性变换 \(\mathbf{x} = C \mathbf{y}\) ,二次型的正负惯性指数不变,且满足 \(p + q = r(f)\)。
Note
使用上面的定理时,需要注意区分对矩阵作线性变换(左右乘可逆矩阵、初等变换)和对二次型作线性变换(令 \(\mathbf{x} = C \mathbf{y}\)),对二次型矩阵而言,实际上是作了两个线性变换 \(A' = C^T A C\)。
并不是每一个线性变换 \(A' = AP\) 都能拆成 \(A' = C^T A C\) 的形式。
正定矩阵¶
正定矩阵是针对二次型矩阵而言的,因此首先必须要有 \(A^T = A\)。
定义:对 \(\forall \mathbf{x} \neq \mathbf{0}\),都有 \(f = \mathbf{x}^T A \mathbf{x} > 0\),那么称 \(A\) 是正定矩阵。
正定矩阵的判定¶
- 平方项系数都是正数;(必要条件)
- 正惯性指数 \(p = n\);(充要条件)
- 与单位矩阵合同;(充要条件)
- 对于实对称矩阵,所有的特征值都是正数;(充要条件)
- 顺序主子式都是正数;(充要条件)
- 存在可逆的 \(P\) 使得 \(A = P^T P\)。(充要条件)
性质:对于矩阵 \(A^TA\),如果 \(A\) 是满秩矩阵,那么 \(A^TA\) 是正定矩阵。对于 \(AA^T\) 也有相同的性质。6
正定矩阵的应用¶
实对称矩阵正定,当且仅当其所有的特征值都是正数。可以通过证明某个矩阵正定来证明这个矩阵可逆。
负定矩阵的判定¶
矩阵负定的一个充要条件为:顺序主子式的符号与 \((-1)^k\) 一致。即,一阶主子式为负,二阶主子式为正,三阶主子式为负,以此类推。