Linear Algebra and Matrix
Table of Contents
- 1. 矩阵简介
- 2. 方阵的行列式(Determinant)
- 3. 伴随矩阵(Adjoint matrix)
- 4. 逆矩阵
- 5. 矩阵的初等变换(Elementary Transformation)和秩(Rank)
- 6. 方阵的 LU 分解和 Cholesky 分解
- 7. 特征值(Eigenvalue)和特征向量(Eigenvector)
- 8. 向量基本概念
- 9. 向量空间(线性空间)和线性变换
- 10. 正交矩阵(Orthogonal matrix)
- 11. 正定矩阵(Positive-definite matrix)
- 12. 雅可比矩阵(Jacobian Matrix)
1. 矩阵简介
本文主要参考:《工程数学线性代数(第五版),同济大学数学系编》
1.1. 矩阵定义和记法
由
上面矩阵也可简记为:
如果两个矩阵的行数相等、列数也相等,则称它们为 同型矩阵 。
行数和列数都为
1.1.1. 单位矩阵(Identity matrix)
如果
1.1.2. 对角矩阵(Diagonal matrix)
如果一个方阵,不在主对角线上的元素都是 0,那么这个方阵称为对角矩阵(Diagonal matrix),简称对角阵。如:
对角矩阵也记作:
1.2. 矩阵和线性变换(Linear transformations)一一对应
首先介绍一下线性变换的概念。
表示从变量
总结: 矩阵和线性变换之间存在一一对应的关系,可以利用矩阵来研究线性变换,也可以利用线性变换来解释矩阵的含义。
1.2.1. 实例:二维矩阵及其线性变换
1.2.1.1. 投影变换
矩阵
可看作是
Figure 1: 投影变换
1.2.1.2. 旋转变换
矩阵
把
上式可说明
Figure 2: 旋转变换
1.2.1.3. 更多实例
下面实例摘自:2-by-2 matrices with the associated linear maps of R2
其中,蓝色为变换前图形,绿色为变换后图形,中心坐标 (0 0) 用黑点表示。
Figure 3: 实例:二维矩阵对应的线性变换
1.3. 矩阵基本运算
1.3.1. 矩阵加法和减法
两个矩阵作加法的结果是两个矩阵中相同位置的元素对应相加组成的矩阵(只有同型矩阵才能进行加减法)。
矩阵减法类似。
1.3.2. 数与矩阵相乘
数
1.3.3. 矩阵和矩阵相乘
设
记作
注:只有第一个矩阵(左矩阵)的列数等于第二个矩阵(右矩阵)的行数时,两个矩阵才能相乘。
矩阵乘法实例:已知
则矩阵
注:上面例子中,矩阵
1.3.3.1. 矩阵相乘的含义:连续作两个线性变换
设有下面两个线性变换:
怎么求从
而我们知道:
所以矩阵乘积
1.3.4. 矩阵的转置(Transposition)
把矩阵
的转置矩阵为:
矩阵的转置有下面运算规律:
1.3.5. 对称矩阵(Symmetric matrix)
设
如下面
1.3.5.1. 对称矩阵一定能对角化
对于方阵
定理:设
说明 1:这个定理的证明略。矩阵的特征值、正交矩阵等概念在后文有介绍。
说明 2:对称矩阵对角化的具体步骤略,可以参考:《工程数学线性代数(第五版),同济大学数学系编》 5.4 节 对称矩阵的对角化
如,对称矩阵
其中,
1.3.5.2. 对称矩阵优良性质——求幂简单
由上节内容知,对称矩阵一定能对角化。设
2. 方阵的行列式(Determinant)
下面先介绍行列式(Determinant)的基础知识。
二阶行列式的定义为:
三阶行列式的定义为:
上面的定义有一种形象的记忆方法,如下所示:
Figure 4: Sarrus' rule (a mnemonic for the 3 × 3 matrix determinant)
依此类推,可得到
由
2.1. 拉普拉斯展开式(行列式按行或列展开)
介绍拉普拉斯展式前,先介绍“余子式”和“代数余子式”的概念。
在
拉普拉斯展开(Laplace expansion)定理:行列式等于它的任一行(或列)的各元素与其对应的代数余子式乘积之和。
拉普拉斯展开式实例:
当然,还可以按其它行(或列)进行展开,其结果是相同的。
2.2. 克拉默法则求解线性方程组
如果线性方程组
克拉默法则实例:求解下面线性方程组:
直接应用克拉默法则,可得:
参考:https://en.wikipedia.org/wiki/System_of_linear_equations#Cramer.27s_rule
3. 伴随矩阵(Adjoint matrix)
行列式
称为矩阵(方阵)
伴随矩阵有下面性质:
其证明过程可参考:《工程数学线性代数(第五版),同济大学数学系编》2.2 节(矩阵的运算)。
4. 逆矩阵
逆矩阵定义:对于
则说矩阵(方阵)
如果矩阵
容易得到: 矩阵
4.1. 逆矩阵相当于线性变换的逆变换
设从
如果
上式表示从
4.2. 实例:求逆矩阵
已知
求解过程:
4.3. 奇异方阵(Singular Matrix)和非奇异方阵(Nonsingular Matrix)
如果
4.3.1. 可逆方阵就是非奇异方阵(Nonsingular Matrix)
前面介绍过: 矩阵
4.4. 逆矩阵 vs 伴随矩阵
所有矩阵(包括不可逆矩阵)都存在伴随矩阵。如果矩阵可逆,那么它的逆矩阵和伴随矩阵之间只差一个系数
5. 矩阵的初等变换(Elementary Transformation)和秩(Rank)
下面三种变换称为矩阵的初等行变换(Elementary Row Operations):
- 对调两行(对调
两行,记作 ); - 以数
乘某一行中的所有元素(第 行乘 ,记作 ); - 把某一行所有元素的
倍加到另一行对应的元素上去(第 行的 倍加到第 行上,记作 )。
相应的,把上面定义中的“行”换成“列”,即得到矩阵的初等列变换。初等行变换和初等列变换统称为 初等变换(Elementary Transformation) 。
5.1. 等价矩阵(Equivalent Matrix)
如果矩阵
5.2. 矩阵的秩(Rank)
对于
其中的数
例如,下面矩阵
可知上面矩阵
5.2.1. 用秩描述线性方程组是否有解
设有
上式也可以记为
它无解的充分必要条件是:
它有唯一解的充分必要条件是:
它有无限多个解的充分必要条件是:
其证明过程可参考:《工程数学线性代数(第五版),同济大学数学系编》3.3 节(线性方程组的解)。
6. 方阵的 LU 分解和 Cholesky 分解
6.1. 方阵的 LU 分解
方阵的 LU 分解(LU decomposition)就是把它分解为一个下三角矩阵和一个上三角矩阵的乘积。 设
其中
方阵
下面是对方阵
6.2. 埃尔米特矩阵的 Cholesky 分解
6.2.1. 共轭转置矩阵
方阵
设有矩阵:
那么
6.2.2. 埃尔米特矩阵及其 Cholesky 分解
一个复数方阵,如果它和其共轭转置矩阵相同,那么这个复数方阵就称为埃尔米特矩阵(Hermitian Matrix)或者自伴随矩阵(Self-adjoint matrix)。
例如,下面矩阵是埃尔米特矩阵(容易验证
显然, 实数对称矩阵都是埃尔米特矩阵。
方阵
如果方阵
下面是对方阵
7. 特征值(Eigenvalue)和特征向量(Eigenvector)
设
成立,那么数
7.1. 特征多项式(Characteristic polynomial)和特征方程(Characteristic equation)
定义矩阵特征值时采用的关系式
这是
也即:
上式是以
特征方程在复数范围内恒有解。
7.2. 实例:求特征值和特征向量
求矩阵
求解步骤如下:
由矩阵
当
当
注:若
7.3. 特征值性质
7.3.1. 特征值之和等于主对角线元素和
设
7.3.2. 特征值之积等于矩阵对应行列式
设
7.4. 求解特征值的高效算法
通过求解特征方程来得到特征值,这种方法的效率太低,当矩阵的阶数比较大时不可行。
一些高效的求特征值算法可参考:https://en.wikipedia.org/wiki/Eigenvalue_algorithm
8. 向量基本概念
若干个同维数的列向量(或同维数的行向量)所组成的集合叫做向量组。
8.1. 向量组的线性相关性
给定向量组
则称向量组
8.2. 向量能否由向量组线性表示
给定向量组
则称向量
8.3. 向量的内积(Inner product)
设有
向量
向量的内积是两个向量的一种运算,其结果是一个实数。
8.4. 向量的正交性
如果
8.5. 向量的范数(长度)
向量
当
有时,我们会看到无穷范数(Infinity Norm)的记号,它的定义为:
8.6. 点积(内积)的几何含义(反映两向量的夹角大小)
在几何中,内积(Inner product)又称为点积(dot product)。两向量点积记作
如果两向量夹角为
如果两向量夹角为
总结: 内积(点积)反映着两向量的夹角大小 。
9. 向量空间(线性空间)和线性变换
向量空间(Vector space)又称线性空间,它是线性代数中的基本概念。
9.1. 向量空间的简单定义
设
“对于向量的加法和乘数两种运算封闭”的含义是:若
3 维向量的全体
9.1.1. 向量空间实例
实例 1:容易验证集合
是一个向量空间。
实例 2:集合
不是向量空间。因为若
9.1.2. pre-Hilbert space(Inner product space)
如果一个向量空间定义了“内积运算(Inner product)”,则向量空间称为 Inner product space,又称为 pre-Hilbert space.
如何在向量空间中定义“内积运算”呢?
设
(1)
(2)
(3)
(4)
由上面的定义易知:如果定义
参考:
http://mathworld.wolfram.com/InnerProduct.html
https://en.wikipedia.org/wiki/Inner_product_space#Examples
9.1.2.1. 柯西-施瓦兹不等式(Cauchy–Schwarz inequality)
pre-Hilbert space 中的向量
上式称为Cauchy–Schwarz inequality ,也可以写为下面形式:
9.1.3. Hilbert space
完备(complete)的内积空间(inner product space)称为Hilbert space 。
在空间中任取Cauchy sequence ,如果它收敛,且收敛到本空间中的元素,则称该空间是完备的空间。
例如:有理数空间不是完备的,因为存在柯西序列
说明:
关于 Hilbert space 的知识可以从“泛函分析”的相关书籍中找到。
9.2. 向量空间的严格定义
向量空间的严格定义如下:设
(i)
(ii)
(iii) 在
(iv) 对任何
(v)
(vi)
(vii)
(viii)
那么就称
9.3. 向量空间的维数(Dimension)、基(Basis)和坐标(Coordinate)
9.3.1. 维数和基
设
(i)
(ii)
则称向量组
实例:向量空间
9.3.2. 坐标
如果在向量空间
有序数
9.3.3. 实数坐标空间的标准基(自然基)
在
9.3.4. 内积空间的标准正交基(Orthonormal basis)
在一个定义了“内积”运算的向量空间(称为内积空间)中,如果它的基两两正交,则称该基为正交基;如果正交基的基向量的范数(即长度)都为 1,则称正交基为“标准正交基”或"规范正交基"(Orthonormal basis)。
显然,实数坐标空间的“标准基”同时也是“标准正交基”。
注意,在没有定义“内积”运算的空间中,“正交基”一词没有意义。
9.3.4.1. 实例:标准正交基
下面向量组为实数坐标空间
9.3.5. 基变换公式和坐标变换公式
向量空间中,用一个基表示另一个基的表示式称为 基变换公式 。
向量空间中,向量在两个基中的坐标之间的关系式称为 坐标变换公式 。
9.4. 向量空间同构(Isomorphism)
一般地,设
显然,建立坐标以后,任意向量空间中的向量都可以用
总结:任何
9.5. 线性变换(线性映射/线性算子)的严格定义
前面在介绍矩阵时,简单地介绍过线性变换,并提到过 矩阵和线性变换之间存在一一对应的关系 。
下面给出 线性变换(又称线性映射或线性算子) 的严格定义:
设
(i) 任一
(ii) 任一
则称映射
特别地,如果
9.6. 向量空间和线性变换的应用
在图像处理时,一般把图像当作向量(线性)空间来对待。
10. 正交矩阵(Orthogonal matrix)
在矩阵论中,正交矩阵(Orthogonal matrix)是一个元素为实数的方阵,它的各行是单位向量且两两正交,各列也是单位向量且两两正交。 正交矩阵往往记为
正交矩阵还有下面等价的定义:
如果矩阵的逆矩阵就是其转置矩阵,即有:
10.1. 奇异值分解(Singular value decomposition, SVD)
对于
式中:
且
这样的分解就称作矩阵
参考:https://zh.wikipedia.org/wiki/%E5%A5%87%E5%BC%82%E5%80%BC%E5%88%86%E8%A7%A3
10.2. QR 分解(QR decomposition)
实数
其中
即 QR 分解是把矩阵分解成一个正交矩阵与一个上三角矩阵的积。 QR 分解经常用来解决线性最小二乘法问题。
10.3. 特征分解(又称谱分解,Spectral decomposition)
特征分解(Eigendecomposition),又称谱分解(Spectral decomposition)是将矩阵分解为由其特征值和特征向量表示的矩阵之积的方法。需要注意只有“可对角化矩阵”才可以施以特征分解。
参考:https://zh.wikipedia.org/wiki/%E7%89%B9%E5%BE%81%E5%88%86%E8%A7%A3
11. 正定矩阵(Positive-definite matrix)
一个
此外,如果满足的是
例如,单位矩阵都是正定矩阵。不失一般性,假设
又如,矩阵
参考:
正定矩阵的性质及其应用:http://wenku.baidu.com/view/8b8d06e77c1cfad6195fa772.html
11.1. 正定矩阵的充分必要条件
11.1.1. 特征值都大于零的对称矩阵
对称矩阵
11.1.2. 各阶主子式都为正
对称矩阵
另外,对称矩阵
上面结论是判断正定矩阵或负定矩阵的常用方法。
11.2. 正定矩阵应用:通过 Hessian matrix 判断凸函数
11.2.1. 海森矩阵(Hessian matrix)
首先介绍海森矩阵(Hessian matrix)的概念。
假设
由于混合偏导数和求导的顺序无关,所以 Hessian 矩阵是一个对称矩阵。
例如,已知
又如,已知
11.2.2. 开凸集上的函数是凸函数等价于其 Hessian 矩阵半正定
设
(1)
(2)
(3)
(4)
说明:
11.2.3. 实例:判断多元函数是否为凸函数
实例:请判断函数
解:函数
它的各阶主子式
由上节的结论知,
12. 雅可比矩阵(Jacobian Matrix)
假设
则,这些函数的一阶偏导数组成的下面矩阵就是所谓的 雅可比矩阵(Jacobian Matrix) :
雅可比矩阵可以记为
参考:https://zh.wikipedia.org/wiki/%E9%9B%85%E5%8F%AF%E6%AF%94%E7%9F%A9%E9%98%B5
12.1. 实例:雅可比矩阵
设向量值函数:
则
12.2. 雅可比矩阵和切平面(“最优线性逼近”)
如果
下面观察几个特例。
对于最简单的情况(
当
Figure 5: Tangent Plane(摘自http://tutorial.math.lamar.edu/Classes/CalcIII/TangentPlanes.aspx)
总结: 雅可比矩阵表达的是切平面的 Orientation(或切线的斜率)。
12.3. 雅可比行列式
如果
在某个给定点的雅可比行列式提供了
参考:
雅可比行列式 wikipedia