首页 > 代码库 > 机器学习之数学原理笔记(三)

机器学习之数学原理笔记(三)

  1. 正定矩阵

1.1   定义

广义:设M是n阶方阵,如果对任何非零向量z,都有zTMz> 0,其中zT 表示z的转置,就称M正定矩阵。[1] 

狭义定义:一个n阶的实对称矩阵M是正定的的条件是当且仅当对于所有的非零实系数向量z,都有zTMz> 0。其中zT表示z的转置。

1.2   定理与性质

 

l  正定矩阵在合同变换下可化为标准型, 即对角矩阵。

l  所有特征值大于零的对称矩阵(或厄米矩阵)也是正定矩阵。

l  判定定理1:对称阵A为正定的充分必要条件是:A的特征值全为正。

l  判定定理2:对称阵A为正定的充分必要条件是:A的各阶顺序主子式都为正。

l  判定定理3:任意阵A为正定的充分必要条件是:A合同于单位阵。

正定矩阵的性质:

l  正定矩阵一定是非奇异的。奇异矩阵的定义:若n阶矩阵A为奇异阵,则其的行列式为零,即 |A|=0。

l  正定矩阵的任一主子矩阵也是正定矩阵。

l  若A为n阶对称正定矩阵,则存在唯一的主对角线元素都是正数的下三角阵L,使得A=L*L′,此分解式称为 正定矩阵的乔列斯基(Cholesky)分解。

l  若A为n阶正定矩阵,则A为n阶可逆矩阵。

 

  1. 逆矩阵

2.1   逆矩阵的概念

设A是数域上的一个n阶方阵,若在相同数域上存在另一个n阶矩阵B,使得: AB=BA=E。 则我们称B是A的逆矩阵,而A则被称为可逆矩阵。

 

2.2   矩阵求逆

a)       伴随矩阵法

若|A|≠0,则矩阵A可逆,且

 

其中,A*为矩阵A的伴随矩阵。

b)    初等变换法

求逆矩阵的初等变换法

将一n阶可逆矩阵A和n阶单位矩阵I写成一个nX2n的矩阵

  

对B施行初等行变换,即对A与I进行完全相同的若干初等行变换,目标是把A化为单位矩阵。当A化为单位矩阵I的同时,B的右一半矩阵同时化为了A。

如求

  

的逆矩阵A-1。

 

故A可逆并且,由右一半可得逆矩阵A-1=

 

 

2.3   性质

l  可逆矩阵一定是方阵。

l  (唯一性)如果矩阵A是可逆的,其逆矩阵是唯一的。

l  A的逆矩阵的逆矩阵还是A。记作(A-1-1=A。

l  可逆矩阵A的转置矩阵AT也可逆,并且(AT-1=(A-1T (转置的逆等于逆的转置)

l  若矩阵A可逆,则矩阵A满足消去律。即AB=O(或BA=O),则B=O,AB=AC(或BA=CA),则B=C。

l  两个可逆矩阵的乘积依然可逆。

l  矩阵可逆当且仅当它是满秩矩阵

 

 

  1. Sigmoid函数

Sigmoid函数是一个在生物学中常见的S型的函数,也称为S型生长曲线。[1] 

Sigmoid函数由下列公式定义

 

其对x的导数可以用自身表示:

 

 

在信息科学中,由于其单增以及反函数单增等性质,Sigmoid函数常被用作神经网络的阈值函数,将变量映射到0,1之间。

 

  1. 极大似然估计

4.1   定义

最大似然法(Maximum Likelihood,ML)也称为最大概似估计,也叫极大似然估计,是一种具有理论性的点估计法,此方法的基本思想是:当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大,而不是像最小二乘估计法旨在得到使得模型能最好地拟合样本数据的参数估计量。

4.2   特点

它是在总台类型已知的条件下使用的一种参数估计方法。

4.3   极大似然估计法

求参数的最大似然估计的步骤:

(1)写出似然函数

 

(2)取对数

 

(3)将对数似然函数对各参数求偏导数并令其为零,得对数似然方程组。若总体分布中只有一个未知参数,则为一个方程,称对数似然方程。

(4)从方程组中解出q1,q2,…qk,并记为

 

 

  1. 最小二乘法

5.1   定义

 最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。

 

5.2   线性最小二乘的基本公式

 考虑超定方程组(超定指未知数小于方程个数):

 

其中m代表有m个等式,n代表有 n 个未知数  ,m>n ;将其进行向量化后为:

 

 

,     

显然该方程组一般而言没有解,所以为了选取最合适的  让该等式"尽量成立",引入残差平方和函数S

 

(在统计学中,残差平方和函数可以看成n倍的均方误差MSE)

当  时,  取最小值,记作:

 

通过对 进行微分[2]  求最值,可以得到:

 

如果矩阵  非奇异则  有唯一解[3]  :

 

 

  1. 协方差

6.1   定义

 在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。

期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为:

 

从直观上来看,协方差表示的是两个变量总体误差的期望。

如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

如果X与Y是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足E[XY]=E[X]E[Y]。

但是,反过来并不成立。即如果X与Y的协方差为0,二者并不一定是统计独立的。

协方差Cov(X,Y)的度量单位是X的协方差乘以Y的协方差。而取决于协方差的相关性,是一个衡量线性独立的无量纲的数。

协方差为0的两个随机变量称为是不相关的。

 

机器学习之数学原理笔记(三)