首页 > 代码库 > 概率与统计知识复习

概率与统计知识复习

一. 随机变量

1.1 概率分布

概率分布

定义 : 随机变量X取各个值$x_i$的概率称为X的概率分布. 对于离散型随机变量: $ P(X=x_i)=p_i, (i=1,2,3,...) $

特性 :
a. $p_i>0$
b. $\sum_i^{\infty} p_i =1 $

累积概率分布(CDF)

定义 : $F(x)=P(X \le x) $, 对于离散型随机变量 $F(x)=\sum_{x_i \le x} p_i $

连续型随机变量的分布函数(CDF)和概率密度函数(PDF)

$$ F(x)=\int_{-\infty}^{\infty} f(t) dt $$
称$f(x)$为X的概率密度函数(PDF)

性质:
$$ f(x)\ge 0, \int_{-\infty}^{\infty} f(x) dx =1 $$
$$P(a<x<b)= \int_{a}^{b} f(x) dx $$

1.2 随机变量的数值特征

1. 数学期望

定义 :
离散型: $$ E(X) = \sum_{i=1}^{N} p_i x_i $$ 其中$p_i$为$X_i$发生的概率, $\sum p_i =1 $
连续型: $$ E(X) = \int_{-\infty}^{\infty} x f(x) dx $$

特性: $$E(a+bX) = a+b E(X) $$ 式中: a,b为常数

2. 方差

定义:
离散型: $$\sigma^2_X = var(X)=E(X-E(X))^2 = \sum_{i=}^N p_i (x_i - \mu_X)^2 $$
连续型: $$\sigma^2_X = var(X)=\int_{-\infty}^{\infty} (x-\mu_X)^2 f(x) dx $$

性质: $$ var(a+bX) = b^2 var(X) $$

切比雪夫不等式: $$P(\mu - k \rho \le X \le \mu + k \rho) \ge 1-\frac{1}{k^2} $$

3. 偏度和峰度

r 阶矩: $E(X)^r $
r阶中心矩 : $E(X-\mu_X)^r $

偏度(skew) : $$ S = \frac{E(X-\mu_X)^3}{\sigma^3_X} $$
S = 0: 概率密度函数对称;
S > 0: 概率密度函数有长的右拖尾(右偏);
S < 0: 概率密度函数有长的左拖尾(左偏)

峰度(kurtosis): $$ K =\frac{E(X-\mu_X)^4}{\sigma^4_X}  $$
正态分布: K=3, S=0;
K > 3: 分布突起程度大于正态分布
K < 3: 分布较正态分布更平坦

1.3 随机变量的联合分布

联合概率

离散型 : $$P(X=x_i, Y=y_j) = p _k ( i,j = 1,2,....)$$
连续型: $$ P(a<X<b, c<Y<d) = \int_a^b dx \int_c^d f(x,y)dy $$

边际概率

离散型: $$ f_X(x) = P(X=x_i)=\sum_{j=1}^{\infty} p_{ij} $$
连续型: $$ f_X(x) = \int_{-\infty}^{\infty} f(x,y)dy $$

当两个随机变量相互独立时: $f(x,y) = f_X(x) f_Y(y) $

条件概率函数

离散型: $$P(X=x_i | Y = y_j) = \frac{P(X=x_i,Y=y_j}{P(Y=y_j)}  $$
连续型: $$f_X(x|y) = \frac{f(x,y)}{f_Y(y)} $$

协方差和相关系数

协方差: $$ cov(X,Y) = E[( X-\mu_X)(Y-\mu_Y)] $$
协方差度量两个变量的同时波动,如果两个变量同方向变动,则协方差为正,如果两个变量反方向变动,则协方差为负. 如果两个随机变量独立,则协方差为零

当两个变量不是独立的时, 用相关系数度量它们之间的相关程度. $$ \rho = \frac{cov(X,Y)}{\sigma_X \sigma_Y}  $$

二. 总体与样本

1. 基本统计量

样本均值

定义: $$ \bar x = \frac{1}{N} \sum_{i=1}^N x_i $$
其他还有加权平均, 几何平均, 中位数

样本标准差

定义: $$S_x = \sqrt{\frac{1}{N-1}\sum_{i=1}^N (x_i - \bar x)^2 } $$
式中除以N-1, 而不是N的原因是这样得到的样本方差估计量才是无偏的估计量.

样本协方差

定义: $$ C_{xy}=\frac{1}{N-1}\sum_{i=1}^N (x_i - \bar x)(y_i - \bar y) $$

样本相关系数: $$r = \frac{{\sum\limits_{i = 1}^N {({x_i} - \bar x)} ({y_i} - \bar y)}}{{\sqrt {\sum\limits_{i = 1}^N {{{({x_i} - \bar x)}^2}} \sum\limits_{i = 1}^N {{{({y_i} - \bar y)}^2}} } }} = \frac{C_{xy}}{S_x S_y} $$

交叉相关系数: $$r(l) = \frac{C_{xy}(l)}{S_x S_y} , (l = 0,\pm 1, \pm 2, \cdots ) $$
其中:
$$\left\{ {\begin{array}{*{20}{c}}{\frac{1}{N}\sum\limits_{i = 1}^{N - 1} {({x_i} - \bar x)({y_{i + l}} - \bar y),(l = 0,1,2,...)} }\\{\frac{1}{N}\sum\limits_{i = 1}^{N - 1} {({y_i} - \bar y)({x_{i - l}} - \bar x),(l = 0, - 1, - 2,...)} }\end{array}} \right.$$

2. 估计量的性质

无偏性

估计量的均值等于未知参数的真值, 即 $ E(\hat \beta) = \beta $
因为 $E(\bar x) = \dfrac{1}{N}\sum E(x_i) = \mu_x $, 故$\bar x$是 $\mu_x$的无偏估计.

有效性

样本方差最小.
如$\bar x $是 $\mu_x$的最小方差无偏估计

一致性

样本容量增加时, 估计量越来越接近真值. 即: $$ \mathop{\lim} \limits_{N \to \infty} P(|\beta - \hat \beta| < \delta) = 1 $$

三. 重要的概率分布

正态分布

$$ f(x) = \frac{1}{\sigma \sqrt{2\pi}}e^{-(x-\mu)^2/(2\sigma^2)}  $$

标准正态分布( $\mu=0,\sigma=1$):
$$ f(x) = \frac{1}{\sqrt{2\pi}} e^{-x^2/2} $$

性质:

  • 正态分布随机变量的线性组合仍服从正态分布
    如: $ X \sim N(\mu_x, \sigma^2_x), Y \sim N(\mu_y,\sigma^2_y) $, 假定X,Y相互独立, 则它们的线性组合 $z=aX+bY$也服从正态分布
    $$ Z \sim N(a\mu_x+b\mu_y, a^2\sigma^2_x + b^2 \sigma^2_y) $$

根据这个性质, 任何正态分布都可以化为标准正态分布,即
$$ Z=\frac{X-\mu}{\sigma} \sim N(0,1) $$
并且有
$$ P(a<X<b)= P(\frac{a-\mu}{\sigma} < \frac{X-\mu}{\sigma} < \frac{b-\mu}{\sigma}) $$

使用标准正态分布时, 常用记号$z{\alpha}$表示满足条件 $P(Z>z{\alpha}) = \alpha $的点,称$z_{\alpha}$为标准正态分布上的$\alpha$分位数.
同时有 $$ P(-z_{\alpha/2}< Z < z_{\alpha/2}) = 1 -\alpha $$

比如常用$\alpha=0.05$, 于是有$P(-1.96<Z<1.96)=95%$, 对于任意正态分布有 $P(\mu-1.96\sigma <X<\mu+1.96\sigma) = 95% $

正态分布检验

Jarque-Bera统计量是用来检验一组样本是否能够认为来自正态总体的一种方法.
统计量: $$ JB = \frac{T-k}{6} [S^2+\frac{1}{4}(K-3)^2 ] $$
S,K分别为偏度和峰度, 若为原始数据,k=0, 若序列是通过模型估计得到的,k为估计的参数个数.
在正态分布的假设下, JB统计量服从$\chi^2(2)$分布

$\chi^2 $分布

标准正态分布的平方服从自由度为1的$\chi^2$分布, 即$Z^2 \sim \chi^2(1) $
自由度是平方和中的独立变量个数.

如果$Z_1,Z_2,\cdots,Z_k$是k个独立的服从标准正态分布的随机变量,则它们的平方和服从自由度为k的$\chi^2$分布, 即:
$$ \sum Z_i^2 \sim \chi_k^2$$

重要性质:
1). $\chi^2$分布只取正值,并且是偏斜分布,其偏度取决于自由度大小,自由度越大越右偏, 随着自由度增大,逐渐接近正态分布.
2). $\chi^2$分布的期望为自由度k, 方差为2k
3). 如果来自方差为$\sigma^2$的一个正态分布的N个观测值的样本方差为$s^2$,则有 $(N-1)s^2/\sigma^2 \sim \chi^2(N-1) $

t分布

如果Z服从标准正态分布, X服从自由度为k的$chi^2$分布,并且两者相互独立,则随机变量 $t = Z/\sqrt{X/k} $ 服从自由度为k的t分布.

对于一般正态分布,对样本均值$\bar x$进行标准化后,可得到:
$$Z=\frac{(\bar x - \mu)}{s/\sqrt{N}}  \sim t_{N-1} $$

重要结论: 总体方差$\sigma^2$已知时,标准化的统计量Z服从标准正态分布, 当总体方差未知时,用样本标准差代替总体标准差, 但不再服从标准正态分布,而是服从自由度为N-1的t分布.

性质:
1). t分布是对称的
2). 期望值为0, 方差为 $k/(k-2)$ ( 方差大于标准正态分布的方差1, 故t分布的尾部比正态分布更厚)
3). 自由度增大时, t分布趋近于正态分布, 因此也有 $P(-1.96<t<1.96) \approx 95% $

F分布

如果两个服从$chi^2$分布的随机变量相互独立,其自由度分别为$k_1,k_2$,则 $$ F(k_1,k_2) =\frac{\chi^2(k_1)/k_1}{\chi^2(k_2)/k_2} \sim  F(k_1,k_2) $$


性质:
1). F分布与$chi^2$分布类似,只取非负值,并且是斜分布
2). 随着自由度增大,F分布趋近于正态分布

从t分布和F分布的定义可以看出, t分布的平方服从$F(1,k)$, 即 $t_k^2 \sim F(1,k) $
当$k_2$无限大时,F的分母收敛为1, 这时F分布与$\chi^2$分布存在如下关系 $$F(k_1,k_2) = \chi^2(k_1)/k_1 $$

四. 统计推断

1. 参数估计

进行参数估计的方法通常有

  • 矩估计 , 如用样本均值(样本一阶矩)作为总体均值(总体一阶矩)的估计方法
  • 极大似然估计

参数估计的置信度与置信区间
如果随机变量$X \sim N(\mu_x,\sigma^2) $,则有 $$\bar x \sim N(\mu_x, \sigma^2/N) $$
将其标准化得到 $$ Z=\frac{(\bar x - \mu_x)}{\sigma/\sqrt{N}} \sim N(0,1) $$
一般情况下,方差$\sigma^2$是未知的,但可以用样本估计量 $s^2=\sum (x_i-\bar x)^2/(N-1)$来代替,于是有 $$ t = \frac{\bar x - \mu_x}{s/\sqrt{N}} \sim t(N-1) $$
得到 $$P(-t_{\alpha/2} < \frac{\bar x - \mu_x}{s/\sqrt{N}} <t_{\alpha/2}) = 1-\alpha $$
整理得 $$P(\bar x - t_{\alpha/2} s/\sqrt{N} < \mu_x < \bar x + t_{\alpha/2} s/\sqrt{N}) = 1-\alpha $$
即置信度为$1-\alpha$ 的置信区间.

注意理解: 置信区间是随机的,根据不同的观测值会得到不同的区间,而总体均值$\mu_x$虽然未知, 却是一个固定值,所以置信区间应该理解为该区间包含真实$\mu_x$的概率是 $1-\alpha$. 而不能理解为$\mu_x$落在区间中的概率.

2. 假设检验

假设检验的基本思想是小概率反证法。即认为小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生.
反证法是在进行假设检验时,先假设H0正确,在此假设下,若小概率事件A出现的概率很小,例如P(A)=0.01, 经过取样试验,A出现了,则认为假设不合理,不应该接受.于是否定H0. 反之试验中A没有出现, 从而做出接受H0的结论.

  • 原假设 H0
    是关于总体的而非样本的统计量的假设
    总是假设原假设是成立的
    总是有等号 ( =, ≥ 或 ≤ )
  • 备选假设H1
    是原假设的对立
    备选假设是试图要建立的检验
    总是有不等号 (≠, < 或 > )

  • 显著性水平
    原假设为真时, 拒绝原假设的概率

  • 假设检验的步骤
    1) 提出原假设和备选假设
    2) 确定适当的假设检验统计量
    3) 规定显著性水平
    4) 计算检验统计量的值
    5) 做出统计决策
    根据给定的显著性水平,查表得出相应的临界值,并将统计量值与显著性水平下的临界值进行比较,从而得出接受或拒绝原假设的结论.

  • 两类错误
    1) 弃真错误 - 原假设是正确的却拒绝了. 犯这类错误的概率是 P( 拒绝H0 | H0为真)=α
    2) 取伪错误 - 原假设为假却接受了, 犯这类错误的概率为 β

    假设检验中只控制犯第一类错误的概率,而不考虑第二类错误(通常以扩大样本容量的方式来减小其犯错的概率).
    对于给定的显著性水平$\alpha$,根据$\alpha$分为点的定义,由 $P(拒绝H_0 | H_0为真)=\alpha$,求出拒绝域. 如果统计量的值落在拒绝域内则拒绝H0.

  • P值与临界值的关系

    在右侧可见统计量的值越大,P值越小,就越能拒绝原假设.


来自为知笔记(Wiz)