首页 > 代码库 > 统计与分布的相关知识

统计与分布的相关知识

变量

变量按变量值是否连续可分为连续变量与离散变量两种。 连续变量(continuous variable)与离散变量(discrete variable)

连续变量

 在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。

离散变量

 离散变量是指其数值只能用自然数或整数单位计算的则为离散变量.例如,企业个数,职工人数,设备台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得.


数据分布

数据分布的特征

集中趋势(位置)

离中趋势(分散程度)

偏态和峰态(形态)

           技术分享

 

一、集中趋势的度量

分类数据:众数

顺序数据:众数、中位数、分位数

数值型数据:众数、中位数、分位数、平均数

 

概念:

众数(mode):一组数据中出现次数最多的值;数据中重复次数最多的那个数据。 如评选”最佳“,”最受欢迎“等都与众数有关。Mo

中位数(median):排序后处于中间位置上的值。如有5个数,排序后第3个数为中位数,如果为6个数,则对中间两个数求平均结果为中位数。M
e 

四分位数(quartile): 排序后处于25%和75%位置上的值。

平均数(mean): 也称为期望

 简单算数平均:

 加权平均:  

              技术分享

 几何平均:

     技术分享

 几何平均主要用于计算平均增长率;

   技术分享

特点:

1. 众数
  不受极端值影响
  具有不惟一性
  数据分布偏斜程度较大时应用
2. 中位数
  不受极端值影响
  数据分布偏斜程度较大时应用
3. 平均数
  易受极端值影响
  数学性质优良
  数据对称分布或接近对称分布时应用

 

 

关系:    

技术分享

均值在中位数左边为左偏,均值在中位数右边为右偏。

 

二、离散程度的度量

反映各变量值远离其中心值的程度(离散程度)

分类数据:异众比率
顺序数据:四分位差
数值型数据:极差、平均差、方差和标准差
相对位置的度量:标准分数
相对离散程度:离散系数

 

概念:

异众比率(variation ratio): 非众数组的频数占总频数的比例。

       技术分享

例子:

       技术分享

四分位差(quartile deviation):上四分位数与下四分位数之差。反应了中间50%数据的离散程度。

例子:

   技术分享

极差(range):数据中最大值与最小值之差。

方差(variance): 是各个数据分别与其平均数之差的平方的和的平均数; 反映了各变量值与均值的平均差异.

         技术分享    E{x}表示平均数

样本方差:

         技术分享 

         在统计学中样本的均差多是除以自由度(n-1),它是意思是样本能自由选择的程度。当选到只剩一个时,它不可能再有自由了,所以自由度是n-1。

标准差(standard deviation): 是各个数据分别与其平均数之差的平方的和的平均数的平方根;反映了各变量值与均值的平均差异. 反应了数据集的离散程度.

          技术分享   对方差进行开方

标准分数(standard score):也叫z分数(z-score) 是一个分数与平均数的差再除以标准差的过程。用公式表示为z=(x-μ)/σ。其中x为某一具体分数,分数即为值。

 例子:

   技术分享

离散系数:又称为变异系数,常用的是标准差系数,用CV(Coefficient of Variance)表示。标准差与均值的比率。 用公式表示为:CV=σ/μ

  离散系数反映单位均值上的离散程度,常用在两个总体均值不等的离散程度的比较上。若两个总体的均值相等,则比较标准差系数与比较标准差是等价的。在对比情况下,离散系数较大的其分布情况差异也大。

 

分布

连续变量的分布

1.两点分布

 

2.二项分布

 

3.泊松分布 

 

离散变量的分布

1.均匀分布

 

2.指数分布

 

3.正态分布

 

4.标准正态分布

 

统计与分布的相关知识