首页 > 代码库 > statistics学习

statistics学习

概要


 

来源:

1660年,德国人使用statt记录人们出生、死亡信息。

定义:

用收集数据、分析数据、由数据得出结论的一组概念、方法。

思想核心:

随机性、规律性及彼此关系。

统计学根基:

1 概率,一个取值为0到1的数,告诉我们某一特定时间有多大机会发生。

2 变量,可能取2个或更多可能值的特征、特质或属性。

   eg. 值变量(d3.js中的range,温度计,等等);类别变量(性别);序列变量(非常赞同、赞同、中立、反对、非常反对)。

 英文:变量-vairable,变量的值-value,变量的个体-element

 经验变量-日常生活-empirical variables;理论变量-数学方法推倒出的变量-theoretical variables-t-/z-/卡方/F-。

3 常量,总有一个固定的价值-constant

 

数据收集


 

问题?好数据与坏数据-如何提高数据收集质量?

1 定义变量,清楚测量的是什么,在做研究前,对变量必须有一个清晰、详尽的定义。

2 观测数据,observational study

  总体,包含所有需研究的个体-population

  普查,收集到总体中所有个体数据-census

  样本,总体的一个被选中的部分-sample

    随机样本,random sample

    一个来自总体的样本,总体的每个个体有一个已知的或相等的机会被包含在该样本之中。是一个合适的、能够被推广应用于更大总体的统计样本。

    方便样本,convenience sample

    很容易很经济得到的样本。

      简单随机样本,simple random sample,后续研究都基于此。

很难区分观测数据中混淆因素的作用,eg.投票中性别对投票结果的影响。  

3 错误及误差

考虑:样本是否合适、响应率、提问措辞、问题位置、访员

抽样误差,sampling error,一种主要的统计误差,+-n%。

 

statistics学习