首页 > 代码库 > statistics学习
statistics学习
概要
来源:
1660年,德国人使用statt记录人们出生、死亡信息。
定义:
用收集数据、分析数据、由数据得出结论的一组概念、方法。
思想核心:
随机性、规律性及彼此关系。
统计学根基:
1 概率,一个取值为0到1的数,告诉我们某一特定时间有多大机会发生。
2 变量,可能取2个或更多可能值的特征、特质或属性。
eg. 值变量(d3.js中的range,温度计,等等);类别变量(性别);序列变量(非常赞同、赞同、中立、反对、非常反对)。
英文:变量-vairable,变量的值-value,变量的个体-element
经验变量-日常生活-empirical variables;理论变量-数学方法推倒出的变量-theoretical variables-t-/z-/卡方/F-。
3 常量,总有一个固定的价值-constant
数据收集
问题?好数据与坏数据-如何提高数据收集质量?
1 定义变量,清楚测量的是什么,在做研究前,对变量必须有一个清晰、详尽的定义。
2 观测数据,observational study
总体,包含所有需研究的个体-population
普查,收集到总体中所有个体数据-census
样本,总体的一个被选中的部分-sample
随机样本,random sample
一个来自总体的样本,总体的每个个体有一个已知的或相等的机会被包含在该样本之中。是一个合适的、能够被推广应用于更大总体的统计样本。
方便样本,convenience sample
很容易很经济得到的样本。
简单随机样本,simple random sample,后续研究都基于此。
很难区分观测数据中混淆因素的作用,eg.投票中性别对投票结果的影响。
3 错误及误差
考虑:样本是否合适、响应率、提问措辞、问题位置、访员
抽样误差,sampling error,一种主要的统计误差,+-n%。
statistics学习