首页 > 代码库 > 《数据挖掘:概念与技术》学习笔记2
《数据挖掘:概念与技术》学习笔记2
认识数据
1、数据属性(attribute,可以等同于维dimension、特征feature以及变量variable)
数值属性里面可以求均值(mean平均值)、中位数(median中间值)以及众数(mode最常见的值,一个叫单峰的unimodal,两个双峰bimodal,三个叫三峰trimodal,多个叫多峰的multimodal)。这三个数可以表示中心趋势度量。
涉及一个属性的数据分布叫单变量的univariate,两个的叫bivariate。
(1)标称属性nominal attribute
符号或名称,类别、编码或者状态,可看做分类的categorical或枚举的enumeration
(2)二元属性binary attribute,nominal attribute的一种,取值0或1,布尔属性
(3)序数属性ordinal attribute
值之间具有有意义的序或者秩评定ranking
以上三个都是定性属性。
(4)数值属性numeric attribute
a.区间标度interval-scaled没有真正的0点,例如时间
b.比例标度ratio-scaled有0点,计数的数
(5)离散属性和联系属性
度量数据散布:
极差range是最大值max与最小值min之差
分位数quantile是按固定间隔将数据划分成大小相等的连贯集合。
常用的五数概括five-number summary由最小值Minimum,四分位数Q1,Median,Q3,Maximum组成。
方差variance是与平均值的差的平方的和,标准差standard deviation是variance的平方根。
《数据挖掘:概念与技术》学习笔记2