首页 > 代码库 > 第二章 认识数据 笔记

第二章 认识数据 笔记

一、数据对象与属性类型

1、属性: 一个数据字段,表示数据对象的一个特征。(属性、维、特征、变量可以互换实用)
 
2、标称属性:标称意味着“与名称相关”;标称属性的值是一些符号或失误的名称。每个只代表某种类别、编码或者状态,因而标称属性又被堪称是分类的。例如,人的属性->头发颜色(黑、白、棕、红、黄...)和婚姻状况(未婚、已婚、离异...)属于标称属性。
    标称属性值可以用数字表示,如1,2,3等;但是这些值并不具有有意义的序,并且不是定量的,因而这种属性的均值、中位数是没有意义的。众数是有意义的。
 
3、二元属性:是一种标称属性,只有两种类别(状态):0和1,通常0表示该属性不出现,1表示出现。又称为布尔属性(true 和 false)。
    二元属性又分对称的和非对称的: 对称指两种状态具有同等价值且相同的权重,如性别(男、女);非对称是指状态的结果不是同样重要的,如病毒化验结果(阳性、阴性)。
 
4、序数属性:其可能的值之间具有有意义的序或秩评定,但是相继值之间的差是未知的。序数属性通常用于等级评定调查。
标称、二元和序数属性都是定性的,他们描述对象的特征,而不给出实际大小或数量。定性属性的值通常是代表类别的词。
 
5、数值属性:是定量的,他是可度量的量,用证书或实数值表示,数值属性可以是区间标度的或比率标度的。
    区间标度属性:属性用相等的单位尺度度量。区间熟悉的值有序,例如: 20度,15度(温度属性);
    比率标度属性:具有固定零点的数值属性,即一个值是另一个的倍数(比率)。比率值也是有序的,可以计算值之间的差、也能计算均值、中位数、众数。
 
6、离散属性与连续属性:机器学习领域开发的分类算法通常把属性分类成离散或连续的。
    离散属性:具有有限或无限可数个值,可以用或不用整数表示,如头发颜色、婚姻状况都是有限个值,是离散的。
 
二、数据的基本统计描述
    对于成功的数据预处理来说,把握数据的全貌是至关重要的。
    三类基本统计描述:
        中心趋势度量:度量数据分布的中部或中心位置,还有均值、中位数、众数和中列数。
        数据的散布:常见度量有:极差、四分位数、四分位数极差、五数概括和盒图,以及数据的方差和标准差。   
                                                                                                                                    (可以用于识别离群点)
        图形显示可视化地审视数据:条图、饼图、线图、分位数图、分位数-分位数图、直方图、散点图
1、中心趋势度量
    数据集“中心”的最常用、最有效的数值度量是(算术)均值
    也就是数据库中的SQL操作:avg()
 
    加权平均(加权算术均值):权重反映数值的意义、重要性或出现的频率:(权重W与值X对应)
    
 
    均值并非总是度量数据中心的最佳方法:对极端值(离群点)很敏感;解决方法可以使用截断均值:丢弃高低两个极端值(不一定是一个值,也可以是多个值)后的均值。
    中位数:更好度量数据中心(非对称数据)的方法,是有序数据值的中间值。
 
    众数:是另外一种中心趋势度量。是集合中出现最频繁的值。若具有多个众数的数据集是多峰的;另一种极端情况是如果每个数据值仅出现一次,则他是没有众数的。(一般对应与非对称数据
    中列数:数据集中最大和最小值的平均值
 
2、度量数据散布:
    极差:集合的极差是最大值与最小值的差。
    分位数:取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。
    2-分位数:是一个数据点,他把数据分布划分成高低两半,2-分位数对应于中位数。
    4-分位数:是三个数据点,他们把数据分布划分成4个相等的部分,使得每部分表示的数据分布的四分之一。
    100-分位数:称为百分位数,他们把数据分布划分成为100个大小相等的连贯集合。
 
    四分位数:第一个四分位数记作Q1,是第25个百分数为(数据集合25%的位置);第二个四分位数记作Q2,是第50个百分位数,作为中位数给出数据分布的中心;第三个四分位数记作Q3,是第75个百分位数(数据集合75%的位置)。
    四分位数极差(IQR):  IQR = Q3 - Q1
    五数概括:由中位数(Q2)、四分位数Q,Q3、最小和最大观测值组成。按次序为 Min、Q1、Median、Q3、Max。
    识别可疑的离群点的规则:通常挑选落在第三个四分位数之上或第一个四分位数之下  至少1.5倍IQR处的值。
eg:
    方差和标准差:
 
三、数据可视化
    数据可视化旨在通过图形表示 清晰有效地表达数据。
 
四、度量数据的相似性和相异性
2、标称属性的邻近性度量
    两个对象i,j的相异性计算公式:
        
3、二元属性的邻近性度量
 
q ,r ,s ,t 是表示两个对象在1,0下的属性个数(若某属性是i=1,j=1,则个数q+1)p=q+r+s+t 所有属性之和。
两个对象i j的相异性:
有时候,可以忽略两个对象均为0时的属性(无意义),则称为 非对称的二元属性 的相异性计算公式:
相似性即为:
sim(i,j)也称jaccard系数。
 
4、数值属性的相异性:闵可夫斯基距离、欧几里得距离、曼哈顿距离
    欧几里得距离:
    曼哈顿距离: 指的是城市街区间的街区距离(横轴距离+竖轴距离)
    例子:
    闵可夫斯基距离:
其中,h为实数,h>=1(该距离又称为Lp范数,p即为h)h=1时时曼哈顿距离,H=2时是欧几里得距离。
 
    上确界距离(又称Lmax,Loo范数和切比雪夫距离),是h->oo时闵可夫斯基距离的推广。
(某个属性上的最大差值就是上确界距离)
 
5、序数属性的邻近性度量
序数属性的值之间具有有意义的序或排位,而相继值之间的量值未知。
 
7、余弦相似性:是一种度量,它可以用来比较文档,或针对给定的查询词向量对文档排序。
余弦值0意味着两个向量呈正交关系(90°),没有匹配。 值越接近1,夹角越小,向量之间的匹配越大。

第二章 认识数据 笔记