首页 > 代码库 > 数据挖掘——认识数据

数据挖掘——认识数据

一、数据集有数据对象组成。一个数据对象(样本、实例、数据点、对象、数据元组)有代表一个实体。

 

二、属性类型

属性是一个数据字段,表示数据对象的一个特征。属性可以是:标称、二元、序数、数值

观测是给定属性的观测值。

1、标称属性:一些对象的名称。

2、二元属性:布尔属性。

3、序数属性:值之间存在有意义的程度评定。

4、数值属性:存在大小的定量。(区间标度、比率标度)

   { 

    区间标度:可以比较合定量之间的差。没有固有的零点。

    比率标度:有固有的零点,可以计算倍数比例。

   }

5、离散属性:有限或者无限可数个值,可以不用整数表示。

6、连续属性:数值属性,一般用浮点数值。

7、数学期望:均值。

 

三、基本统计描述

基本统计描述可以用来识别数据的性质,筛选不符合主要性质的数据(噪声和离群点)

基本统计描述大体可分为:中心趋势、数据散布、图形显示

1、中心趋势:

      均值—平均值

      中位数—最中间位置的数值

      众数—出现次数最多的数

      中列数—最值的均值

2、数据散布:

      极差—最大值和最小值的差值

      分位数:属性值与概率的对应关系。概率:p=1/2N,0<p<1。

      四分位数—数值依次大小排序,四等分

      四分位数极差—Q3(0.75处的值)-Q1(0.25处的值)

          五数概括—Min,Q1,中位数,Q3,Max

      盒图—  Min----------|Q1      |中位数      Q3|-------------------Max    

      方差—各个数据与平均值查的平方的平均值。属性和均值的偏离程度。

      标准差—方差的平方根      

3、图形显示:

      条形图(柱形图、频率直方图):频率数据展示。

      饼状图、分位数图、分为数-分位数图、

      散点图:两个属性的关系趋势。

                                  

四、数据的相似性和相异性

1、数据矩阵:对象与属性的数组,即N个对象*P个属性

  例如: Name    Age    Sex

                 A          16       1   —对象O1

      B          16       1   —对象O2

      C          16       1   —对象O3

             [   O1Name ,O1Age,O1Sex 

      O2Name ,O2Age,O2Sex 

      O3Name ,O3Age,O3Sex ]

2、相异性矩阵:对象与对象的数组,即N个对象*N个对象。N个对象两两之间的相近度。

 

  例如: Name    Age    Sex

                 A          16       1   —对象O1

 

      B          16       1   —对象O2

 

      C          16       1   —对象O3

 

             [   0

 

      d(2,1)   0

 

      d(3,1)   d(3,2)  0   ]

d(i,j)是对象i与j之间的相异性度量。值越大差别越大。反之,相似性度量sim(i,j)=1-d(i,j)

下面就具体解释一下d(i,j)................

(1)标称属性的邻近性度量:用不匹配率来计算。公式: d(i,j)=(p-m)/p  

    p—属性总数,m—相同属性数。p-m即不相同的属性数。 

(2)布尔属性的邻近性度量:

   

对象i                                                                   对象j
 10sum
1qrq+r
0sts+t
sumq+sr+tp=q+s+t+r

       

 

 

 

 

 现在我们找一下相似性:q和t。即,相似性度量:d(i,j)=(q+t)/p=(q+t)/(q+s+t+r)

反之,相异性,就是不一样的度量值.。即,s和r,d(i,j)=(s+r)/p

当然当前我们计算的是对称的二元相异性。什么是对称的二元属性?无论是否,现实中都具有意义和重要性,同等重要。

接下来,非对称的二元相似性,假设,布尔值为0的在现实生活中没有太大的意义。

这样,非对称的二元相似性:sim(i,j)=q/p,因为原来的相似性可取值是:q和t,但是t没有太大的意义。

(3)数值属性的邻近性度量:欧几里得距离、曼哈顿距离、闵可夫斯基距离。。。

   

数据挖掘——认识数据