首页 > 代码库 > 第2章--创建数据集

第2章--创建数据集

2.1 数据集的概念

数据集通常是由数据构成的一个矩形数组,行表示观测,列表示变量。

R中有许多用于存储数据的结构,包括标量、向量、数组、数据框和列表。

R可以处理的数据类型(模式)包括数值型、字符型、逻辑型、复数型和原生型。

 

2.2 数据结构

R中的一些术语较为独特:

在R中,对象(object)是指可以赋值给变量的任何事物,包括常量,数据结构,函数甚至图形。

因子(factor)是名义型变量或有序型变量。

 

向量

  1. 向量是用来存储数值型,字符型或逻辑型数据的一维数组。
  2. 单个向量中的数据必须拥有相同的类型或模式。
  3. 标量是只含有一个元素的向量。
  4. 通过在方括号中给定元素所处位置的数值,我们可以访问向量中的元素。

矩阵

  1. 矩阵是一个二维数组,只是每个元素都拥有相同的模式。
  2. 可以通过matrix创建矩阵,一般格式为:matrix(vector, nrow=,ncol=,byrow=logical_value, dimnames=list(char_vector_rownames,char_vector_colnames))
    • vector包含了矩阵的元素
    • nrow和ncol用以指定行和列的维数
    • dimnames包含了可选的以字符型向量表示的行名和列名
    • byrow则表明矩阵应当按行填充还是按列填充(默认)
  3. 我们可以使用下标和方括号来选择矩阵中的行、列或元素。

数组

  1. 数组与矩阵类似,但是维度可以大于2
  2. 数组可以通过array创建,array(vector,dimensions,dimnames)

数据框

  1. 每一列数据的模式必须唯一,不过你却可以将多个模式的不同列放到一起组成数据框
  2. 函数attach()可将数据框添加到R的搜索路径中,R在遇到一个变量名以后,将检查搜索路径中的数据框,以定位到这个变量。
  3. 函数detach()将数据框从搜索路径中移除。

因子

  1. 类别变量和有序型变量在R中称为因子。
  2. 函数factor()以一个整数向量的形式储存类别值,同时一个由字符串组成的内部向量将映射到这些整数上。
  3. factor(status,order=TRUE,levels=c("level1","level2","level3"))

列表

  1. 列表就是一些对象的有序集合。
  2. 列表允许你整合若干(可能无关的)对象到单个对象名下。

 

2.3 数据的输入

使用键盘输入数据

R中的edit()会自动调用一个允许手动输入数据的文本编辑器。

  1. 创建一个空数据框或矩阵,其中变量名和变量的模式需与理想中的最终数据集一致;
  2. 针对这个数据对象调用文本编辑器,输入你的数据,并将结果保存回次数据对象中。

从带分隔符的文本文件导入数据

可以使用read.table(file,header=logical_value,sep="delimiter",row.names="name")

导入Excel数据

读取Excel文件的最好的方式,就是在Excel中将其导出作为一个逗号分隔符文件,并使用前文描述的方式将其导入R中。

在Windows系统中,你也可以使用RODBC包来访问Excel文件,电子表格的第一行应当包含变量/列的名称。

 

2.4 处理数据对象的实用函数

在本章节的末尾,我们来见到总结一下实用的数据对象处理函数。

技术分享

 

第2章--创建数据集