首页 > 代码库 > R语言数据挖掘实战系列(2)

R语言数据挖掘实战系列(2)

R语言数据挖掘实战系列(2)

二、R语言简介

R语言是一种为统计计算和图形显示而设计的语言环境,具有免费、多平台支持,同时可以从各种类型的数据源中导入数据,具有较高的开放性以及高水准的制图功能。R是一个体系庞大的应用软件,主要包括核心的R标准包和各专业领域的其他包。R在数据分析、数据挖掘领域具有特别优势。

R安装

R可在其主页(https://www.r-project.org/)上获得,根据所选择的平台进行下载安装。安装完成之后启动R。为了方便使用R,可使用免费的图形界面编辑器RStudio,可从https://www.rstudio.com/下载安装。

R使用入门

R软件界面与其他编程软件相类似,是由一些菜单和快捷按钮组成。

技术分享

“文件”菜单可以实现:输入R代码、建立新的程序脚本、打开程序脚本、显示文件、载入工作空间、保存工作空间、载入历史、保存历史、改变当前目录、打印、保存到文件以及退出功能;“编辑”菜单可以实现复制、粘贴、清楚控制台和数据编辑等功能;“查看”菜单可以选择是否显示工具栏;“其他”菜单可以实现中断目前计算、缓冲输出及列出目标对象等功能;“程序包”菜单可以实现载入程序包,设置CRAN镜像、安装以及更新程序包等功能;“窗口”菜单可以选择将所有窗口层叠或平铺;“帮助”菜单提供R的常见问答和帮助途径。

工具栏从左至右依次为打开程序脚本、载入映像、保存映像、复制、粘贴、复制和粘贴、终止目前计算以及打印的操作。

命令窗口中“>”是命令提示符,表示R处于准备编辑的状态,用户可以直接在命令提示符后输入命令语句,按“Enter”键执行。

RStudio介绍

RStudio窗口如下,由代码编辑、命令控制台、资源栏和其他栏组合而成。

技术分享

R常用操作

(1)help

功能:提供R函数和R文件的在线式帮助。

在命令窗口输入help(函数名),或?函数名,按“Enter”键执行,或者在R的帮助(Help)菜单下的Search Help弹出框输入函数名,都可以打开帮助浏览器。

使用帮助中主要包括6个部分内容:Description(函数说明)部分描述函数的主要功能;Usage(用法)部分给出了函数的调用方法;Arguments(参数)部分给出了输入参数的详细解释,包括输入参数的取值范围、数据格式等;Detail(详情)部分给出了和该函数相关的信息;See Also(其他)部分则提供了与该函数相关的其他函数的链接;Examples(例子)部分给出了函数的常用例子,用户可以直接运行示例程序得到结果,得到对该函数的一个直观的印象。有些函数的帮助文档还包括:Value(输出参数)部分给出了输出参数的详细描述;Reference(参考文献)部分给出了有关学者对该函数的研究文献。

(2)Ctrl+L

功能:清除命令窗口中的所有显示内容。

(3)rm(list=ls())

功能:清除R工作空间中的内存变量。一般利用rm(list=ls())命令与gc()命令,清除内存变量并释放内存空间。

(4)install.packages、library

功能:install.packages()用来下载和安装程序包;library()函数不仅可以显示库中有哪些包,还可以载入所下载的包,进而在会话中使用包。

(5)getwd()、setwd()

功能:获取或设置当前工作目录的位置。

(6)save、load

功能:save将R工作空间中的指定对象保存到执行的文件中;load从磁盘文件读取一个工作空间到当前会话中。

(7)read.table、write.table、read.csv、write.csv

功能:read.table、read.csv读取EXCEL、TXT或CSV文件到当前工作空间;write.table、write.csv把当前工作空间的数据写入到EXCEL、TXT或者CSV文件中。

(8)odbcConnect、sqlFetch、sqlQuery

功能:odbcConnect建立一个到ODBC数据库的连接;sqlFetch读取ODBC数据库中的某个表到R的一个数据框中;sqlQuery相ODBC数据库提交一个查询并返回结果。

(9)source、sink

功能:source(“filename”)可在当前会话中执行一个脚本;sink("filename")将输出重定向到文件filename中。

(10)plot

功能:画图,可以设置参数进行定制的图像绘制。

R数据分析包

R包主要包含的类别有空间数据分析类、机器学习与统计学习类、多元统计类、药物动力学数据分析类、计量经济类、金融分析类、并行计算类、数据库访问类。

功能函数及加载包
分类nnet()需要加载BP神经网络nnet包;randomForest()需要加载随机森林randomForest包;svm()需要加载e1071包;tree()需要加载CART决策树tree包等
聚类hclust()函数、kmeans()函数
关联规则apriori()需要加载arules包
时间序列arima()需要加载forecast、tseries包


本文出自 “游骑兵” 博客,请务必保留此出处http://ccnupxz.blog.51cto.com/8803964/1930462

R语言数据挖掘实战系列(2)