首页 > 代码库 > 《SAS编程与数据挖掘商业案例》学习笔记之十一

《SAS编程与数据挖掘商业案例》学习笔记之十一

继续读书笔记,本文重点侧重sas观测值的操作方面, 主要包括:输出观测值、更新观测值、删除观测值、停止输出观测值等

1.output语句   输出当前在pdv中的观测值,继续无条件执行下面的语句。

注意:简单的data步不需要output语句,run语句会自动输出pdv中的数据到数据集,并返回data步开头继续执行下一条观测。

在有output语句和run语句同时存在时,pdv只会执行output的结果到正在被创建的数据集,而执行run语句的结果是pdv会清空所有的变量值为缺失值

data a;

input id x1-x3;

cards;

101 10 20 30

102 40 50 60

;

data b;

set a;

x=x1;output;

x=x2;output;

x=x3;output;

output;

run;

由于data步包含四个output语句,因此每次读入一条观测,程序会执行output语句,总共会输出8条记录

data out1 out2;

set sashelp.class;

if _n_ le 7 then output out1;

else output out2;

run;

if条件的output语句,只有满足if条件时pdv才把得到的结果输出到正在被创建的数据集

 

data a;

input x y @@;

cards;

1 10 1 20 1 200 2 30 2 40

3 50 3 60 4 70 3 80 4 400

;

 

proc sort data=http://www.mamicode.com/a;by x;run;

data b;

set a;

by x;

retain rt;

if first.x then rt=0;

if last.x then output;

rt=y;

run;

输出by变量的last观测值,并保留last最近前一条观测变量值。

该例中outputrun同时出现时,值输出output后面的,不管output前面的条件是否成立;执行run语句的结果是PDV会清空所有的变量值为缺失。

是对每一个by组进行循环的,且first.x也是针对by组的

 

2.if语句 是一个可执行语句,将满足条件的观测值输出到正在被创建的数据集中

3.where语句  不是一个可执行语句,判断条件是在pdv之前

注:不能使用自动变量_n_或者其他选项如obs,pointwhere语句一起使用。因为where语句是在pdv之前

使用where语句必须保证读入数据集的完整性,不能使用如firstobs=2等不能完整读入数据集的选项

对同一数据集,同时使用where语句和where=选项,则系统只使用where=选项,而不考虑where语句

where语句和by语句一起出现时,先执行where语句,然后在by语句,by组对执行完毕后的数据集重新定义first/last

 

Where语句和if语句 区别

1.where语句是在观测进入pdv之前起作用,而if语句是在pdv中的观测起作用。

2.where语句不是一个可执行语句,而子集if语句是可执行语句

3.where语句有自己特有的表达式,而if语句使用通用的sas表达式

4.where语句比if效率高

 

4.replace语句和remove语句和output语句

这两个语句只能跟modify一起使用,

数据集:

libname chapt5 "f:\data_model\book_data\chapt5";

data chapt5.a;

input x y @@;

cards;

1 10 2 20 3 30 4 40

;

run;

libname chapt5 "f:\data_model\book_data\chapt5";

data chapt5.b;

input x y @@;

cards;

3 300 4 400 5 500

;

run;

 

eg

data chapt5.a;

modify chapt5.a chapt5.b;

by x;

if _iorc_=0 then replace;

else _error_=0;

run;

对匹配到的数据,更新数据集将覆盖主数据集,对于未匹配到的数据,不予考虑

data chapt5.a;

modify chapt5.a chapt5.b;

by x;

if _iorc_=0 then replace;

else do; _error_=0;output;end;

run;

对匹配到的数据,更新数据集将覆盖主数据集,对于未匹配到的数据,将更新数据集数据也输出到主数据集中

data chapt5.a;

modify chapt5.a chapt5.b;

by x;

if _iorc_=0 then remove;

else _error_=0;

run;

对于匹配到的数据从主数据中删除

 

5.delete语句和stop语句

data a;

set sashelp.class;

if sex eq "M" then delete;

run;

删除部分观测,以下代码目的一样

data a;

set sashelp.class;

if sex ne "M";

run;

 

data a;

set sashelp.class;

if _n_ ge 3 then stop;

run;

stop直接跳出data,最终数据集a只有两条观测

《SAS编程与数据挖掘商业案例》学习笔记之十一