首页 > 代码库 > 猪与蟒(pig and python)
猪与蟒(pig and python)
pig 0.9以后将python作为嵌入式支持语音,使用Jython解释器利用python2.5的功能,这个接口的最上层是org.apache.pig.scripting.Pig
首先python脚本会对一段Pig Latin脚本进行编译,然后将在Python中定义的变量传递给它,最后执行它。
1) Pig.compile 或compilefromFile 对代码进行预编译
2)Bind 方法将控制流中的变量绑定到Pig Latin脚本中的变量,会返回一个BoundScript对象
3)针对BoundScript对象,可以调用runSingle方法来执行他,返回一个pigStat对象,如果在绑定过程中pig对象绑定到了一组包含参数的map,就要调用run方法了,同样返回一个pigStats对象。
用户编写的UDF的一个单独的实例会被构建并运行在每个map或reduce的任务中,构造器参数是一种传递信息给用户UDF的方式。
python与pig的类型对应
pig 的加载函数是基于hadoop的InputFormat创建的,基类是loadFunc,LoadFunc 的默认实现是针对HDFS的,pig 提供了prepareToRead 方法为加载函数提供了初始化自己的一个途径。一旦用户的加载函数实现了getSchema 方法,那么Load语句就不再需要定义他们的模式了。
同理,存储函数式基于Hadoop的OutoutFormat构建的。接受的是Pig的Tuple,然后根据输出个好事创建健-值对后写入存储中,基类是storeFunc,Pig会在每个map或reduce 任务中调用存储函数的prepareToWrite方法,PutNext是存储函数的核心方法。
首先python脚本会对一段Pig Latin脚本进行编译,然后将在Python中定义的变量传递给它,最后执行它。
1) Pig.compile 或compilefromFile 对代码进行预编译
2)Bind 方法将控制流中的变量绑定到Pig Latin脚本中的变量,会返回一个BoundScript对象
3)针对BoundScript对象,可以调用runSingle方法来执行他,返回一个pigStat对象,如果在绑定过程中pig对象绑定到了一组包含参数的map,就要调用run方法了,同样返回一个pigStats对象。
用户编写的UDF的一个单独的实例会被构建并运行在每个map或reduce的任务中,构造器参数是一种传递信息给用户UDF的方式。
python与pig的类型对应
int number
long number
float number
double number
chararray string
bytearray string
map dictionary
tuple tuple
bag list oftuples
pig 的加载函数是基于hadoop的InputFormat创建的,基类是loadFunc,LoadFunc 的默认实现是针对HDFS的,pig 提供了prepareToRead 方法为加载函数提供了初始化自己的一个途径。一旦用户的加载函数实现了getSchema 方法,那么Load语句就不再需要定义他们的模式了。
同理,存储函数式基于Hadoop的OutoutFormat构建的。接受的是Pig的Tuple,然后根据输出个好事创建健-值对后写入存储中,基类是storeFunc,Pig会在每个map或reduce 任务中调用存储函数的prepareToWrite方法,PutNext是存储函数的核心方法。
猪与蟒(pig and python)
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。