DataX实现HDFS与MySQL之间数据同步

首页 > 代码库 > DataX实现HDFS与MySQL之间数据同步

DataX实现HDFS与MySQL之间数据同步

2024-08-07 15:26:55 222人阅读

本案例仅适用于HDFS与MySQL之间的数据同步实现。

1、在编译安装之前注意将release下面的setSharePath方法中的路径改为你自己的安装路径，笔者的为/home/woody/datax/libs.

2、 rpm打包之前，要修改*.spec文件中的路径，dataxpath，此外可能还需要注解掉部分赋值文件的代码，如cp –r ${OLDPWD}****.properties ****.conf，在engine.spec中的jar包复制语句也要注解掉。

3、注意将hdfsreader/writer（这两个文件的路径也是需要改的）中复制hadoop-core.Jar包的语句中的该jar包改为你自己的hadoop版本的hadoop-core.jar包。

4、 Mysqlreader/writer只需要修改路径就可以。

5、接下来主要涉及到field\line by一致性的问题：

我们按正常顺序来搞一下：

首先将mysql数据同步到hdfs，需要用到mysqlreader 和hdfswriter

Mysqlreader文件不需要修改

Hdfswriter文件中的field_spilt=’\u0001’

Line_spilt=’\n’，别的地方不需要确认，只需要确认这两个地方。

然后将hdfs数据同步到mysql，需要用到hdfsreader和mysqlwriter

Hdfsreader文件中field_spilt=’\t’，该项确认即可

Mysqlwriter文件中sep=’\001’（注意该项保持不变即可）

String sql=”LOAD DATA LOCAL INFILE ‘hdfs://localhost:9000/test_in/part’ ”

Sql+=String.format(“DIELDS TERMINATED BY ‘\u0001’ESCAPED BY ‘\\’ ”)

Sql+=String.format(“LINES TERMINATED BY ‘\n’”)

此外还要注意，mysqlwriterinputstreamadapter.java文件中的sep=’\u0001’

BREAK = ‘\n’行分隔符,NULL=’\\N’ （NULL字面字符）这两项也值得注意。

以上东西确认完成之后就可以打包编译安装了。

接下来可以开始从mysql同步数据到hdfs了，要配置jobs下面mysqlreader_to_hdfswriter.xml文件：

ip\port\dbname\username\password\table这些都自己配置，where value=http://www.mamicode.com/”1=1”;

sql value=http://www.mamicode.com/”select * from test_datax” ; columns value=”*”这三项确认下即可，

hadoop.job.ugivalue=http://www.mamicode.com/”woody,supergroup” ; hadoop_conf的值写你自己的hadoop core-site.xml文件路径即可，dir value=”hdfs://localhost:9000/test_in” ;field_spilt value=”/u0001” ; line_spilt value=”/n” ; nullchar value = “/N” 这些项目确认即可。

然后就可以执行数据同步命令了。

接下来可以开始从hdfs同步数据到mysql了，要配置jobs下面hdfsreader_to_mysqlwriter.xml文件:

Hadoop.job.ugi\hadoop_conf\dir\field_spilt与以上相同即可，nullstring value=http://www.mamicode.com/”/N” ;>

col_filter一项注释掉。

ip\port\dbname\username\password\table这些与以上相同即可，pre value=http://www.mamicode.com/”select * from test_datax” ; post value=”select * fromtest_datax” ; colorder value=”user_id,user_name” ;>

set value=http://www.mamicode.com/”user_id=user_id,user_name=user_name”

然后就可以执行数据同步命令了。

DataX实现HDFS与MySQL之间数据同步

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > DataX实现HDFS与MySQL之间数据同步

DataX实现HDFS与MySQL之间数据同步

看完仍有疑问？有类似问题直接问程序猿