首页 > 代码库 > 2016/11/10 kettle概述
2016/11/10 kettle概述
ETL(Extract-Transform-Load,即抽取,转换,加载),数据仓库技术,是用来处理将数据从来源(以前做的项目)经过抽取,转换,加载到达目的端(正在做的项目)的过程。也就是新的项目需要使用以前项目数据库中的数据,ETL就是解决这个问题的。
ETL实现共同注意点:正确性,完整性,一致性,完备性,有效性,时效性,可获取性等,也就是说无论我们使用什么工具,来实现ETL技术时,达到这几个方面,才算是质量过关的。
kettle则是其中的一种工具,其它还有:Informatica,Datastage,OWB,微软的DTS等等。好,下边简单说说kettle。
kettle是一款国外开源的ETL工具,纯Java编写,可以在Windows,Linux,Unix上运行,数据抽取高效稳定。kettle中文名俗称“水壶”,开发目的是将各种数据放到一个壶中,然后经过各种处理加工,以特定的格式流出。
kettle转换的设计包括几个方面:资源库,数据库连接,作业(job),转换(trans),步骤(step)。形象的举一个例子:资源库相当于我们一个Java项目,数据库连接相当于我们Java项目中的连接数据库,Job相当于Java项目中的一条线,而Trans相当于Java中的一个个类,Step则是类中的方法。所以,kettle需要我们做的就是建好资源库,连接好数据库,建立转换,写好类中的每个步骤,将转换连接起来组成任务(转换也可以独立执行)。
最后看一下什么时候适合使用kettle。这样一个项目A,这个项目A需要实施到很多家企业,而项目A需要用到每家企业的数据库基础数据,例如员工,组织结构,客户,供应商等等一些基础数据,这时候kettle就可以很轻松的完成任务。也就是说,我们的项目需要用到大量的数据库之间迁移数据。
摘录自:http://blog.csdn.net/liujiahan629629/article/details/47061727
2016/11/10 kettle概述