失效链接处理 |
Kettle的使用基础手册 PDF 下载
本站整理下载:
相关截图:
主要内容:
1.什么是ETL
ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。通俗点讲就是一大堆数据,经过ETL工具处理之后,转换成你需要的。
2.ETL主流的工具有哪些
OWB(Oracle Warehouse Builder)
ODI(Oracle Data Integrator)
Informatic PowerCenter(Informatica公司)
Repository Explorer
AICloudETL
Kettle
3.Kettle简要介绍
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。
Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。
Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
Kettle家族目前包括4个产品:Spoon、Pan、CHEF、Kitchen。
1. Spoon:一个图形用户界面,用来运行transformation(转换)和job(任务),其中transformation 是用Pan 工具来运行,任务是用Kitchen 来运行。
2. Pan:一个数据转换引擎,主要用来执行数据源读取,操作和写入数据等等功能。
3. Kitchen:一个运行任务(利用XML 或数据资源库描述)的工具。
SPOON 允许你通过图形界面来设计ETL转换过程(Transformation)。
我们主要介绍的就是kettle中spoon这款产品应用。
4.Kettle常见用途及特点
Kettle是一款非常灵活的产品,可以帮用户做很多事,包括:
不同数据库或应用之间的数据迁移。
可以充分利用云、齐群、并行处理向数据库中插入大数据集。
复杂的数据清洗。
支持Hadoop(非关系型数据库)功能,包括hadoop工作计划和执行,简单hadoop mapreduce 设计。
Kettle作为一款开源产品,有其本身的特点,包括:
安全简单,只需要配置jdk环境,然后将下载的文件解压即可
纯java实现,可以跨平台应用
数据处理效率非常高,平均可以到达4000条/秒以上。
使用简单,提供界面组件的形式,用户只需要拖动页面上面的组件,根据自己的思路进行组合即可。因此对于了解计算机而非开发人员,也可以使用此工具进行数据处理。
支持插件,用户可以自己扩充功能。
企业数据集成服务,提供包括job和转换的历史版本管理以及安全的集成、计划及内容管理。
基于流的引擎架构为我们处理大数据量提供了可能性。
|