首页 > 代码库 > Hadoop的相关资料

Hadoop的相关资料

1 HDFS

1.1 概念

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统

1.2 特点

- 高度容错性

- 硬件要求低

- 能提供高吞吐量的数据访问

1.2 文件系统命令行

1.1.1 获取帮助

hadoop fs -help

1.2.2 ls命令

hadoop fs -ls /
hadoop fs -ls -R /user

1.3 getconf命令

 hdfs getconf -help
hdfs getconf -namenodes

1.4 版本信息

hdfs version

2 MapReduce


3 Hive

3.1 Hive的简介

3.1.1 概念

Hive是一个基于Hadoop的数据仓库平台。

3.1.1 Hive的作用

通过hive,我们可以方便地进行ETL的工作

hive定义了一个类似于SQL的查询语言

HQL能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行

3.1.3 Hive项目的历史

Hive是Facebook 2008年8月刚开源的一个数据仓库框架,其系统目标与Pig有相似之处,但它有一些Pig目前还不支持的机制。

比如:更丰富的类型系统、更类似SQL的查询语言、Table/Partition元数据的持久化等。

参阅资料:

==================================================

Docs:

----------------

http://hadoop.apache.org/docs/current/


Hadoop Common Guide:

---------------------

http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html

File System Shell Guide:

http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html#Overview


MapReduce Common Guide:

------------------------

http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapredCommands.html


Hive Docs

-------------------------

http://hive.apache.org

GettingStarted:

https://cwiki.apache.org/confluence/display/Hive/GettingStarted

User Documentation:

https://cwiki.apache.org/confluence/display/Hive/Home#Home-UserDocumentation


======================================

其他参考:

======================================

ETL的概念:

----------

http://www.cnblogs.com/elaron/archive/2012/04/09/2438372.html


本文出自 “老谭linux集群博客” 博客,请务必保留此出处http://cmdschool.blog.51cto.com/2420395/1843887

Hadoop的相关资料