Hadoop技术内幕HDFS-笔记1

2024-07-09 18:47:04 219人阅读

书籍学习——董西成《Hadoop技术内幕深入解析HADOOP COMMON和HDFS架构设计与实现原理》

HDFS 高容错，高伸缩性

Lucene是引擎开发包，提供了一个纯java的高性能全文检索，可方便的嵌入到各种应用中实现全文搜索/索引功能。

Nutch是以Lucene为基础实现的搜索引擎应用，Lucene为Nutch提供了文本搜索和索引的Api，Nutch不光有搜索功能，还有数据抓取的功能，却无法支持拥有数亿网页的网络（在网络抓取和索引过程中产生的大量文件存储需求）。

Hadoop优势：

方便：可应用在一般商业机器的大型集群上

弹性：可依据集群负载实现增加或减少节点的弹性伸缩，高效的使用资源

健壮：

简单：

1、 Hadoop common 为hadoop的其它项目提供一些常用工具，包括：系统配置工具Configuration，远程过程调用RPC，序列化机制和hadoop抽象文件系统FileSystem

2、 Avro 数据序列化系统，便于网络传输

3、 Zookeeper解决分布式系统的一致性问题，如统一命名服务，状态同步服务，集群管理，分布式应用配置项的管理等。

4、 HDFS 数据管理与存储

5、Mapreduce

6、Hbase：提供对大规模数据的随机、实时读写访问，其中保存的数据可以通过Mapreduce来处理，将数据存储和并行计算完美的结合在一起。

7、Hive 建立在hadoop之上的数据仓库架构，包括数据ETL（抽取、转换、和加载）工具，数据存储管理和大型数据集的查询和分析能力，类SQL语言。

8、pig简化任务代码，将pig latin脚本转换为hadoop任务链

9、Mahout 主要目标是创建一些可以扩展的机器学习领域经典算法的实现，更快的创建智能应用程序（聚类、分类、推荐引擎（协调过滤）和频繁集挖掘等数据挖掘算法）

10、X-RIME，社会网络分析工具

11、Chukwa 数据收集系统，监控大规模分布式系统，工具集提供了数据的生成、收集、排序、去重、分析和展示等功能

12、lume海量日志收集系统，数据流，可定制数据发送方，从而支持各种不同的协议的数据，对日志数据提供简单的处理能，如过滤，格式转换等，可将日志写往各种数据目标。

13、SQOOP：在结构化数据存储和hadoop（hive）之间进行数据交换,过程是使用mapreduce并行化。

14、Oozie 工作流引擎，hadoop计算作业被抽象为动作，构建他们之间的依赖关系，组成一个有向无环的工作流。

eclipse快捷键：

Ctrl+T 查看类的结构

Ctrl+Shift+T 查找某个类

Ctrl+Alt+F 查看方法的调用关系

CrygWin不符，暂且不看

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们