首页 > 代码库 > Hadoop学习笔记_5_分布式文件系统HDFS --shell操作

Hadoop学习笔记_5_分布式文件系统HDFS --shell操作

2024-07-16 12:42:01 222人阅读

分布式文件系统HDFS

--shell操作

分布式文件系统[Distributed File System]概述

数据量越来越多，在一个操作系统管辖的范围存不下了，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，因此迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。

分布式文件系统特点:

是一种允许文件通过网络在多台主机上分享的文件系统，可让多机器上的多用户分享文件和存储空间。

通透性。让实际上是通过网络来访问文件的动作，由程序与用户看来，就像是访问本地的磁盘一般。

容错。即使系统中有某些节点脱机，整体来说系统仍然可以持续运作而不会有数据损失。

分布式文件管理系统很多，hdfs只是其中一种。适用于一次写入多次查询的情况，不支持并发写情况，小文件不合适。

[形象化的地理解什么是HDFS 呢？我们可以把HDFS看做是Windows 的文件系统。在Windows 的文件系统维护着有一套很多层次的文件夹目录，这么复杂的目录层次是为了在文件夹中分门别类的地存放文件。我们经常做的操作是创建文件夹、创建文件、移动文件、复制文件、删除文件、编辑文件、查找文件等。HDFS 与wWindows中的文件系统类似，看到的和操作的也类似。读者可以把HDFS 理解为分Windows 文件系统。]

HDFS 的shell 操作

既然HDFS 是存取数据的分布式文件系统，那么对HDFS 的操作，就是文件系统的基本操作，比如文件的创建、修改、删除、修改权限等，文件夹的创建、删除、重命名等。对HDFS 的操作命令类似于lLinux 的shell 对文件的操作，如ls、mkdir、rm 等

1.对HDFS的操作 hadoop fs xxx

a) Hadoop fs -ls

b) Hadoop fs -lsr ＃递归显示目录结构

该命令选项表示递归显示当前路径的目录结构，后面跟hdfs 路径

说明：

上图中的路径是hdfs 根目录，显示的内容格式与linux 的命令ls –l 显示的内容格式非常相似，现在下面解析每一行的内容格式：

首字母表示文件夹(如果是“d”)还是文件（如果是“-”）；

后面的9 位字符表示权限［类似于Ｌｉｎｕｘ］；

后面的数字或者“-”表示副本数。如果是文件，使用数字表示副本数；文件夹没有副本；

后面的“root”表示属主；

后面的“supergroup”表示属组；

后面的“0”、“4”表示文件大小，单位是字节；

后面的时间表示修改时间，格式是年月日时分；

最后一项表示文件路径。

注意：

如果该命令选项后面没有路径，那么就会访问/user/<当前用户>目录。如：我们使用root用户登录，因此会访问hdfs 的/user/root 目录．如果没有目录/user/root，会提示文件不存在的错误．

a) hadoop fs -mkdir /d1 创建空白文件夹

b) hadoop fs -put abc /d1

如果此时再次执行hadoop fs -put abc /d1，则屏幕会显示：

并不会默认覆盖

c) hadoop fs -put abc /d2

由于ｄ２目录原本是不存在的，所以屏幕显示

-rw-r--r-- 1 root supergroup 37667 2014-08-07 19:58 /d2

d2乃是一个文件

d) Hadoop fs -get <Hadoop> <Linux>

下载

e) Hadoop fs -put <Linux> <Hadoop>

hadoop fs -put install.log /d1/NewNameFromInstall.log

hadoop fs -ls /d1

显示

Found 1 items

-rw-r--r-- 1 root supergroup 37667 2014-08-07 20:05 /d1/NewNameFromInstall.log ＃上传并重命名文件

f) -du 统计目录下各文件大小

显示指定路径下的文件大小，单位是字节

g) -dus 汇总统计目录下文件大小

该命令选项显示指定路径的文件总的大小，单位是字节

h) -count 统计文件(夹)数量

显示指定路径下的文件夹数量、文件数量、文件总大小信息

i) -mv 移动

该命令选项表示移动hdfs 的文件到指定的hdfs 目录中。后面跟两个路径，第一个表示源文件，第二个表示目的目录。

j) -cp 复制

复制hdfs 指定的文件到指定的hdfs 目录中。后面跟两个路径，第一个是被复制的文件，第二个是目的地。

k) -rm 删除文件/空白文件夹

删除指定的文件或者空目录，不能删除非空目录。

l) -rmr 递归删除

m) -copyFromLocal 从本地复制

操作与-put 一致

n) -moveFromLocal 从本地移动

该命令表示把文件从linux 上移动到hdfs 中

o) getmerge 合并到本地

把hdfs 指定目录下的所有文件内容合并到本地linux 的文件中，如图

a) -cat／-text 查看文件内容

b) -setrep 设置副本数量

修改已保存文件的副本数量，后面跟副本数量，再跟文件路径

多了两个副本，HDFS 会自动执行文件的复制工作，产生新的副本。

如果最后的路径表示文件夹，那么需要跟选项-R，表示对文件夹中的所有文件都修改副本。

hadoop fs -setrep -R 4 /d1

还有一个选项是-w，表示等待副本操作结束才退出命令．

hadoop fs -setrep -R -w 1 /d1

c) -touchz 创建空白文件

d) -help 帮助

显示帮助信息，后面跟上需要查询的命令选项即可，如：

hadoop fs -help rm

注意：该命令选项显示的内容并非完全准确，比如查询count 的结果就不准确，而是把所有命令选项的用法都显示出来

1.执行hadoop[后面什么也不写],可以查看Hadoop可以支持的命令有哪些

2.执行hadoop fs[后面什么也不写],可以查看Hadoop HDFS可以支持的命令有哪些

HDFS-shell命令完整的写法

Hadoop fs -ls hdfs://hadoop:9000/

作用于Hadoop fs -ls /相同

原理:

在安装Hadoop时,我们曾经修改过一个core-site.xml文件,其中

<name>fs.default.name</name>

<value>hdfs://hadoop:9000</value>

fs.default.name的属性值就代表为HDFS的路径,为hdfs://hadoop:9000

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们