Hadoop学习笔记(5) ——编写HelloWorld(2)

首页 > 代码库 > Hadoop学习笔记(5) ——编写HelloWorld(2)

Hadoop学习笔记(5) ——编写HelloWorld(2)

2024-07-14 07:14:18 223人阅读

Hadoop学习笔记(5)

——编写HelloWorld(2)

前面我们写了一个Hadoop程序，并让它跑起来了。但想想不对啊，Hadoop不是有两块功能么，DFS和MapReduce。没错，上一节我们写了一个MapReduce的HelloWorld程序，那这一节，我们就也学一学DFS程序的编写。

DFS是什么，之前已经了解过，它是一个分布式文件存储系统。不管是远程或本地的文件系统，其实从接口上讲，应该是一至的，不然很难处理。同时在第2节的最后，我们列出了很多一些DFS的操作命令，仔细看一下，这些命令其实跟linux中的文件操作命令很相似，所以说，对于分布式文件系统，我们完全可以用本地文件的方式来理解。

那理一下，一般常用操作有哪些？当然我们可以从编程角度来：

创建、读、写一个文件，列出文件夹中的文件及文件夹列表，删除文件夹，删除目录，移动文件或文件夹，重命名文件或文件夹。

同样，这里我们就依葫芦画瓢跑起个程序来：

启动eclipse，新建Hadoop项目，名称MyDFSTest，新建类DFSTest，点击确定，然后同样工程属性Configure BuildPath中把 build/ivy/lib/Hadoop下的所有jar包都引用进来。「这里就不详细截图了，可以参考前一节中的内容」

在类中，添加main函数：

public static void main(String[] args) {

}

也可以在添加类时，勾选上创建main，则会自动添加上。

在Main函数中添加以下内容：

try {

Configuration conf = new Configuration();

conf.set("fs.default.name", "hdfs://localhost:9000");

FileSystem hdfs = FileSystem.get(conf);

Path path = new Path("in/test3.txt");

FSDataOutputStream outputStream = hdfs.create(path);

byte[] buffer = " 你好Hello".getBytes();

outputStream.write(buffer, 0, buffer.length);

outputStream.flush();

outputStream.close();

System.out.println("Create OK");

} catch (IOException e) {

e.printStackTrace();

}

直接添加进来会报错，然后需要添加一些引用才行：

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FSDataOutputStream;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

在没有错误后，点击工具条上的运行，但这次跟前次不一样，选择Run as Java Application。然后，就可以在输出框中看到Create OK的字样了，表明程序运行成功。

这段代码的意思是在in文件夹下，创建test3.txt，里面的内容是"你好Hello"。在运行完后，我们可以到eclipse的Project Explorer中查看是否有这文件以及内容。同样也可以用命令行查看$bin/hadoop fs -ls in。

好了，第一个操作DFS的程序跑起来了，那其它功能只要套上相应的处理类就可以了。

为了方便查找操作，我们列举了张表：

操作说明	操作本地文件	操作DFS文件
主要命名空间	java.io.File java.io.FileInputStream java.io.FileOutputStream	org.apache.hadoop.conf.Configuration org.apache.hadoop.fs.FileSystem org.apache.hadoop.fs.Path org.apache.hadoop.fs.FSDataInputStream; org.apache.hadoop.fs.FSDataOutputStream
初使化对象	new File(路径);	Configuration FileSystem hdfs
创建文件	File.createNewFile();	FSDataOutputStream = hdfs.create(path) FSDataOutputStream.write( buffer, 0, buffer.length);
创建文件夹	File.mkdir()	hdfs.mkdirs(Path);
读文件	new FileInputStream(); FileInputStream.read(buffer)	FSDataInputStream = hdfs.open(path); FSDataInputStream.read(buffer);
写文件	FileOutputStream.write( buffer, 0, buffer.length);	FSDataOutputStream = hdfs.append(path) FSDataOutputStream.write( buffer, 0, buffer.length);
删除文件(夹)	File.delete()	FileSystem.delete(Path)
列出文件夹内容	File.list();	FileSystem.listStatus()
重命令文件(夹)	File.renameTo(File)	FileSystem.rename(Path, Path)

有了这张表，以后不怕了，代码搬搬即可。

接下来换个话题。

本人主要从事.net开发的，所以对于java上，还是有点生。所以接下来半章中，简要的把JAVA的学习列一列。

JAVA和.net现在从语言角度看，的确有很多相似之处。但也有不同之处，这就是我们要学的。

在.Net中，主要有dll和exe， dll为类库， exe为可执行程序，在exe中有唯一的main函数，作为函数入口。dll 类库是无法执行的，exe可以双击运行，也可以命令行执行。编译后，.net会把所有定义的类编译进exe或dll中，一个工程产出文件就是一个。

在JAVA中，jar对应的类库，可以被别人调用。exe就不存在了。一个工程编译后，产出物是一堆的.class文件，在开发中每一个定义的类，都会被编译成这个.class文件。而且一个.java文件中，不能定义多个顶级类（嵌套类是可以的），且文件名与类名必须相同，文件所以的目录必须和命名空间相同。所以编译后，可以讲一个.java文件将会编译成一个.class文件，且有与原先的目录相同。

也就是说，java有点像散装的一样，产物就是一堆的.class文件。那jar文件呢，简单的说，就是一个zip包，把一堆的.class文件打包成一个压缩包。

同时，一个工程中，支持多个main函数，即多个入口。

说了一堆，还不如实践一下：

在eclipse中，创建一个JAVA project 取名为JAVAStudy。

然后创建两个类，没有目录的，ch1 ch2 再创建一个包叫pkg1，在这个包下创建一个类ch3：