首页 > 代码库 > hadoop_day1

hadoop_day1



下午

开启ssh服务:service sshd status

rsa:金融界的加密算法

exit

第一次exit是从ssh退出,第二次是退出终端

ssh  hadoop0:使用ssh连接主机名为hadoop0(换成ip地址也行) 的机器

使用ssh和服务器(Linux)进行连接:ssh是加密的连接,相当于过了一圈,又回到了原点,但是是加密了的。

secure shell==ssh

hostname:查看主机名

hostname itheima修改主机名,只对当前窗口有效


上午

yarn:MapReduce能不能yarn上跑,要看调度算法


datanode:文件上传时,不支持断点续传



“海量数据” 的存储和计算:
 hdfs:分布式文件系统,不需要关心存放在哪是透明的,就是不知道,不输入ip,只输入主机名
 mapreduce:读取hdfs上的数据进行处理,推介的结果,是海量数据在多台机器上处理,分布在多台机器上,减少io操作(就是磁盘操作)。缺点:不合适实时处理,可以结合storm使用
 把程序放在每一台机器上,然后把多台机器的结果汇总计算
 yarn:组合mapreduce(不实时,主要在晚上凌晨)和strom(实时处理数据,一般在白天活跃)



Hadoop是一个平台


数据量大(单机存储不下)需要放在多个服务器上,好多台机器放在一起,完成一件事,好多台机器就是集群,每个机器是节点,Hadoop就是完成这样的作用
Hadoop适合大数据处理,不适合小量数据。数据分布在多台机器上,提高效率。


函数就是计算,形参、函数体、返回值


support,avro:序列化,相当于springMVC使用注解传递JSON数据到页面


非结构化数据:视频、音频

结构化数据:关系型数据库,hiho和sqoop是框架,关系型数据库存数据有限,不可能存储大量数据(不是你笔记本能存储下的),就需要使用hiho和sqoop来管理

h.base:是指Hadoop、database,就是速度快的一大作用。海量数据的秒级查询,pb级的

每个框架都有自己应用的特定场景

mahout(数据挖掘的作用、推介)最高级       pig相当于JSON(更高级)    Hadoop相当于XML