首页 > 代码库 > hadoop_day1
hadoop_day1
下午
开启ssh服务:service sshd status
rsa:金融界的加密算法
exit
第一次exit是从ssh退出,第二次是退出终端
ssh hadoop0:使用ssh连接主机名为hadoop0(换成ip地址也行) 的机器
使用ssh和服务器(Linux)进行连接:ssh是加密的连接,相当于过了一圈,又回到了原点,但是是加密了的。
secure shell==ssh
hostname:查看主机名
hostname itheima修改主机名,只对当前窗口有效
上午
yarn:MapReduce能不能yarn上跑,要看调度算法
datanode:文件上传时,不支持断点续传
“海量数据” 的存储和计算:
hdfs:分布式文件系统,不需要关心存放在哪是透明的,就是不知道,不输入ip,只输入主机名
mapreduce:读取hdfs上的数据进行处理,推介的结果,是海量数据在多台机器上处理,分布在多台机器上,减少io操作(就是磁盘操作)。缺点:不合适实时处理,可以结合storm使用
把程序放在每一台机器上,然后把多台机器的结果汇总计算
yarn:组合mapreduce(不实时,主要在晚上凌晨)和strom(实时处理数据,一般在白天活跃)
Hadoop是一个平台
数据量大(单机存储不下)需要放在多个服务器上,好多台机器放在一起,完成一件事,好多台机器就是集群,每个机器是节点,Hadoop就是完成这样的作用
Hadoop适合大数据处理,不适合小量数据。数据分布在多台机器上,提高效率。
函数就是计算,形参、函数体、返回值
support,avro:序列化,相当于springMVC使用注解传递JSON数据到页面
非结构化数据:视频、音频
结构化数据:关系型数据库,hiho和sqoop是框架,关系型数据库存数据有限,不可能存储大量数据(不是你笔记本能存储下的),就需要使用hiho和sqoop来管理
h.base:是指Hadoop、database,就是速度快的一大作用。海量数据的秒级查询,pb级的
每个框架都有自己应用的特定场景
mahout(数据挖掘的作用、推介)最高级 pig相当于JSON(更高级) Hadoop相当于XML