首页 > 代码库 > Apache Strom和Kafka的简单笔记 (零) - 开端

Apache Strom和Kafka的简单笔记 (零) - 开端

一.什么是实时计算系统?(流式计算)
1.离线计算和实时计算
离线计算 实时计算(流式计算)
典型代表 mapReduce Apache Strom,Spark Streaming 和JStream
数据 HDFS上 实时数据
采集数据 Sqoop(批量导入) Flume进行采集
保存结果 HDFS Redis上 (HDFS,HBase,Hive,JDBC[oracle,mysql])

2.举例 : 自来水场处理自来水
3,strom体系结构
(*) 主节点 : nimbus
从节点 : supervisor
(*) Topology任务 = spout任务 + bolt任务
spout任务 :采集数据
bolt任务 :处理数据 ,可以级联
4. Strom中的WordCount
(*) 启动过程
(1)启动ZK,zkServer.sh start -- ZooInspector工具 zookeeper查看器
(2)启动nimbus Strom nimbus &
(3) 启动从节点 strom supervisor &
(4) 启动UI: strom ui &
(5) 启动日志: strom logviewer &

(*)启动WordCount :
strom jar strom-starter-topologies.jar org.apache.strom.starter.WordCountTopology MyWC

5. 分析一个任务的数据的流动过程(strom的编程模型)
Topology任务 = spout任务 + bolt任务
spout任务 :采集数据
bolt任务 :处理数据 ,可以级联

二 基于apache strom 的实时消息处理系统,即:流式处理系统

三 传统的基于中间件 weblogic JMS的消息处理系统
1. JMS :java Messaging Service,支持Queue,Topic
2.什么是消息 ?
(*) point-to-point :Queue 队列
(*) Publish-Subscribe :Topic 广播

四 基于Apache kafka 的实时消息系统
1.只支持Topic(广播)

 

Apache Strom和Kafka的简单笔记 (零) - 开端