Apache-Storm 集群

首页 > 代码库 > Apache-Storm 集群

2024-09-16 14:52:22 219人阅读

【【【 storm 】】】

一、Apache Storm简介

Storm是一个分布式的，可靠的，容错的数据流处理系统。Storm集群的输入流由一个被称作spout的组件管理，spout把数据传递给bolt，bolt要么把数据保存到某种存储器，要么把数据传递给其它的bolt。一个Storm集群就是在一连串的bolt之间转换spout传过来的数据。

1、Storm组件

在Storm集群中、有两类节点：主节点master node和工作节点worker nodes。主节点运行Nimbus守护进程，这个守护进程负责在集群中分发代码，为工作节点分配任务，并监控故障。Supervisor守护进程作为拓扑的一部分运行在工作节点上。一个Storm拓扑结构在不同的机器上运行着众多的工作节点。每个工作节点都是topology中一个子集的实现。而Nimbus和Supervisor之间的协调则通过Zookeeper系统或者集群。

2、Zookeeper

Zookeeper是完成Supervisor和Nimbus之间协调的服务。而应用程序实现实时的逻辑则被封装进Storm中的“topology”。topology则是一组由Spouts（数据源）和Bolts（数据操作）通过Stream Groupings进行连接的图。

3、Spout

Spout从来源处读取数据并放入topology。Spout分成可靠和不可靠两种；当Storm接收失败时，可靠的Spout会对tuple（元组，数据项组成的列表）进行重发；而不可靠的Spout不会考虑接收成功与否只发射一次。而Spout中最主要的方法就是nextTuple（），该方法会发射一个新的tuple到topology，如果没有新tuple发射则会简单的返回。

4、Bolt

Topology中所有的处理都由Bolt完成。Bolt从Spout中接收数据并进行处理，如果遇到复杂流的处理也可能将tuple发送给另一个Bolt进行处理。而Bolt中最重要的方法是execute（），以新的tuple作为参数接收。不管是Spout还是Bolt，如果将tuple发射成多个流，这些流都可以通过declareStream（）来声明。

5、Stream Groupings

Stream Grouping定义了一个流在Bolt任务中如何被切分。

1. Shuffle grouping：随机分发tuple到Bolt的任务，保证每个任务获得相等数量的tuple。
2. Fields grouping：根据指定字段分割数据流，并分组。例如，根据“user-id”字段，相同“user-id”的元组总是分发到同一个任务，不同“user-id”的元组可能分发到不同的任务。
3. Partial Key grouping：根据指定字段分割数据流，并分组。类似Fields grouping。
4. All grouping：tuple被复制到bolt的所有任务。这种类型需要谨慎使用。
5. Global grouping：全部流都分配到bolt的同一个任务。明确地说，是分配给ID最小的那个task。
6. None grouping：无需关心流是如何分组。目前，无分组等效于随机分组。但最终，Storm将把无分组的Bolts放到Bolts或Spouts订阅它们的同一线程去执行（如果可能）。
7. Direct grouping：这是一个特别的分组类型。元组生产者决定tuple由哪个元组处理者任务接收。
8. Local or shuffle grouping：如果目标bolt有一个或多个任务在同一工作进程，tuples 会打乱这些进程内的任务。否则,这就像一个正常的 Shuffle grouping。

二、Apache-strom 必须要求Python 2.6以上

1、升级 Python 官方下载地址：

https://www.python.org/ftp/python/

wget http://www.python.org/ftp/python/2.7.6/Python-2.7.6.tgz

wget https://www.python.org/ftp/python/3.6.0/Python-3.6.0.tgz

# tar -xf Python-3.6.0.tgz

# mv Python-3.6.0 /usr/local/python

# cd /usr/local/python

# ./configure --prefix=/usr/local/python

# make

# make install

# mv /usr/bin/python /usr/bin/python_old

# ln -s /usr/local/python/bin/python3.6 /usr/bin/python

# python -V

2、如发现yum 异常则, 编辑 /etc/bin/yum 文件

将文件头部的

#!/usr/bin/python

改为如下内容:

#!/usr/bin/python2.6

三、storm 安集群配置；

1. 系统：Centos6.7
2. 内核：2.6.32-573.el6.x86_64
3. 安装目录：/opt/storm
4. 数据日志目录：/opt/storm/{data,logs}
5. 用户组权限：deploy
6. 机器hostname需要在hosts里面配置关系映射:

zoo1 - 10.207.101.101

zoo2 - 10.207.101.102

zoo3 - 10.207.101.103

集群说明

1. 主节点(nimbus) zks1
2. 任务节点(supervisor) zks2 zks3 等

注：storm主节点、任务节点安装配置完全一致。

1、下载安装配置：官方下载地址：

http://mirrors.hust.edu.cn/apache/storm/

http://www-eu.apache.org/dist/storm/apache-storm-1.0.3/apache-storm-1.0.3.tar.gz

http://mirrors.hust.edu.cn/apache/storm/apache-storm-1.0.2/apache-storm-1.0.2.tar.gz

# tar -xf apache-storm-1.0.2.tar.gz

# cd apache-storm

# cat apache-storm-0.9.6/conf/storm.yaml |grep -v ^# |grep -v ^$

storm.zookeeper.servers:

- "10.207.101.101"

- "10.207.101.102"

- "10.207.101.103"

nimbus.host: "10.207.101.101"

storm.zookeeper.port: 2181

ui.port: 8090

storm.local.dir: "/opt/apache-storm-0.9.6/data"

supervisor.slots.ports:

- 6700

- 6701

- 6702

- 6703

- 6704

worker.childopts: "-Xmx2g"

logviewer.port: 18090

topology.max.spout.pending: 1000

topology.message.timeout.secs: 300

storm.messaging.netty.server_worker_threads: 10

2、主节点启动测验：

启动nimbus

# nohup ./bin/storm nimbus >/dev/null 2>&1 &

启动 UI

# nohup ./bin/storm ui >/dev/null 2>&1 &

3、任务节点启动脚步

vim supervisor_logviewer.sh

nohup ./bin/storm supervisor >/dev/null 2>&1 &

nohup ./bin/storm logviewer >/dev/null 2>&1 &

# ps -ef|grep storm

# netstat -ano |grep 8090

技术分享

本文出自 “logs” 博客，请务必保留此出处http://51log.blog.51cto.com/6076767/1918505

Apache-Storm 集群

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > Apache-Storm 集群

Apache-Storm 集群

看完仍有疑问？有类似问题直接问程序猿