Storm详解一、Storm 概述

首页 > 代码库 > Storm详解一、Storm 概述

2024-07-15 15:33:01 226人阅读

一、Storm概述

Storm是一个分布式的、可靠的、零失误的流式数据处理系统。它的工作就是委派各种组件分别独立的处理一些简单任务。在Storm集群中处理输入流的是Spout组件，而Spout又把读取的数据传递给叫Bolt的组件。Bolt组件会对收到的数据元组进行处理，也有可能传递给下一个Bolt。我们可以把Storm集群想象成一个由bolt组件组成的链条集合，数据在这些链条上传输，而bolt作为链条上的节点来对数据进行处理。

Storm和Hadoop集群表面看上去很类似，但是Hadoop上面运行的是MapReduceJobs,而在Storm上运行的是拓扑topology，这两者之间是非常不一样的，关键区别是：MapReduce最终会结束，而一个topology永远会运行（除非你手动kill掉）,换句话说，Storm是面向实时数据分析，而Hadoop面向的是离线数据分析。

假设有这么一种情形，当你看政论类节目的时候，他们会经常提到一些人名和一些热门话题，如果我们把其中人名和话题的重复次数都记录下来，结果应该是一件很有趣的事情。

因此，想象在Storm环境下，我们可以把辩论者说的话作为输入流，spout组件来读取这些数据，然后把每一句话发送给bolt1组件，bolt1组件负责把这一句话拆分成一个个单词，再把这些单词发送到bolt2组件，bolt2组件负责统计每个单词的数量然后把这些信息存储到数据库中。辩论者在不断的说话，而storm不断的实时刷新数据库中结果，当你想查看这些结果时，你只需查询数据库即可。

现在，你可以想象如果可以把这些spout和bolt均衡分布到整个集群中，并且可以方便地做无限制的扩展，厉害吧？这就是Storm的威力！

图1.1：一个简单的Topology