Storm基础-Larpenteur-ChinaUnix博客

尘世中一个迷途小书童riverhwp.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

Larpenteur

博客访问： 6455710
博文数量： 2759
博客积分： 1021
博客等级：中士
技术积分： 4091
用户组：普通用户
注册时间： 2012-03-11 14:14

文章分类

全部博文（2759）

Todo（1）
Advice（151）
Linux-未分类（223）
Ubuntu（47）
Database（145）
算法&DS（77）
Android（47）
Web（214）
Geek（237）
CPPC（296）
Java（113）
Python（99）
Matlab（19）
Git（19）
SVN（11）
Gnuplot（5）
面试（0）
机器-挖掘-AI（6）
开源项目（1）
Happy Drawe（9）
Programming（144）

Tools（23）

Shell（66）

Makefile（11）

GDB（26）

vim（18）
System（628）

Author（110）

Common（4）

Memory（66）

File system（82）

Driver（19）

IO（66）

Storage（45）

General（38）

Architecture（19）

Command（64）

Kernel（115）
Virtualization（39）
Cloud（33）
Hadoop（71）
Big Data（24）
未分配的博文（100）

文章存档

2019年（1）

2017年（84）

2016年（196）

2015年（204）

2014年（636）

2013年（1176）

2012年（463）

我的朋友

相关博文

Storm基础

分类：大数据

2014-08-12 09:53:07

原文地址：Storm基础作者：scq2099yt

一、简要介绍
        对于大数据的处理，在离线方面，Hadoop很完美地解决了，对于实时数据的处理则无能为力。
        Storm是一个开源的分布式实时计算系统，可以简单、可靠地处理大量的数据流。
        Storm有很多使用场景，如实时分析、在线机器学习、持续计算、分布式RPC、ETL等。
        Storm支持水平扩展，具有高容错性，保证每个消息都会得到处理，而且处理速度很快（在一个小集群中，每个节点每秒可以处理数以百万计的消息）。
        Storm的部署和运维都很便捷，而且更为重要的是可以使用任意编程语言来开发应用。

二、系统特性
1、编程模型简单
        Storm为大数据的实时计算提供了一些简单优美的原语，这大大降低了开发并行实时处理任务的复杂性，帮助你快速、高效的开发应用。
2、可扩展
        在Storm集群中真正运行Topology的主要有三个实体：工作进程、线程和任务。
        Storm集群中的每台机器上都可以运行多个工作进程，每个工作进程又可创建多个线程，每个线程可以执行多个任务，任务是真正进行数据处理的实体，Spout、Bolt被开发出来就是作为一个或者多个任务的方式执行的。
3、高可靠性
        Storm可以保证Spout发出的每条消息都能被“完全处理”，Spout发出的消息后续可能会触发产生成千上万条消息，可以形象地理解为一棵消息树，其中Spout发出的消息为树根，Storm会跟踪这个消息树的处理情况，只有这棵树中的所有消息被处理了才认为“完全处理”了，否则Spout会重发消息。
4、高容错性
        如果在消息处理过程中出现了一些异常，Storm会重新部署这个出问题的处理单元。Storm保证一个处理单元永远运行（除非你显示的结束这个处理单元）。
5、支持多种编程语言
        除了用Java实现Spout和Bolt，你还可以使用任何你熟悉的编程语言来完成这项工作，这一切得益于Storm所谓的多语言协议。
        多语言协议是Storm内部的一种特殊协议，允许Spout或者Bolt使用标准输入和标准输出来进行消息传递，传递的消息为单行文本或者JSON编码的多行。
6、支持本地模式
        Storm有一种“本地模式”，也就是在进程中模拟一个Storm集群的所有功能，以本地模式运行Topology跟在集群上运行Topology类似，这对于我们开发和测试来说非常有用。
7、高效
        用ZeroMQ作为底层消息队列，保证消息能快速被处理。
8、运维和部署简单
        Storm计算任务是以“拓扑”为基本单位的，每个拓扑完成特定的业务指标，拓扑中的每个逻辑业务节点实现特定的逻辑，并通过消息相互协作。
        实际部署时，仅需要根据情况配置逻辑节点的并发数，而不需要关心部署到集群中的哪台机器，Storm支持动态增加节点但不会自动负载均衡。
9、图形化监控
        图形界面，可以监控各个拓扑的信息，包括每个处理单元的状态和处理消息的数量。

三、类似系统
        这里主要将Yahoo!S4和IBM InfoSphere Streams与Storm进行对比。
1、Yahoo!S4
        （1）系统模型：通过把任务分解为尽可能小的处理单元，各处理单元之间形成流水线，从而提高并发度和吞吐量，处理单元的粒度由开发者自行把握，这点与Storm相似，不同的是S4内置的处理单元PE还可以处理count、join和aggregate等常见任务需求。
        （2）开发：S4使用Java开发，模块高度可定制化。
        （3）通信协议：S4节点间通信采用POJOs（Plain Old Java Objects）模式，底层通信协议采用UDP。
        （4）高可用：S4集群中所有节点对等，无单点问题。
        （5）运维与部署：S4不支持动态部署和动态增删节点，这两点Storm都支持。
2、IBM InfoSphere Streams
        （1）系统模型：通过把任务分解为尽可能小的处理单元，各处理单元之间形成流水线，从而提高并发度和吞吐量，各处理单元只能完成预定的操作（如：join、merge等），强制限制每个处理单元的粒度。
        （2）开发：定制的开发环境Eclipse-SPL(Steam Programming Language)。
        （3）高可用：与S4和Storm一样支持故障转移。
        （4）运维与部署：部署半自动化，支持动态增加节点，且根据负载自动均衡，这点Storm不支持。

四、应用模式
1、海量数据处理
        Storm由于其高效、可靠、可扩展、易部署、高容错及实时性高等特点，对于海量数据的实时处理非常合适。
        比如：统计网站的页面浏览量（如：Page View即PV）指标，Storm可以做到实时接收到点击数据流，并实时计算出结果。
2、中间状态存储与查询
        对于Storm实时计算出的中间结果，可以实时写入MySQL或者HBase，以便于用户查询。
3、数据增量更新
        对于PV指标的计算，如果直接实时修改HBase，则HBase压力会很大。
        可以将数据在Storm内计算短暂的一段时间后，增量地合并到HBase，以牺牲一定查询结果的实时性换取HBase压力的减轻。
4、结合概率算法实时计算复杂指标
        Storm实时处理数据，相对离线处理而言需要大量内存存储中间状态，为了减少内存的消耗，可以根据业务特点（如：Unique Visitor即UV）采用概率算法近似计算结果。

      更多好文章请参考，还有，关于实例可以看。

阅读(924) | 评论(0) | 转发(0) |

上一篇：学技术无法碎片化

下一篇：解密搜索引擎技术之排序算法

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6