Storm常见模式——批处理-zhm

坚持到底max2008.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

zhm_sunboy

博客访问： 3304706
博文数量： 346
博客积分： 10189
博客等级：上将
技术积分： 3125
用户组：普通用户
注册时间： 2008-08-05 19:46

文章分类

全部博文（346）

java（1）
flume（1）
zookeeper（0）
MQ（5）

Zeromq（0）

Metaq（0）

Jafka（0）

Kafka（5）
MongoDB（0）
Webserver（2）

LVS（0）

Tomcat（0）

Lighttpd（0）

Apache（1）

Nigix（1）
Hadoop（0）
Storm（17）
Libevent（1）
Memcached（0）
Redis（7）
Protocol（13）

SIP（12）
Algorithm（4）
Streaming（29）
网络技术（7）
Telecom（32）
计算机原理（0）
网络编程（26）
人生励志（4）
软件设计（1）
软件测试（2）
技术心得（0）
Web（1）
UML学习（2）
Wiki使用（2）
公司培训（0）
Windows编程（20）

GDIPlus使用（3）

MFC编程（4）

VC基础（9）

文件操作（1）

多线程（3）
Value-added（14）
Interview（1）
Programming（76）

Network pro（0）

Design patt（8）

Generic pro（2）

STL（4）

C++（49）

C（13）
DB（1）

Oracle（1）
Linux/Unix（77）

Unix下C/C++编程（13）

Shell脚本（14）

UNIX命令（14）

系统管理（11）

C/C++开发工具（25）
未分配的博文（0）

文章存档

2013年（35）

2011年（35）

2010年（76）

2009年（48）

2008年（152）

我的朋友

相关博文

Storm常见模式——批处理

分类：大数据

2013-09-13 09:13:16

转自：http://www.cnblogs.com/panfeng412/archive/2012/06/19/storm-common-patterns-of-batching.html

Storm对流数据进行实时处理时，一种常见场景是批量一起处理一定数量的tuple元组，而不是每接收一个tuple就立刻处理一个tuple，这样可能是性能的考虑，或者是具体业务的需要。

例如，批量查询或者更新数据库，如果每一条tuple生成一条sql执行一次数据库操作，数据量大的时候，效率会比批量处理的低很多，影响系统吞吐量。

当然，如果要使用Storm的可靠数据处理机制的话，应该使用容器将这些tuple的引用缓存到内存中，直到批量处理的时候，ack这些tuple。

下面给出一个简单的代码示例：

现在，假设我们已经有了一个DBManager数据库操作接口类，它至少有两个接口：

（1）getConnection(): 返回一个java.sql.Connection对象；

（2）getSQL(Tuple tuple): 根据tuple元组生成数据库操作语句。

为了在Bolt中缓存一定数量的tuple，构造Bolt时传递int n参数赋给Bolt的成员变量int count，指定每个n条tuple批量处理一次。

同时，为了在内存中缓存缓存Tuple，使用java concurrent中的ConcurrentLinkedQueue来存储tuple，每当攒够count条tuple，就触发批量处理。

另外，考虑到数据量小（如很长时间内都没有攒够count条tuple）或者count条数设置过大时，因此，Bolt中加入了一个定时器，保证最多每个1秒钟进行一次批量处理tuple。

下面是Bolt的完整代码（仅供参考）：

import java.util.Map; import java.util.Queue; import java.util.concurrent.ConcurrentLinkedQueue; import java.sql.Connection; import java.sql.SQLException; import java.sql.Statement; import backtype.storm.task.OutputCollector; import backtype.storm.task.TopologyContext; import backtype.storm.topology.IRichBolt; import backtype.storm.topology.OutputFieldsDeclarer; import backtype.storm.tuple.Tuple; public class BatchingBolt implements IRichBolt { private static final long serialVersionUID = 1L; private OutputCollector collector; private Queue tupleQueue = new ConcurrentLinkedQueue(); private int count; private long lastTime; private Connection conn; public BatchingBolt(int n) {
        count = n; //批量处理的Tuple记录条数 conn = DBManger.getConnection(); //通过DBManager获取数据库连接 lastTime = System.currentTimeMillis(); //上次批量处理的时间戳  }

    @Override public void prepare(Map stormConf, TopologyContext context,
            OutputCollector collector) { this.collector = collector;
    }

    @Override public void execute(Tuple tuple) {
        tupleQueue.add(tuple); long currentTime = System.currentTimeMillis(); // 每count条tuple批量提交一次，或者每个1秒钟提交一次 if (tupleQueue.size() >= count || currentTime >= lastTime + 1000) {
            Statement stmt = conn.createStatement();
            conn.setAutoCommit(false); for (int i = 0; i < count; i++) {
                Tuple tup = (Tuple) tupleQueue.poll();
                String sql = DBManager.getSQL(tup); //生成sql语句 stmt.addBatch(sql); //加入sql collector.ack(tup); //进行ack  }
            stmt.executeBatch(); //批量提交sql  conn.commit();
            conn.setAutoCommit(true);
            System.out.println("batch insert data into database, total records: " + count);
            lastTime = currentTime;
        }
    }

    @Override public void cleanup() {
    }

    @Override public void declareOutputFields(OutputFieldsDeclarer declarer) {
    }

    @Override public Map getComponentConfiguration() { // TODO Auto-generated method stub return null;
    }
}

阅读(2596) | 评论(0) | 转发(0) |

上一篇：Storm常见模式——求TOP N

下一篇：Storm常见模式——BasicBolt

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6