Chinaunix首页 | 论坛 | 博客
  • 博客访问: 85745
  • 博文数量: 4
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 463
  • 用 户 组: 普通用户
  • 注册时间: 2013-07-20 19:18
文章分类

全部博文(4)

文章存档

2016年(1)

2015年(1)

2014年(1)

2013年(1)

我的朋友

分类: 大数据

2016-04-14 18:06:57

概述

本文主要讲述如何将 kafka topic 的数据经spark streaming 导入到hbase. 本文的Example使用scala开发,如果你是写java的朋友,那可能会有点为难了.

可能网上已经有很多教程了, 其中也可能有很多的教程都是使用c/s模式访问hbase, 本文不是使用c/s模式访问hbase的.

开发前准备

安装hadoop, zookeeper, spark, hbase, kafka集群

因为我是使用cdh管理集群的, 安装cdh的教程请参见: 

kafka集群没有使用cdh的,所以是独立安装的. 安装kafka请参见: 

创建kafka topic: users, 并且测试本地是否可以生产消息和消费消息.

创建工程和导入需要的库

使用idea创建工程, 在工程的根目录下创建lib目录. 将spark-assembly-1.5.1-hadoop2.6.0.jar移到lib里, 因为我的集群使用的spark的版本是1.5.1的.

这里没有使用sbt来管理spark的库, 如果你需要, 可以修改build.sbt的spark的版本.或者加入spark 的mvn依赖.

导入hbrdd, hbrdd项目参见:  这里有详细的安装,使用教程.

使用idea本地提交spark程序到远程集群运行

如何在idea上打包并提交到集群上运行请参见: 

项目地址和源码

project src: 

阅读(4774) | 评论(0) | 转发(0) |
0

上一篇:linux c 语言修改进程名字

下一篇:没有了

给主人留下些什么吧!~~