按类别查询搜索结果
关于关键词 的检测结果,共 36
dream_my_dream | 2017-02-27 11:02:07 | 阅读(2490) | 评论(0)
HBase采用Master/Slave架构搭建集群,它隶属于Hadoop生态系统,由一下类型节点组成:HMaster节点、HRegionServer节点、ZooKeeper集群,而在底层,它将数据存储于HDFS中,因而涉及到HDFS的NameNode、DataNode等,总体结构如下【阅读全文】
OowarrioroO | 2016-04-15 21:26:50 | 阅读(3100) | 评论(0)
Hadoop 提交任务执行流程总结
用流水线可表示任务执行流程如下:
input(k1,v1) -> map -> (k2,v2) -> combine -> shuffle(partitioner) -> sort -> (k2,v2) -> reduce -> (k3,v3) ->output【阅读全文】
levy-linux | 2016-03-23 10:43:40 | 阅读(11740) | 评论(0)
azkaban运行任务的时候失败报错如下:23-03-2016 08:16:14 CST analyzer-kafka2hdfs_new ERROR - Exception in thread "main" org.apache.hive.service.cli.HiveSQLException: java.lang.RuntimeException: The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are: rwxr-xr-x23-03-2016 ...【阅读全文】
levy-linux | 2016-03-17 17:42:57 | 阅读(2730) | 评论(0)
hadoop之steaming介绍hadoop有个工具叫做steaming,能够支持python、shell、C++、PHP等其他任何支持标准输入stdin及标准输出stdout的语言,其运行原理可以通过和标准java的map-reduce程序对比来说明:使用原生java语言实现Map-reduce程序    hadoop准备好数据后,将数据传送给java的map程序 &nbs...【阅读全文】
levy-linux | 2015-12-01 17:11:48 | 阅读(8810) | 评论(0)
Ambari 常用的 REST API 介绍Ambari 借鉴了很多成熟分布式软件的 API 设计。Rest API 就是一个很好地体现。通过 Ambari 的 Rest API,可以在脚本中通过 curl 维护整个集群。并且,我们可以用 Rest API 实现一些无法在 Ambari GUI 上面做的操作。下面是一些实例。实例 1,通过 API 卸载已安装的 Service目前 Ambari 不...【阅读全文】
levy-linux | 2015-11-25 11:14:59 | 阅读(1670) | 评论(0)
Hadoop 1.x中fsimage和edits合并实现用过Hadoop的用户应该都知道在Hadoop里面有个SecondaryNamenode进程,从名字看来大家很容易将它当作NameNode的热备进程。其实真实的情况不是这样的。SecondaryNamenode是HDFS架构中的一个组成部分,它是用来保存namenode中对HDFS metadata的信息的备份,并减少namenode重启的时间而设...【阅读全文】
【HADOOP】 ELK整kafka
hbhe0316 | 2015-11-03 10:36:51 | 阅读(2750) | 评论(0)
编写logstash到kafka的接口,如下图所示。[root@rac01 ~]# cat kafka.conf input {    stdin {        add_field => {"key" => "value"}        codec => "plain"        tags => ["add"]        type => "std"&...【阅读全文】
Helianthus_lu | 2015-10-16 23:36:30 | 阅读(6050) | 评论(0)
hive计划执行【阅读全文】
levy-linux | 2015-09-02 18:54:15 | 阅读(1440) | 评论(0)
集群平衡介绍
Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等。可见,保证HDFS中的数据平衡...【阅读全文】
douyaqiang123 | 2015-06-30 16:38:43 | 阅读(1970) | 评论(0)
在完成创建HBase数据库后我们后续最重要的工作就是如何设计和构建出合理高效的hbase表。那么接下来本文就将介绍一下如何设计及优化HBase数据库的表。OK,废话不再多说,接下来我们进入今天的正题吧~【阅读全文】
超人学院1 | 2015-05-12 17:18:46 | 阅读(600) | 评论(0)
万事俱备,我们可以来分析NameNode 上的流程啦。 首先我们来看NameNode 上实现的ClientProtocol,客户端通过这个接口,可以对目录树进行操作,打开/关闭文件等。getBlockLocations 用于确定文件内容的位置,它的输入参数为:文件名,偏移量,长度,返回值是一个LocatedBlocks 对象(如下图),它...【阅读全文】
fengzhanhai | 2015-04-21 11:33:03 | 阅读(3970) | 评论(0)
在完成创建HBase数据库后我们后续最重要的工作就是如何设计和构建出合理高效的hbase表。那么接下来本文就将介绍一下如何设计及优化HBase数据库的表。OK,废话不再多说,接下来我们进入今天的正题吧~【阅读全文】
sittc2 | 2015-04-16 10:12:57 | 阅读(760) | 评论(0)
作为大数据核心技术,Hadoop为企业提供了高扩展、高冗余、高容错、和经济有效的“数据驱动”解决方案,针对企业目前普遍缺乏海量数据技术人员的现状,上海市信息技术培训中心Cloudera Hadoop认证培训系列课程,为企业经理、CTO、架构师、技术带头人、系统管理员、数据管理员、数据/商务分析元和应用开发人员带来了业内最...【阅读全文】
niao5929 | 2015-02-26 15:00:50 | 阅读(840) | 评论(0)
Hadoop不适合处理实时数据的原因剖析[日期:2015-02-25]来源:Linux社区  作者:哥不是小萝莉[字体:大 中 小]1.概述   Hadoop已被公认为大数据分析领域无可争辩的王者,它专注与批处理。这种模型对许多情形(比如:为网...【阅读全文】
sittc2 | 2015-02-26 10:14:03 | 阅读(660) | 评论(0)
2015年上海市信息技术培训中心hadoop课程开班啦【阅读全文】
sittc2 | 2015-01-04 14:54:20 | 阅读(510) | 评论(0)
作为大数据核心技术,Hadoop为企业提供了高扩展、高冗余、高容错、和经济有效的“数据驱动”解决方案,针对企业目前普遍缺乏海量数据技术人员的现状,上海市信息技术培训中心Cloudera Hadoop认证培训系列课程,为企业经理、CTO、架构师、技术带头人、系统管理员、数据管理员、数据/商务分析元和应用开发人员带来了业内最领...【阅读全文】
644924073 | 2014-12-03 12:31:12 | 阅读(1040) | 评论(0)
本文讨论Apache Hadoop大数据工具及技术,帮助有效管理实时的大数据,并讨论Apache Hadoop大数据分析的优缺点。帮助企业认识Hadoop,在选择Hadoop技术方案上做出抉择。一、什么是大数据分析工具及技术Hadoop是目前的处理和存储海量数据的最佳工具。Hadoop可以利用数百台甚至数千台计算机处理大数据问题,而不是使用...【阅读全文】
double_lq | 2014-08-12 15:39:41 | 阅读(0) | 评论(0)
/** * 功能: * 1. 在wordcount基础上完成map和reduce端输出压缩处理,并将默认part-r-00000重命名为combineLog-r-00000的形式 * 2. 将mr输出的结果(已存到一指定的目录output)通过distcp的方式重新写到一个新的目录,并在写入新的目录前利用PathFilter过滤出满足...【阅读全文】
double_lq | 2014-07-21 13:15:59 | 阅读(0) | 评论(0)
MapReduce框架会确保每一个Reducer的输入都是按Key进行排序的。一般,将排序以及Map的输出传输到Reduce的过程称为混洗(shuffle)。每一个Map都包含一个环形的缓存,默认100M,Map首先将输出写到缓存当中。当缓存的内容达到“阈值”时(阈值默认的大小是缓存的80%),一个后台线程负责将结果写到硬盘,这个过程称为“spill”...【阅读全文】
double_lq | 2014-07-21 10:09:05 | 阅读(0) | 评论(0)
问题描述:输入文件格式如下:name1    2name3    4name1    6name1    1name3    3name1    0要求输出的文件格式如下:name1    0,1,2,6name3    3,4要求是按照第一列分组,name1与name3也是按照顺序排列的,组内升序排...【阅读全文】