搜索博文结果_ChinaUnix博客

博客首页博客专家往日推荐博客文集

热搜： H3C 存储 C# 嵌入式敏捷项目管理 HADOOP CCNA

博客首页〉搜索结果

按类别查询搜索结果

操作系统程序设计数据库热点技术综合架构与运维移动开发与应用 Web前端

虚拟化| 云计算| 大数据| HADOOP| 高性能计算|

关于关键词的检测结果，共 36 条

【HADOOP】 HBase架构及基本组件

dream_my_dream | 2017-02-27 11:02:07 | 阅读(2490) | 评论(0)

HBase采用Master/Slave架构搭建集群，它隶属于Hadoop生态系统，由一下类型节点组成：HMaster节点、HRegionServer节点、ZooKeeper集群，而在底层，它将数据存储于HDFS中，因而涉及到HDFS的NameNode、DataNode等，总体结构如下【阅读全文】

【HADOOP】 Hadoop 提交任务执行流程总结

OowarrioroO | 2016-04-15 21:26:50 | 阅读(3100) | 评论(0)

Hadoop 提交任务执行流程总结
用流水线可表示任务执行流程如下：
input(k1,v1) -> map -> (k2,v2) -> combine -> shuffle(partitioner) -> sort -> (k2,v2) -> reduce -> (k3,v3) ->output【阅读全文】

【HADOOP】 azkaban任务报错java.lang.RuntimeException: The root scratch dir: /tmp/hive

levy-linux | 2016-03-23 10:43:40 | 阅读(11740) | 评论(0)

azkaban运行任务的时候失败报错如下：23-03-2016 08:16:14 CST analyzer-kafka2hdfs_new ERROR - Exception in thread "main" org.apache.hive.service.cli.HiveSQLException: java.lang.RuntimeException: The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are: rwxr-xr-x23-03-2016 ...【阅读全文】

【HADOOP】 Hadoop之使用python实现数据集合间join操作

levy-linux | 2016-03-17 17:42:57 | 阅读(2730) | 评论(0)

hadoop之steaming介绍hadoop有个工具叫做steaming，能够支持python、shell、C++、PHP等其他任何支持标准输入stdin及标准输出stdout的语言，其运行原理可以通过和标准java的map-reduce程序对比来说明：使用原生java语言实现Map-reduce程序 hadoop准备好数据后，将数据传送给java的map程序 &nbs...【阅读全文】

【HADOOP】 Ambari卸载已安装的服务组件

levy-linux | 2015-12-01 17:11:48 | 阅读(8810) | 评论(0)

Ambari 常用的 REST API 介绍Ambari 借鉴了很多成熟分布式软件的 API 设计。Rest API 就是一个很好地体现。通过 Ambari 的 Rest API，可以在脚本中通过 curl 维护整个集群。并且，我们可以用 Rest API 实现一些无法在 Ambari GUI 上面做的操作。下面是一些实例。实例 1，通过 API 卸载已安装的 Service目前 Ambari 不...【阅读全文】

【HADOOP】 Hadoop1.x和Hadoop2.x中fsimage和edits合并实现

levy-linux | 2015-11-25 11:14:59 | 阅读(1670) | 评论(0)

Hadoop 1.x中fsimage和edits合并实现用过Hadoop的用户应该都知道在Hadoop里面有个SecondaryNamenode进程，从名字看来大家很容易将它当作NameNode的热备进程。其实真实的情况不是这样的。SecondaryNamenode是HDFS架构中的一个组成部分，它是用来保存namenode中对HDFS metadata的信息的备份，并减少namenode重启的时间而设...【阅读全文】

【HADOOP】 ELK整合kafka

hbhe0316 | 2015-11-03 10:36:51 | 阅读(2750) | 评论(0)

编写logstash到kafka的接口，如下图所示。[root@rac01 ~]# cat kafka.conf input { stdin { add_field => {"key" => "value"} codec => "plain" tags => ["add"] type => "std"&...【阅读全文】

【HADOOP】 hive 结合执行计划分析 limit 执行原理

Helianthus_lu | 2015-10-16 23:36:30 | 阅读(6050) | 评论(0)

hive计划执行【阅读全文】

【HADOOP】 Hadoop群集balancer说明

levy-linux | 2015-09-02 18:54:15 | 阅读(1440) | 评论(0)

集群平衡介绍
Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况，比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候，将引发很多问题，比如MR程序无法很好地利用本地计算的优势，机器之间无法达到更好的网络带宽使用率，机器磁盘无法利用等等。可见，保证HDFS中的数据平衡...【阅读全文】

【HADOOP】合理设计及优化HBase数据库表入门

douyaqiang123 | 2015-06-30 16:38:43 | 阅读(1970) | 评论(0)

在完成创建HBase数据库后我们后续最重要的工作就是如何设计和构建出合理高效的hbase表。那么接下来本文就将介绍一下如何设计及优化HBase数据库的表。OK，废话不再多说，接下来我们进入今天的正题吧~【阅读全文】

【HADOOP】 Hadoop 源代码分析（二八）NameNode - ClientProtocol

超人学院1 | 2015-05-12 17:18:46 | 阅读(600) | 评论(0)

万事俱备，我们可以来分析NameNode 上的流程啦。首先我们来看NameNode 上实现的ClientProtocol，客户端通过这个接口，可以对目录树进行操作，打开/关闭文件等。getBlockLocations 用于确定文件内容的位置，它的输入参数为：文件名，偏移量，长度，返回值是一个LocatedBlocks 对象（如下图），它...【阅读全文】

【HADOOP】合理设计及优化HBase数据库表入门

fengzhanhai | 2015-04-21 11:33:03 | 阅读(3970) | 评论(0)

【HADOOP】上海市信息技术培训中心Cloudera Hadoop认证培训

sittc2 | 2015-04-16 10:12:57 | 阅读(760) | 评论(0)

作为大数据核心技术，Hadoop为企业提供了高扩展、高冗余、高容错、和经济有效的“数据驱动”解决方案，针对企业目前普遍缺乏海量数据技术人员的现状，上海市信息技术培训中心Cloudera Hadoop认证培训系列课程，为企业经理、CTO、架构师、技术带头人、系统管理员、数据管理员、数据/商务分析元和应用开发人员带来了业内最...【阅读全文】

【HADOOP】 Hadoop不适合处理实时数据的原因剖析

niao5929 | 2015-02-26 15:00:50 | 阅读(840) | 评论(0)

Hadoop不适合处理实时数据的原因剖析[日期：2015-02-25]来源：Linux社区作者：哥不是小萝莉[字体：大中小]1.概述　　　Hadoop已被公认为大数据分析领域无可争辩的王者，它专注与批处理。这种模型对许多情形（比如：为网...【阅读全文】

【HADOOP】 2015年上海市信息技术培训中心hadoop课程开班啦

sittc2 | 2015-02-26 10:14:03 | 阅读(660) | 评论(0)

2015年上海市信息技术培训中心hadoop课程开班啦【阅读全文】

【HADOOP】上海市信息技术培训中心Cloudera Hadoop管理认证培训

sittc2 | 2015-01-04 14:54:20 | 阅读(510) | 评论(0)

【HADOOP】企业如何选择Hadoop

644924073 | 2014-12-03 12:31:12 | 阅读(1040) | 评论(0)

本文讨论Apache Hadoop大数据工具及技术，帮助有效管理实时的大数据，并讨论Apache Hadoop大数据分析的优缺点。帮助企业认识Hadoop，在选择Hadoop技术方案上做出抉择。一、什么是大数据分析工具及技术Hadoop是目前的处理和存储海量数据的最佳工具。Hadoop可以利用数百台甚至数千台计算机处理大数据问题，而不是使用...【阅读全文】

【HADOOP】基于WordCount的一个比较综合的代码

double_lq | 2014-08-12 15:39:41 | 阅读(0) | 评论(0)

/** * 功能： * 1. 在wordcount基础上完成map和reduce端输出压缩处理，并将默认part-r-00000重命名为combineLog-r-00000的形式 * 2. 将mr输出的结果(已存到一指定的目录output)通过distcp的方式重新写到一个新的目录,并在写入新的目录前利用PathFilter过滤出满足...【阅读全文】

【HADOOP】 Hadoop框架排序和分组的理解

double_lq | 2014-07-21 13:15:59 | 阅读(0) | 评论(0)

MapReduce框架会确保每一个Reducer的输入都是按Key进行排序的。一般，将排序以及Map的输出传输到Reduce的过程称为混洗（shuffle)。每一个Map都包含一个环形的缓存，默认100M，Map首先将输出写到缓存当中。当缓存的内容达到“阈值”时（阈值默认的大小是缓存的80%），一个后台线程负责将结果写到硬盘，这个过程称为“spill”...【阅读全文】

【HADOOP】 MapReduce的自制Writable分组输出及组内排序

double_lq | 2014-07-21 10:09:05 | 阅读(0) | 评论(0)

问题描述：输入文件格式如下：name1 2name3 4name1 6name1 1name3 3name1 0要求输出的文件格式如下：name1 0，1，2，6name3 3，4要求是按照第一列分组，name1与name3也是按照顺序排列的，组内升序排...【阅读全文】

网络110 报警服务