搜索博文结果_ChinaUnix博客

博客首页博客专家往日推荐博客文集

热搜： JavaScript 存储 Java 敏捷 AIX Hyper-V HADOOP 高性能

博客首页〉搜索结果

按类别查询搜索结果

操作系统程序设计数据库热点技术综合架构与运维移动开发与应用 Web前端

虚拟化| 云计算| 大数据| HADOOP| 高性能计算|

关于关键词的检测结果，共 217 条

【HADOOP】 hadoop cdh5安装

gagagixi | 2014-09-29 21:06:52 | 阅读(2050) | 评论(0)

为满足公司程序运行环境，hadoop集群由原来的1.0版本升级到CDH5版本，又一次集群安装经历，分享给有需要的人。一、机器准备 Linux版本CentOs 5.8，x86_64，如果你的linux版本是6.x，也可以参照下面步骤安装；本人此次安装共准备了5台机器：192.168.32.70（master），192.168.32.71（slave...【阅读全文】

【HADOOP】 hadoop cdh5安装

dsy851009 | 2014-09-25 16:18:28 | 阅读(19220) | 评论(2)

【HADOOP】安装hive 运行show tables命令时报错

dsy851009 | 2014-09-11 14:36:48 | 阅读(6360) | 评论(0)

错误：hive> show tables; FAILED: Error in metadata: MetaException(message:Got exception: javax.jdo.JDODataStoreException An exception was thrown while adding/validating class(es) : Specified key was too long;...【阅读全文】

【HADOOP】 zookeeper简介和分布式安装

tingfengjushi | 2014-09-03 15:49:31 | 阅读(1170) | 评论(0)

zookeeper简介和分布式安装 2014-01-13 22:00:14| 分类： Hadoop | 标签：hadoop zookeeper |举报|字号订阅1.简介 Zookeeper 是 Google 的 Chubby一个开源的实现，是 ...【阅读全文】

【HADOOP】自定义OutPutFormat系列之三

double_lq | 2014-08-09 14:58:12 | 阅读(0) | 评论(0)

功能：完成自定义输出格式的定义，因为hadoop0.20.2没有实现MultipleOutputs和MultipleOutputFormat这两个API，所以不能调用，要自定义。package yuu; import java.io.DataOutputStream;import java.io.IOException;import java.io.UnsupportedEncodingExcep...【阅读全文】

【HADOOP】 MapReduce自定义二次排序系列三

double_lq | 2014-08-01 11:50:12 | 阅读(0) | 评论(0)

同样接上一篇博客：将自定义类中的compareTo方法改为： public int compareTo(CombinationKey combinationKey) { logger.info("-------CombinationKey flag-------"); return this...【阅读全文】

【HADOOP】 MapReduce自定义二次排序系列二

double_lq | 2014-08-01 11:43:56 | 阅读(0) | 评论(0)

接上一篇博客，这里我们将job.setSortComparatorClass去掉，看是不是真的执行的自定义类的compareTo方法，如果是的话，同样也验证了前面的说的Job.setSortComparatorClass会覆盖compareTo的结论。代码如下： package hh;import java.io.DataInput;import java.io.DataO...【阅读全文】

【HADOOP】 MapReduce自定义二次排序系列一

double_lq | 2014-08-01 11:36:46 | 阅读(0) | 评论(0)

一、概述MapReduce框架对处理结果的输出会根据key值进行默认的排序，这个默认排序可以满足一部分需求，但是也是十分有限的。在我们实际的需求当中，往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现，网络上已经有很多人分享过了，但是对二次排序的实现的原理以及整个MapReduce框架的处理流程的分析还是有...【阅读全文】

【HADOOP】 Hadoop MapReduce二次排序原理

double_lq | 2014-08-01 10:22:10 | 阅读(0) | 评论(0)

关于二次排序主要涉及到以下几个东西：在0.20.2以前使用的是： setPartitionerClass setOutputKeyComparatorClass setOutputValueGroupingComparator在0.20.2及以后使用的是： job.setPartitionerClass(); job.setSortComparatorClass(); job.setGroupingComparatorCl...【阅读全文】

【HADOOP】自定义outputFormat系列之二

double_lq | 2014-07-28 12:51:54 | 阅读(0) | 评论(0)

自定义一个OutputFormat，用于输出<Text , MapWritable >格式的数据MapWritable的内容是 [Text : LongWritable ]输出格式 [url url2 :times2 ,url3 :times3 ,...] 参考TextOutputFormat，修改简化之...【阅读全文】

【HADOOP】 pig安装

dsy851009 | 2014-07-22 12:25:00 | 阅读(2230) | 评论(1)

一、pig官方下载地址： http://pig.apache.org ，Project — Releases 选择最新版本或者你需要的版本下载，存放到本地，本人习惯存在于这样的目录：/opt/hadoop/pig-0.13.0/二、配置环境变量 vim /etc/profile/ 增加：export PATH=$PATH:/opt/hadoop/pig-0...【阅读全文】

【HADOOP】 Hadoop框架排序和分组的理解

double_lq | 2014-07-21 13:15:59 | 阅读(0) | 评论(0)

MapReduce框架会确保每一个Reducer的输入都是按Key进行排序的。一般，将排序以及Map的输出传输到Reduce的过程称为混洗（shuffle)。每一个Map都包含一个环形的缓存，默认100M，Map首先将输出写到缓存当中。当缓存的内容达到“阈值”时（阈值默认的大小是缓存的80%），一个后台线程负责将结果写到硬盘，这个过程称为“spill”...【阅读全文】

【HADOOP】在Hadoop中重写FileInputFormat类以处理二进制格式存储的整数

double_lq | 2014-07-21 13:04:11 | 阅读(0) | 评论(0)

最近开始使用MapReduce，发现网上大部分例子都是对文本数据进行处理的，也就是说在读取输入数据时直接使用默认的TextInputFormat进行处理即可。对于文本数据处理，这个类还是能满足一部分应用场景。但是如果要处理以二进制形式结构化记录存储的文件时，这些类就不再适合了。本文以一个简单的应用场景为例：对按照二进制格...【阅读全文】

【HADOOP】基于hive的日志数据统计实战

double_lq | 2014-07-19 11:04:59 | 阅读(0) | 评论(0)

基于 hive 的日志数据统计实战一、 hive 简介 hive 是一个基于 hadoop 的开源数据仓库工具，用于存储和处理海量结构化数据。它把海量数据...【阅读全文】

【HADOOP】深入理解Hadoop集群和网络

zzjlzx | 2014-07-14 10:41:26 | 阅读(1560) | 评论(0)

深入理解Hadoop集群和网络2012-11-08 14:47 Brad Hedlund csdn 字号：T | T本文将着重于讨论Hadoop集群的体系结构和方法，及它如何与网络和服务器基础设施的关系。最开始我们先学习一下Hadoop集群运作的基础原理。AD：WOT2014：用户标签系统与用户...【阅读全文】

【HADOOP】自定义inputformat系列之一

double_lq | 2014-07-13 13:47:58 | 阅读(0) | 评论(0)

1. 集群测试数据 2.希望以Text，Point的格式读取数据代码如下： package yuu;import java.io.DataInput;import java.io.DataOutput;import java.io.DataOutputStream;import java.io.IOException;import java....【阅读全文】

【HADOOP】自定义OutputFormat系列之二

double_lq | 2014-07-12 18:29:42 | 阅读(0) | 评论(0)

在这里自定义OutputFormat,以wordCount为背景，将其中的word作为文件名保存相应信息。具体代码如下: //自定义outputFormatpackage yuu;import java.io.DataOutputStream;import java.io.IOException;import java.io.UnsupportedEnco...【阅读全文】

【HADOOP】自定义OutputFormat系列之一

double_lq | 2014-07-12 16:33:42 | 阅读(0) | 评论(0)

在看了WordCount实例和TextOutputFormat的源码后，决定自定义一个OutputFormat，主要实现的功能就是将WordCount的最后输出结果中的Tab空格键转换为^^^^。具体代码如下：//自定义outputFormatpackage yuu;import java.io.DataOutputStream;import java.io.I...【阅读全文】

【HADOOP】 hadoop基础理论篇（不断更新）

dsy851009 | 2014-06-09 00:41:18 | 阅读(5640) | 评论(1)

1、基础了解先说说Hadoop是个什么玩意儿，一个分布式系统基础架构，由apache基金会所研发，用户可以利用集群的威力高速运算和存储数据； Hadoop实现了一个分布式文件系统（Hadoop Distributed Flie Syste...【阅读全文】

【HADOOP】 Hadoop-2.4.0分布式安装手册

niao5929 | 2014-05-15 15:59:11 | 阅读(1600) | 评论(0)

Hadoop-2.4.0分布式安装手册.pdf目录目录11. 前言22. 部署22.1. 机器列表22.2. 主机名22.2.1. 临时修改主机名32.2.2. 永久修改主机名32.3. 免密码登录范围43. 约定43.1. 安装目录约定43.2. 服务端口约定5...【阅读全文】

首页
<<
1
2
3
4
5
6
7
8
9
10
>>
末页

网络110 报警服务