搜索博文结果_ChinaUnix博客

博客首页博客专家往日推荐博客文集

热搜： JavaScript cISCO 存储 C++ Ruby 项目管理 Oracle 移动开发

博客首页〉搜索结果

按类别查询搜索结果

操作系统程序设计数据库热点技术综合架构与运维移动开发与应用 Web前端

虚拟化| 云计算| 大数据| HADOOP| 高性能计算|

关于关键词的检测结果，共 230 条

【HADOOP】 Hadoop shell的学习

梦醒潇湘love | 2014-08-17 11:44:20 | 阅读(0) | 评论(0)

Hadoop shell的学习 HDFS（Hadoop Distributed Filesystem）提供一个类似于Unix Shell的命令接口FSShell，用于client和HDFS进行数据交互。调用FSShell命令的方式：其中，$HADOOP_HOME指hadoop所在的目录。所有的FS shell命令使用URI路径作为参数。 &nbs...【阅读全文】

【HADOOP】基于WordCount的一个比较综合的代码

double_lq | 2014-08-12 15:39:41 | 阅读(0) | 评论(0)

/** * 功能： * 1. 在wordcount基础上完成map和reduce端输出压缩处理，并将默认part-r-00000重命名为combineLog-r-00000的形式 * 2. 将mr输出的结果(已存到一指定的目录output)通过distcp的方式重新写到一个新的目录,并在写入新的目录前利用PathFilter过滤出满足...【阅读全文】

【HADOOP】 hadoop通过多硬盘降低io的一点记录

lorine168 | 2014-08-11 11:02:14 | 阅读(930) | 评论(0)

1、最近在做hadoop的性能测试，采用了自带的Terasort的方式，但是在运行的过程中发现如果数据量过大，对硬盘I/O需求不小（通过Ganglia监控发现），因此，打算找找看是否有合适的配置来解决这样一类的问题，所以才有了这篇记录的文档。2、在做修改之前，当然必须确认slave的多块硬盘没有做任何形式的raid。二...【阅读全文】

【HADOOP】自定义OutPutFormat系列之三

double_lq | 2014-08-09 14:58:12 | 阅读(0) | 评论(0)

功能：完成自定义输出格式的定义，因为hadoop0.20.2没有实现MultipleOutputs和MultipleOutputFormat这两个API，所以不能调用，要自定义。package yuu; import java.io.DataOutputStream;import java.io.IOException;import java.io.UnsupportedEncodingExcep...【阅读全文】

【HADOOP】在mapreduce程序中实现输出压缩

double_lq | 2014-08-09 13:04:30 | 阅读(0) | 评论(0)

hadoop-0.20.2 有时候需要将map的输出和reduce端的输出进行压缩，压缩代码如下：map端压缩： conf.setBoolean("mapred.compress.map.output", true);conf.setClass("mapred.map.output.compression.codec", GzipCodec.class, CompressionCodec.class);reduce端的压缩： ...【阅读全文】

【HADOOP】 Hadoop计算中的Shuffle过程

willick | 2014-08-07 11:38:51 | 阅读(0) | 评论(0)

Hadoop计算中的Shuffle过程作者：左坚来源：清华万博时间:2013-07-02 15:04:44.0　　Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解MapReduce，Shuffle是必须要了解的。我看过很多相关的资料，但每次看完都云里雾里的绕着，很难理清大致的逻辑，反...【阅读全文】

【HADOOP】 hadoop shuffle机制中针对中间数据的排序过程详解（源代码级）

double_lq | 2014-08-05 12:41:50 | 阅读(1580) | 评论(0)

在所有公开资料中，很少有对Hadoop 中间数据的sort过程进行详细介绍的。如果想要深入了解hadoop对中间数据的排序机制，只有通过阅读源代码才能达到。而hadoop的这段代码本身具有非常大的迷惑性，如果不注意细节，很容易会发生错误的理解。本篇文章从原理上详细介绍了hadoop针对中间数据的排序机制，并且对一些重要的源代...【阅读全文】

【HADOOP】 MapReduce自定义二次排序系列三

double_lq | 2014-08-01 11:50:12 | 阅读(0) | 评论(0)

同样接上一篇博客：将自定义类中的compareTo方法改为： public int compareTo(CombinationKey combinationKey) { logger.info("-------CombinationKey flag-------"); return this...【阅读全文】

【HADOOP】 MapReduce自定义二次排序系列二

double_lq | 2014-08-01 11:43:56 | 阅读(0) | 评论(0)

接上一篇博客，这里我们将job.setSortComparatorClass去掉，看是不是真的执行的自定义类的compareTo方法，如果是的话，同样也验证了前面的说的Job.setSortComparatorClass会覆盖compareTo的结论。代码如下： package hh;import java.io.DataInput;import java.io.DataO...【阅读全文】

【HADOOP】 MapReduce自定义二次排序系列一

double_lq | 2014-08-01 11:36:46 | 阅读(0) | 评论(0)

一、概述MapReduce框架对处理结果的输出会根据key值进行默认的排序，这个默认排序可以满足一部分需求，但是也是十分有限的。在我们实际的需求当中，往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现，网络上已经有很多人分享过了，但是对二次排序的实现的原理以及整个MapReduce框架的处理流程的分析还是有...【阅读全文】

【HADOOP】多次格式化之后 datenode起不来

lorine168 | 2014-07-28 19:24:04 | 阅读(430) | 评论(0)

多次格式化后，datanode启动不了1、查看名称节点上(即在配置文件中配置的hadoop.tmp.dir参数路径)/usr/hadoop0.20.2/hadoop-huanghz/dfs/name/current/文件夹中VERSION文件中的namespaceid；[root@dubai2 current]# cat VERSION #Mon Jul 28 19:10:39 CST 2014namespaceID=1346791803cTime=0storageType=NAME_NODEl...【阅读全文】

【HADOOP】自定义outputFormat系列之二

double_lq | 2014-07-28 12:51:54 | 阅读(0) | 评论(0)

自定义一个OutputFormat，用于输出<Text , MapWritable >格式的数据MapWritable的内容是 [Text : LongWritable ]输出格式 [url url2 :times2 ,url3 :times3 ,...] 参考TextOutputFormat，修改简化之...【阅读全文】

【HADOOP】 Hadoop框架排序和分组的理解

double_lq | 2014-07-21 13:15:59 | 阅读(0) | 评论(0)

MapReduce框架会确保每一个Reducer的输入都是按Key进行排序的。一般，将排序以及Map的输出传输到Reduce的过程称为混洗（shuffle)。每一个Map都包含一个环形的缓存，默认100M，Map首先将输出写到缓存当中。当缓存的内容达到“阈值”时（阈值默认的大小是缓存的80%），一个后台线程负责将结果写到硬盘，这个过程称为“spill”...【阅读全文】

【HADOOP】在Hadoop中重写FileInputFormat类以处理二进制格式存储的整数

double_lq | 2014-07-21 13:04:11 | 阅读(0) | 评论(0)

最近开始使用MapReduce，发现网上大部分例子都是对文本数据进行处理的，也就是说在读取输入数据时直接使用默认的TextInputFormat进行处理即可。对于文本数据处理，这个类还是能满足一部分应用场景。但是如果要处理以二进制形式结构化记录存储的文件时，这些类就不再适合了。本文以一个简单的应用场景为例：对按照二进制格...【阅读全文】

【HADOOP】 MapReduce的自制Writable分组输出及组内排序

double_lq | 2014-07-21 10:09:05 | 阅读(0) | 评论(0)

问题描述：输入文件格式如下：name1 2name3 4name1 6name1 1name3 3name1 0要求输出的文件格式如下：name1 0，1，2，6name3 3，4要求是按照第一列分组，name1与name3也是按照顺序排列的，组内升序排...【阅读全文】

【HADOOP】 setGroupingComparatorClass自定义输出分组

double_lq | 2014-07-20 20:05:31 | 阅读(0) | 评论(0)

在我们日常写的程序中，每个值都可以找到对应的键去存放。但是有时候需要对键值对的存放规则做出修改，例如最简单的是一个合并键值对。如果需要将对应于”aaa“”bbb“的存放为”bbb“，而对应于”ccc“”ddd“的存放为”ddd“，则需要使用自定义的分组方法。MapReduce中提供了相应的方法，即setGroupingComparatorClass.这...【阅读全文】

【HADOOP】 setSortComparatorClass自定义输出键的排序规则

double_lq | 2014-07-20 19:22:39 | 阅读(0) | 评论(0)

对大部分的默认数据类型来说，只要提供了相应的分片规则即可以对数据结果进行输出，并根据默认的数据规则进行排序。但有时在工作或者程序设计时要采用不同的排序规则。为了解决不同的排序规则能够根据需要运用在不同的设计程序中，MapReduce提供了一个对应的方法，即setSortComparatorClass，可以使用这种方法对输出据键...【阅读全文】

【HADOOP】基于hive的日志数据统计实战

double_lq | 2014-07-19 11:04:59 | 阅读(0) | 评论(0)

基于 hive 的日志数据统计实战一、 hive 简介 hive 是一个基于 hadoop 的开源数据仓库工具，用于存储和处理海量结构化数据。它把海量数据...【阅读全文】

【HADOOP】 mapreduce调试查询System.out的结果

double_lq | 2014-07-16 16:23:48 | 阅读(0) | 评论(0)

1.前言刚接触mapreduce的人肯定为碰到这样的问题，就是我们在程序中如下类似的命令[cpp] view plaincopySystem.out.println(year+" "+airTemperature);//无效，控制台没有输出。但是console控制台不给我们输出相应的结果，这对...【阅读全文】

【HADOOP】 MapReduce的多路径输入

double_lq | 2014-07-16 16:14:12 | 阅读(2700) | 评论(0)

目前为止知道MapReduce有三种路径输入方式。1、第一种是通过一下方式输入：FileInputFormat.addInputPath(job, new Path(args[2]));MultipleInputs.addInputPath(job, new Path(args[0]), TextInputFormat.class,EmpMapper.class);【阅读全文】

首页
<<
1
2
3
4
5
6
7
8
9
10
>>
末页

网络110 报警服务