搜索博文结果_ChinaUnix博客

博客首页博客专家往日推荐博客文集

热搜： Windows 网络安全 Python 敏捷项目管理 AIX Hyper-V 负载均衡

博客首页〉搜索结果

按类别查询搜索结果

操作系统程序设计数据库热点技术综合架构与运维移动开发与应用 Web前端

虚拟化| 云计算| 大数据| HADOOP| 高性能计算|

关于关键词的检测结果，共 101 条

【HADOOP】通过hive访问hbase中的表

hxl | 2014-11-12 14:38:26 | 阅读(10730) | 评论(0)

在hbase中创建表后,我们只能在hbase shell中使用scan查询数据,这对于熟悉SQL的使用者不怎么习惯,不过我们可以在hive中创建外部表来访问hbase表中的数据,例子如下:1.这里hbase中的表oss_user_label_action_data已经存在=> #hbase(main):067:0> scan 'oss_user_label_action_data',L...【阅读全文】

【HADOOP】 hive外部表

hxl | 2014-10-30 15:42:28 | 阅读(22230) | 评论(1)

我们在创建表的时候可以指定external关键字创建外部表,外部表对应的文件存储在location指定的目录下,向该目录添加新文件的同时，该表也会读取到该文件(当然文件格式必须跟表定义的一致)，删除外部表的同时并不会删除location指定目录下的文件.1.查看hdfs系统目录/user/hadoop1/my...【阅读全文】

【HADOOP】 HDFS中JAVA API的使用

humengez | 2014-09-03 11:10:43 | 阅读(1350) | 评论(0)

转自http://www.cnblogs.com/liuling/p/2013-6-17-01.html点击(此处)折叠或打开package com.hdfs;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream;import org.apac...【阅读全文】

【HADOOP】自定义OutPutFormat系列之三

double_lq | 2014-08-09 14:58:12 | 阅读(0) | 评论(0)

功能：完成自定义输出格式的定义，因为hadoop0.20.2没有实现MultipleOutputs和MultipleOutputFormat这两个API，所以不能调用，要自定义。package yuu; import java.io.DataOutputStream;import java.io.IOException;import java.io.UnsupportedEncodingExcep...【阅读全文】

【HADOOP】在mapreduce程序中实现输出压缩

double_lq | 2014-08-09 13:04:30 | 阅读(0) | 评论(0)

hadoop-0.20.2 有时候需要将map的输出和reduce端的输出进行压缩，压缩代码如下：map端压缩： conf.setBoolean("mapred.compress.map.output", true);conf.setClass("mapred.map.output.compression.codec", GzipCodec.class, CompressionCodec.class);reduce端的压缩： ...【阅读全文】

【HADOOP】 Hadoop计算中的Shuffle过程

willick | 2014-08-07 11:38:51 | 阅读(0) | 评论(0)

Hadoop计算中的Shuffle过程作者：左坚来源：清华万博时间:2013-07-02 15:04:44.0　　Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解MapReduce，Shuffle是必须要了解的。我看过很多相关的资料，但每次看完都云里雾里的绕着，很难理清大致的逻辑，反...【阅读全文】

【HADOOP】 hadoop shuffle机制中针对中间数据的排序过程详解（源代码级）

double_lq | 2014-08-05 12:41:50 | 阅读(1580) | 评论(0)

在所有公开资料中，很少有对Hadoop 中间数据的sort过程进行详细介绍的。如果想要深入了解hadoop对中间数据的排序机制，只有通过阅读源代码才能达到。而hadoop的这段代码本身具有非常大的迷惑性，如果不注意细节，很容易会发生错误的理解。本篇文章从原理上详细介绍了hadoop针对中间数据的排序机制，并且对一些重要的源代...【阅读全文】

【HADOOP】 MapReduce自定义二次排序系列三

double_lq | 2014-08-01 11:50:12 | 阅读(0) | 评论(0)

同样接上一篇博客：将自定义类中的compareTo方法改为： public int compareTo(CombinationKey combinationKey) { logger.info("-------CombinationKey flag-------"); return this...【阅读全文】

【HADOOP】 MapReduce自定义二次排序系列二

double_lq | 2014-08-01 11:43:56 | 阅读(0) | 评论(0)

接上一篇博客，这里我们将job.setSortComparatorClass去掉，看是不是真的执行的自定义类的compareTo方法，如果是的话，同样也验证了前面的说的Job.setSortComparatorClass会覆盖compareTo的结论。代码如下： package hh;import java.io.DataInput;import java.io.DataO...【阅读全文】

【HADOOP】 MapReduce自定义二次排序系列一

double_lq | 2014-08-01 11:36:46 | 阅读(0) | 评论(0)

一、概述MapReduce框架对处理结果的输出会根据key值进行默认的排序，这个默认排序可以满足一部分需求，但是也是十分有限的。在我们实际的需求当中，往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现，网络上已经有很多人分享过了，但是对二次排序的实现的原理以及整个MapReduce框架的处理流程的分析还是有...【阅读全文】

【HADOOP】自定义outputFormat系列之二

double_lq | 2014-07-28 12:51:54 | 阅读(0) | 评论(0)

自定义一个OutputFormat，用于输出<Text , MapWritable >格式的数据MapWritable的内容是 [Text : LongWritable ]输出格式 [url url2 :times2 ,url3 :times3 ,...] 参考TextOutputFormat，修改简化之...【阅读全文】

【HADOOP】在Hadoop中重写FileInputFormat类以处理二进制格式存储的整数

double_lq | 2014-07-21 13:04:11 | 阅读(0) | 评论(0)

最近开始使用MapReduce，发现网上大部分例子都是对文本数据进行处理的，也就是说在读取输入数据时直接使用默认的TextInputFormat进行处理即可。对于文本数据处理，这个类还是能满足一部分应用场景。但是如果要处理以二进制形式结构化记录存储的文件时，这些类就不再适合了。本文以一个简单的应用场景为例：对按照二进制格...【阅读全文】

【HADOOP】一个经典的MapReduce模板代码,倒排索引(ReverseIndex)

ichenxiaohu | 2014-07-15 18:21:22 | 阅读(730) | 评论(0)

一个经典的MapReduce模板代码,倒排索引(ReverseIndex) 【阅读全文】

【HADOOP】自定义inputformat系列之一

double_lq | 2014-07-13 13:47:58 | 阅读(0) | 评论(0)

1. 集群测试数据 2.希望以Text，Point的格式读取数据代码如下： package yuu;import java.io.DataInput;import java.io.DataOutput;import java.io.DataOutputStream;import java.io.IOException;import java....【阅读全文】

【HADOOP】一个经典的MapReduce模板代码,倒排索引(ReverseIndex)

tingfengjushi | 2014-07-12 19:55:51 | 阅读(3440) | 评论(0)

一个经典的MapReduce模板代码,倒排索引(ReverseIndex) 【阅读全文】

【HADOOP】自定义OutputFormat系列之二

double_lq | 2014-07-12 18:29:42 | 阅读(0) | 评论(0)

在这里自定义OutputFormat,以wordCount为背景，将其中的word作为文件名保存相应信息。具体代码如下: //自定义outputFormatpackage yuu;import java.io.DataOutputStream;import java.io.IOException;import java.io.UnsupportedEnco...【阅读全文】

【HADOOP】自定义OutputFormat系列之一

double_lq | 2014-07-12 16:33:42 | 阅读(0) | 评论(0)

在看了WordCount实例和TextOutputFormat的源码后，决定自定义一个OutputFormat，主要实现的功能就是将WordCount的最后输出结果中的Tab空格键转换为^^^^。具体代码如下：//自定义outputFormatpackage yuu;import java.io.DataOutputStream;import java.io.I...【阅读全文】

【HADOOP】 Sqoop工具使用(三)--把HDFS中的数据导入到Oracle

Larpenteur | 2014-04-20 11:43:09 | 阅读(1580) | 评论(0)

sqoop export工具把HDFS中的数据导入到rdbms系统中，实现方式有三种：(1)insert mode:生成insert语句然后执行，这是默认的方式(2)update mode:生成update语句，替换数据库中的记录(3)call mode:调用存储过程处理每一条记录：Common argumentsArgument Description--connect <jdbc-uri...【阅读全文】

【HADOOP】 Hadoop-2.4.0中HDFS文件块大小默认为128M

Aquester | 2014-04-19 14:34:32 | 阅读(5180) | 评论(0)

134217728 / 1024 = 131072 / 1024 = 128【阅读全文】

【HADOOP】看两种截然不同的设计理念：分布式文件系统支持大和小文件的思考

Aquester | 2014-04-19 11:33:41 | 阅读(3130) | 评论(0)

为何Google GFS设计成对大文件友好，而像腾讯的TFS（Tencent File System）和淘宝的TFS（Taobao File System）却设计成对小文件友好了？这一点非常好理解，两个TFS都用来满足图片等大量小文件的需求。但是两者是矛盾的吗？答案是否。实际中TFS也在努力支持大文件，GFS也要支持小文件。...【阅读全文】

首页
<<
1
2
3
4
5
6
>>
末页

网络110 报警服务