ChinaUnix首页
|
论坛
|
博客
博客首页
博客专家
往日推荐
博客文集
博文
博主
热搜:
Windows
网络安全
Python
敏捷
项目管理
AIX
Hyper-V
负载均衡
博客首页 〉
搜索结果
按类别查询搜索结果
操作系统
程序设计
数据库
热点技术
综合
架构与运维
移动开发与应用
Web前端
LINUX
|
BSD
|
WINDOWS
|
其他UNIX
|
AIX
|
SOLARIS
|
C/C++
|
Java
|
Python/Ruby
|
项目管理
|
Web开发
|
嵌入式
|
C#/.net
|
PHP
|
Delphi
|
PERL
|
Erlang
|
Verilog
|
敏捷开发
|
Mysql/postgreSQL
|
Oracle
|
DB2/Informix
|
Sybase
|
数据库开发技术
|
SQLite/嵌入式数据库
|
SQLServer
|
NOSQL
|
虚拟化
|
云计算
|
大数据
|
HADOOP
|
高性能计算
|
IT业界
|
IT职场
|
信息化
|
网络与安全
|
系统运维
|
服务器与存储
|
架构设计与优化
|
Android平台
|
iOS平台
|
Windows平台
|
其他平台
|
Html/Css
|
JavaScript
|
jQuery
|
HTML5
|
关于关键词 的检测结果,共
101
条
【HADOOP】
通过hive访问hbase
中
的表
hxl
| 2014-11-12 14:38:26 | 阅读(10730) | 评论(0)
在hbase中创建表后,我们只能在hbase shell中使用scan查询数据,这对于熟悉SQL的使用者不怎么习惯,不过我们可以在hive中创建外部表来访问hbase表中的数据,例子如下:1.这里hbase中的表oss_user_label_action_data已经存在=> #hbase(main):067:0> scan 'oss_user_label_action_data',L...
【阅读全文】
【HADOOP】
hive
外
部表
hxl
| 2014-10-30 15:42:28 | 阅读(22230) | 评论(1)
我们在创建表的时候可以指定external关键字创建外部表,外部表对应的文件存储在location指定的目录下,向该目录添加新文件的同时,该表也会读取到该文件(当然文件格式必须跟表定义的一致),删除外部表的同时并不会删除location指定目录下的文件.1.查看hdfs系统目录/user/hadoop1/my...
【阅读全文】
【HADOOP】
HDFS
中
JAVA API的使用
humengez
| 2014-09-03 11:10:43 | 阅读(1350) | 评论(0)
转自http://www.cnblogs.com/liuling/p/2013-6-17-01.html点击(此处)折叠或打开package com.hdfs;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream;import org.apac...
【阅读全文】
【HADOOP】
自定义OutPutFormat
系
列之 三
double_lq
| 2014-08-09 14:58:12 | 阅读(0) | 评论(0)
功能: 完成自定义输出格式的定义,因为hadoop0.20.2没有实现MultipleOutputs和MultipleOutputFormat这两个API,所以不能调用,要自定义。package yuu; import java.io.DataOutputStream;import java.io.IOException;import java.io.UnsupportedEncodingExcep...
【阅读全文】
【HADOOP】
在mapreduce程序
中
实现输出压缩
double_lq
| 2014-08-09 13:04:30 | 阅读(0) | 评论(0)
hadoop-0.20.2 有时候需要将map的输出和reduce端的输出进行压缩,压缩代码如下:map端压缩: conf.setBoolean("mapred.compress.map.output", true);conf.setClass("mapred.map.output.compression.codec", GzipCodec.class, CompressionCodec.class);reduce端的压缩: ...
【阅读全文】
【HADOOP】
Hadoop计算
中
的Shuffle过程
willick
| 2014-08-07 11:38:51 | 阅读(0) | 评论(0)
Hadoop计算中的Shuffle过程作者:左坚 来源:清华万博 时间:2013-07-02 15:04:44.0 Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce,Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反...
【阅读全文】
【HADOOP】
hadoop shuffle机制
中
针对
中
间数据的排序过程详解(源代码级)
double_lq
| 2014-08-05 12:41:50 | 阅读(1580) | 评论(0)
在所有公开资料中,很少有对Hadoop 中间数据的sort过程进行详细介绍的。如果想要深入了解hadoop对中间数据的排序机制,只有通过阅读源代码才能达到。而hadoop的这段代码本身具有非常大的迷惑性,如果不注意细节,很容易会发生错误的理解。 本篇文章从原理上详细介绍了hadoop针对中间数据的排序机制,并且对一些重要的源代...
【阅读全文】
【HADOOP】
MapReduce自定义二次排序
系
列三
double_lq
| 2014-08-01 11:50:12 | 阅读(0) | 评论(0)
同样接上一篇博客:将自定义类中的compareTo方法改为: public int compareTo(CombinationKey combinationKey) { logger.info("-------CombinationKey flag-------"); return this...
【阅读全文】
【HADOOP】
MapReduce自定义二次排序
系
列二
double_lq
| 2014-08-01 11:43:56 | 阅读(0) | 评论(0)
接上一篇博客,这里我们将job.setSortComparatorClass去掉,看是不是真的执行的自定义类的compareTo方法,如果是的话,同样也验证了前面的说的Job.setSortComparatorClass会覆盖compareTo的结论。代码如下: package hh;import java.io.DataInput;import java.io.DataO...
【阅读全文】
【HADOOP】
MapReduce自定义二次排序
系
列一
double_lq
| 2014-08-01 11:36:46 | 阅读(0) | 评论(0)
一、概述MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的。在我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现,网络上已经有很多人分享过了,但是对二次排序的实现的原理以及整个MapReduce框架的处理流程的分析还是有...
【阅读全文】
【HADOOP】
自定义outputFormat
系
列之二
double_lq
| 2014-07-28 12:51:54 | 阅读(0) | 评论(0)
自定义一个OutputFormat,用于输出<Text , MapWritable >格式的数据MapWritable的内容是 [Text : LongWritable ]输出格式 [url url2 :times2 ,url3 :times3 ,...] 参考TextOutputFormat,修改简化之...
【阅读全文】
【HADOOP】
在Hadoop
中
重写FileInputFormat类以处理二进制格式存储的整数
double_lq
| 2014-07-21 13:04:11 | 阅读(0) | 评论(0)
最近开始使用MapReduce,发现网上大部分例子都是对文本数据进行处理的,也就是说在读取输入数据时直接使用默认的TextInputFormat进行处理即可。对于文本数据处理,这个类还是能满足一部分应用场景。但是如果要处理以二进制形式结构化记录存储的文件时,这些类就不再适合了。本文以一个简单的应用场景为例:对按照二进制格...
【阅读全文】
【HADOOP】
一个
经
典的MapReduce模板代码,倒排索引(ReverseIndex)
ichenxiaohu
| 2014-07-15 18:21:22 | 阅读(730) | 评论(0)
一个经典的MapReduce模板代码,倒排索引(ReverseIndex)
【阅读全文】
【HADOOP】
自定义inputformat
系
列 之一
double_lq
| 2014-07-13 13:47:58 | 阅读(0) | 评论(0)
1. 集群测试数据 2.希望以Text,Point的格式读取数据代码如下: package yuu;import java.io.DataInput;import java.io.DataOutput;import java.io.DataOutputStream;import java.io.IOException;import java....
【阅读全文】
【HADOOP】
一个
经
典的MapReduce模板代码,倒排索引(ReverseIndex)
tingfengjushi
| 2014-07-12 19:55:51 | 阅读(3440) | 评论(0)
一个经典的MapReduce模板代码,倒排索引(ReverseIndex)
【阅读全文】
【HADOOP】
自定义OutputFormat
系
列 之二
double_lq
| 2014-07-12 18:29:42 | 阅读(0) | 评论(0)
在这里自定义OutputFormat,以wordCount为背景,将其中的word作为文件名保存相应信息。具体代码如下: //自定义outputFormatpackage yuu;import java.io.DataOutputStream;import java.io.IOException;import java.io.UnsupportedEnco...
【阅读全文】
【HADOOP】
自定义OutputFormat
系
列 之一
double_lq
| 2014-07-12 16:33:42 | 阅读(0) | 评论(0)
在看了WordCount实例和TextOutputFormat的源码后,决定自定义一个OutputFormat,主要实现的功能就是将WordCount的最后输出结果中的Tab空格键转换为^^^^。具体代码如下://自定义outputFormatpackage yuu;import java.io.DataOutputStream;import java.io.I...
【阅读全文】
【HADOOP】
Sqoop工具使用(三)--把HDFS
中
的数据导入到Oracle
Larpenteur
| 2014-04-20 11:43:09 | 阅读(1580) | 评论(0)
sqoop export工具把HDFS中的数据导入到rdbms系统中,实现方式有三种:(1)insert mode:生成insert语句然后执行,这是默认的方式(2)update mode:生成update语句,替换数据库中的记录(3)call mode:调用存储过程处理每一条记录:Common argumentsArgument Description--connect <jdbc-uri...
【阅读全文】
【HADOOP】
Hadoop-2.4.0
中
HDFS文件块大小默认为128M
Aquester
| 2014-04-19 14:34:32 | 阅读(5180) | 评论(0)
134217728 / 1024 = 131072 / 1024 = 128
【阅读全文】
【HADOOP】
看两种截然不同的设计理念:分布式文件
系
统支持大和小文件的思考
Aquester
| 2014-04-19 11:33:41 | 阅读(3130) | 评论(0)
为何Google GFS设计成对大文件友好,而像腾讯的TFS(Tencent File System)和淘宝的TFS(Taobao File System)却设计成对小文件友好了?这一点非常好理解,两个TFS都用来满足图片等大量小文件的需求。但是两者是矛盾的吗?答案是否。实际中TFS也在努力支持大文件,GFS也要支持小文件。...
【阅读全文】
首页
<<
1
2
3
4
5
6
>>
末页