ChinaUnix首页
|
论坛
|
博客
博客首页
博客专家
往日推荐
博客文集
博文
博主
热搜:
iOS
H3C
系统运维
服务器
C语言
项目管理
云计算
CCNA
博客首页 〉
搜索结果
按类别查询搜索结果
操作系统
程序设计
数据库
热点技术
综合
架构与运维
移动开发与应用
Web前端
LINUX
|
BSD
|
WINDOWS
|
其他UNIX
|
AIX
|
SOLARIS
|
C/C++
|
Java
|
Python/Ruby
|
项目管理
|
Web开发
|
嵌入式
|
C#/.net
|
PHP
|
Delphi
|
PERL
|
Erlang
|
Verilog
|
敏捷开发
|
Mysql/postgreSQL
|
Oracle
|
DB2/Informix
|
Sybase
|
数据库开发技术
|
SQLite/嵌入式数据库
|
SQLServer
|
NOSQL
|
虚拟化
|
云计算
|
大数据
|
HADOOP
|
高性能计算
|
IT业界
|
IT职场
|
信息化
|
网络与安全
|
系统运维
|
服务器与存储
|
架构设计与优化
|
Android平台
|
iOS平台
|
Windows平台
|
其他平台
|
Html/Css
|
JavaScript
|
jQuery
|
HTML5
|
关于关键词 的检测结果,共
31
条
【HADOOP】
Hive中小表与大表关
联
(join)的性能分析
jelon521
| 2018-11-16 09:46:42 | 阅读(1480) | 评论(0)
【转自:http://blog.sina.com.cn/s/blog_6ff05a2c01016j7n.html】 经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询。这样的原因看似合理,...
【阅读全文】
【HADOOP】
Hadoop学习
系
列一:环境搭建
浅色年华
| 2018-07-09 15:03:23 | 阅读(3690) | 评论(0)
为了学习HBase,跑过来先把Hadoop学习下。主要是根据马老师之前直播的教程来学习的。好了,废话不多说了,开搞。相比VMware,Vritual Box是免费的,因此这里采用Virtual Box。首先在virtualbox官网的下载页面下载Virtual Box,并安装。安装过程没什么好说的。在CentOS官网下载最新版的CentOS 7,下载的时候要DVD ...
【阅读全文】
【HADOOP】
HDFS块文件和存放目录的关
系
Aquester
| 2017-05-19 09:29:25 | 阅读(3870) | 评论(0)
详情请参见DatanodeUtil.java中的函数idToBlockDir(File root, long blockId)。如果block文件没有放在正确的目录下,则DataNode会出现“expected block file path”日志。// g++ -g -o block2dir block2dir.cpp#include <stdio.h>#include <stdlib.h>int main(int argc, char* argv[]){ if (argc != ...
【阅读全文】
【HADOOP】
centos添加
系
统变量
sanshugen
| 2016-08-13 16:12:53 | 阅读(1870) | 评论(0)
CentOS添加环境变量在Linux CentOS系统上安装完php和MySQL后,为了使用方便,需要将php和mysql命令加到系统命令中,如果在没有添加到环境变量之前,执行“php -v”命令查看当前php版本信息时时,则会提示命令不存在的错误,下面我们详细介绍一下在linux下将php和mysql加入到环境变量中的方法(假设php和mysq...
【阅读全文】
【HADOOP】
修改hadoop的备份
系
数dfs.replication后操作
levy-linux
| 2015-10-27 21:53:55 | 阅读(2870) | 评论(0)
Hadoop中常常需要增加新的节点,或者变更备份系数。在完成这些操作后,往往出现数据未自动备份,或者数据节点不可用的情况。 Hadoop的备份系数是指每个block在hadoop集群中有几份,系数越高,冗余性越好,占用存储也越多。备份系数在hdfs-site.xml中定义,默认值为3. 如何变更备份系数? 首先stop-...
【阅读全文】
【HADOOP】
上海市
信
息技术培训中心Cloudera Hadoop认证培训
sittc2
| 2015-04-16 10:12:57 | 阅读(760) | 评论(0)
作为大数据核心技术,Hadoop为企业提供了高扩展、高冗余、高容错、和经济有效的“数据驱动”解决方案,针对企业目前普遍缺乏海量数据技术人员的现状,上海市信息技术培训中心Cloudera Hadoop认证培训系列课程,为企业经理、CTO、架构师、技术带头人、系统管理员、数据管理员、数据/商务分析元和应用开发人员带来了业内最...
【阅读全文】
【HADOOP】
2015年上海市
信
息技术培训中心hadoop课程开班啦
sittc2
| 2015-02-26 10:14:03 | 阅读(660) | 评论(0)
2015年上海市信息技术培训中心hadoop课程开班啦
【阅读全文】
【HADOOP】
上海市
信
息技术培训中心Cloudera Hadoop管理认证培训
sittc2
| 2015-01-04 14:54:20 | 阅读(510) | 评论(0)
作为大数据核心技术,Hadoop为企业提供了高扩展、高冗余、高容错、和经济有效的“数据驱动”解决方案,针对企业目前普遍缺乏海量数据技术人员的现状,上海市信息技术培训中心Cloudera Hadoop认证培训系列课程,为企业经理、CTO、架构师、技术带头人、系统管理员、数据管理员、数据/商务分析元和应用开发人员带来了业内最领...
【阅读全文】
【HADOOP】
在hive创建跟hbase互
联
的表
hxl
| 2014-11-12 16:14:38 | 阅读(0) | 评论(0)
1.在hive中创建如下表CREATE TABLE hive_table_test(key int, id int,name string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,info:id,info:name") TBLPROPERTIES ("hbase.table.name" = "hbase_table_test");2.在hbase...
【阅读全文】
【HADOOP】
自定义OutPutFormat
系
列之 三
double_lq
| 2014-08-09 14:58:12 | 阅读(0) | 评论(0)
功能: 完成自定义输出格式的定义,因为hadoop0.20.2没有实现MultipleOutputs和MultipleOutputFormat这两个API,所以不能调用,要自定义。package yuu; import java.io.DataOutputStream;import java.io.IOException;import java.io.UnsupportedEncodingExcep...
【阅读全文】
【HADOOP】
MapReduce自定义二次排序
系
列三
double_lq
| 2014-08-01 11:50:12 | 阅读(0) | 评论(0)
同样接上一篇博客:将自定义类中的compareTo方法改为: public int compareTo(CombinationKey combinationKey) { logger.info("-------CombinationKey flag-------"); return this...
【阅读全文】
【HADOOP】
MapReduce自定义二次排序
系
列二
double_lq
| 2014-08-01 11:43:56 | 阅读(0) | 评论(0)
接上一篇博客,这里我们将job.setSortComparatorClass去掉,看是不是真的执行的自定义类的compareTo方法,如果是的话,同样也验证了前面的说的Job.setSortComparatorClass会覆盖compareTo的结论。代码如下: package hh;import java.io.DataInput;import java.io.DataO...
【阅读全文】
【HADOOP】
MapReduce自定义二次排序
系
列一
double_lq
| 2014-08-01 11:36:46 | 阅读(0) | 评论(0)
一、概述MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的。在我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现,网络上已经有很多人分享过了,但是对二次排序的实现的原理以及整个MapReduce框架的处理流程的分析还是有...
【阅读全文】
【HADOOP】
自定义outputFormat
系
列之二
double_lq
| 2014-07-28 12:51:54 | 阅读(0) | 评论(0)
自定义一个OutputFormat,用于输出<Text , MapWritable >格式的数据MapWritable的内容是 [Text : LongWritable ]输出格式 [url url2 :times2 ,url3 :times3 ,...] 参考TextOutputFormat,修改简化之...
【阅读全文】
【HADOOP】
自定义inputformat
系
列 之一
double_lq
| 2014-07-13 13:47:58 | 阅读(0) | 评论(0)
1. 集群测试数据 2.希望以Text,Point的格式读取数据代码如下: package yuu;import java.io.DataInput;import java.io.DataOutput;import java.io.DataOutputStream;import java.io.IOException;import java....
【阅读全文】
【HADOOP】
自定义OutputFormat
系
列 之二
double_lq
| 2014-07-12 18:29:42 | 阅读(0) | 评论(0)
在这里自定义OutputFormat,以wordCount为背景,将其中的word作为文件名保存相应信息。具体代码如下: //自定义outputFormatpackage yuu;import java.io.DataOutputStream;import java.io.IOException;import java.io.UnsupportedEnco...
【阅读全文】
【HADOOP】
自定义OutputFormat
系
列 之一
double_lq
| 2014-07-12 16:33:42 | 阅读(0) | 评论(0)
在看了WordCount实例和TextOutputFormat的源码后,决定自定义一个OutputFormat,主要实现的功能就是将WordCount的最后输出结果中的Tab空格键转换为^^^^。具体代码如下://自定义outputFormatpackage yuu;import java.io.DataOutputStream;import java.io.I...
【阅读全文】
【HADOOP】
看两种截然不同的设计理念:分布式文件
系
统支持大和小文件的思考
Aquester
| 2014-04-19 11:33:41 | 阅读(3120) | 评论(0)
为何Google GFS设计成对大文件友好,而像腾讯的TFS(Tencent File System)和淘宝的TFS(Taobao File System)却设计成对小文件友好了?这一点非常好理解,两个TFS都用来满足图片等大量小文件的需求。但是两者是矛盾的吗?答案是否。实际中TFS也在努力支持大文件,GFS也要支持小文件。...
【阅读全文】
【HADOOP】
查看HDFS集群
信
息
Aquester
| 2014-04-19 10:42:14 | 阅读(3530) | 评论(0)
clusterID:集群ID,必须保持一致1)在NameNode上查看cat $HADOOP_HOME/dfs/name/current/VERSION#Fri Apr 18 11:56:57 GMT 2014namespaceID=1397306199clusterID=CID-bfe869e9-fe7a-48c7-9606-08512f1708becTime=0storageType=NAME_NODEblockpoolID=BP-139798373-172.25.40.171-1397735615751layoutVersion=-56...
【阅读全文】
【HADOOP】
Hadoop分布式文件
系
统(HDFS)
lingshaohusoft
| 2014-03-19 14:27:27 | 阅读(2270) | 评论(0)
Hadoop是一个基于JAVA的支持数据密集型分布式应用的分布式文件系统。它能够保证应用可以在上千个低成本商用硬件存储结点上处理PB级的数据。Hadoop是Apache开源项目,Yahoo支持这个项目并在自己的web搜索和商业广告业务上使用它。Hadoop开发类似于Google的MapReduce和Google文件系统的技术。图 5.9为Hadoop的整体结构。...
【阅读全文】
首页
<<
1
2
>>
末页