按类别查询搜索结果
关于关键词 的检测结果,共 31
jelon521 | 2018-11-16 09:46:42 | 阅读(1480) | 评论(0)
【转自:http://blog.sina.com.cn/s/blog_6ff05a2c01016j7n.html】  经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询。这样的原因看似合理,...【阅读全文】
浅色年华 | 2018-07-09 15:03:23 | 阅读(3690) | 评论(0)
为了学习HBase,跑过来先把Hadoop学习下。主要是根据马老师之前直播的教程来学习的。好了,废话不多说了,开搞。相比VMware,Vritual Box是免费的,因此这里采用Virtual Box。首先在virtualbox官网的下载页面下载Virtual Box,并安装。安装过程没什么好说的。在CentOS官网下载最新版的CentOS 7,下载的时候要DVD ...【阅读全文】
Aquester | 2017-05-19 09:29:25 | 阅读(3870) | 评论(0)
详情请参见DatanodeUtil.java中的函数idToBlockDir(File root, long blockId)。如果block文件没有放在正确的目录下,则DataNode会出现“expected block file path”日志。// g++ -g -o block2dir block2dir.cpp#include <stdio.h>#include <stdlib.h>int main(int argc, char* argv[]){    if (argc != ...【阅读全文】
sanshugen | 2016-08-13 16:12:53 | 阅读(1870) | 评论(0)
CentOS添加环境变量在Linux CentOS系统上安装完php和MySQL后,为了使用方便,需要将php和mysql命令加到系统命令中,如果在没有添加到环境变量之前,执行“php -v”命令查看当前php版本信息时时,则会提示命令不存在的错误,下面我们详细介绍一下在linux下将php和mysql加入到环境变量中的方法(假设php和mysq...【阅读全文】
levy-linux | 2015-10-27 21:53:55 | 阅读(2870) | 评论(0)
Hadoop中常常需要增加新的节点,或者变更备份系数。在完成这些操作后,往往出现数据未自动备份,或者数据节点不可用的情况。 Hadoop的备份系数是指每个block在hadoop集群中有几份,系数越高,冗余性越好,占用存储也越多。备份系数在hdfs-site.xml中定义,默认值为3.  如何变更备份系数?  首先stop-...【阅读全文】
sittc2 | 2015-04-16 10:12:57 | 阅读(760) | 评论(0)
作为大数据核心技术,Hadoop为企业提供了高扩展、高冗余、高容错、和经济有效的“数据驱动”解决方案,针对企业目前普遍缺乏海量数据技术人员的现状,上海市信息技术培训中心Cloudera Hadoop认证培训系列课程,为企业经理、CTO、架构师、技术带头人、系统管理员、数据管理员、数据/商务分析元和应用开发人员带来了业内最...【阅读全文】
sittc2 | 2015-02-26 10:14:03 | 阅读(660) | 评论(0)
2015年上海市信息技术培训中心hadoop课程开班啦【阅读全文】
sittc2 | 2015-01-04 14:54:20 | 阅读(510) | 评论(0)
作为大数据核心技术,Hadoop为企业提供了高扩展、高冗余、高容错、和经济有效的“数据驱动”解决方案,针对企业目前普遍缺乏海量数据技术人员的现状,上海市信息技术培训中心Cloudera Hadoop认证培训系列课程,为企业经理、CTO、架构师、技术带头人、系统管理员、数据管理员、数据/商务分析元和应用开发人员带来了业内最领...【阅读全文】
hxl | 2014-11-12 16:14:38 | 阅读(0) | 评论(0)
1.在hive中创建如下表CREATE TABLE hive_table_test(key int, id int,name string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,info:id,info:name") TBLPROPERTIES ("hbase.table.name" = "hbase_table_test");2.在hbase...【阅读全文】
double_lq | 2014-08-09 14:58:12 | 阅读(0) | 评论(0)
功能: 完成自定义输出格式的定义,因为hadoop0.20.2没有实现MultipleOutputs和MultipleOutputFormat这两个API,所以不能调用,要自定义。package yuu; import java.io.DataOutputStream;import java.io.IOException;import java.io.UnsupportedEncodingExcep...【阅读全文】
double_lq | 2014-08-01 11:50:12 | 阅读(0) | 评论(0)
同样接上一篇博客:将自定义类中的compareTo方法改为: public int compareTo(CombinationKey combinationKey) {         logger.info("-------CombinationKey flag-------");         return this...【阅读全文】
double_lq | 2014-08-01 11:43:56 | 阅读(0) | 评论(0)
接上一篇博客,这里我们将job.setSortComparatorClass去掉,看是不是真的执行的自定义类的compareTo方法,如果是的话,同样也验证了前面的说的Job.setSortComparatorClass会覆盖compareTo的结论。代码如下: package hh;import java.io.DataInput;import java.io.DataO...【阅读全文】
double_lq | 2014-08-01 11:36:46 | 阅读(0) | 评论(0)
一、概述MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的。在我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现,网络上已经有很多人分享过了,但是对二次排序的实现的原理以及整个MapReduce框架的处理流程的分析还是有...【阅读全文】
double_lq | 2014-07-28 12:51:54 | 阅读(0) | 评论(0)
自定义一个OutputFormat,用于输出<Text , MapWritable >格式的数据MapWritable的内容是 [Text : LongWritable ]输出格式 [url     url2 :times2 ,url3 :times3 ,...] 参考TextOutputFormat,修改简化之...【阅读全文】
double_lq | 2014-07-13 13:47:58 | 阅读(0) | 评论(0)
1. 集群测试数据     2.希望以Text,Point的格式读取数据代码如下:   package yuu;import java.io.DataInput;import java.io.DataOutput;import java.io.DataOutputStream;import java.io.IOException;import java....【阅读全文】
double_lq | 2014-07-12 18:29:42 | 阅读(0) | 评论(0)
在这里自定义OutputFormat,以wordCount为背景,将其中的word作为文件名保存相应信息。具体代码如下:  //自定义outputFormatpackage yuu;import java.io.DataOutputStream;import java.io.IOException;import java.io.UnsupportedEnco...【阅读全文】
double_lq | 2014-07-12 16:33:42 | 阅读(0) | 评论(0)
在看了WordCount实例和TextOutputFormat的源码后,决定自定义一个OutputFormat,主要实现的功能就是将WordCount的最后输出结果中的Tab空格键转换为^^^^。具体代码如下://自定义outputFormatpackage yuu;import java.io.DataOutputStream;import java.io.I...【阅读全文】
Aquester | 2014-04-19 11:33:41 | 阅读(3120) | 评论(0)
为何Google GFS设计成对大文件友好,而像腾讯的TFS(Tencent File System)和淘宝的TFS(Taobao File System)却设计成对小文件友好了?这一点非常好理解,两个TFS都用来满足图片等大量小文件的需求。但是两者是矛盾的吗?答案是否。实际中TFS也在努力支持大文件,GFS也要支持小文件。...【阅读全文】
Aquester | 2014-04-19 10:42:14 | 阅读(3530) | 评论(0)
clusterID:集群ID,必须保持一致1)在NameNode上查看cat $HADOOP_HOME/dfs/name/current/VERSION#Fri Apr 18 11:56:57 GMT 2014namespaceID=1397306199clusterID=CID-bfe869e9-fe7a-48c7-9606-08512f1708becTime=0storageType=NAME_NODEblockpoolID=BP-139798373-172.25.40.171-1397735615751layoutVersion=-56...【阅读全文】
lingshaohusoft | 2014-03-19 14:27:27 | 阅读(2270) | 评论(0)
Hadoop是一个基于JAVA的支持数据密集型分布式应用的分布式文件系统。它能够保证应用可以在上千个低成本商用硬件存储结点上处理PB级的数据。Hadoop是Apache开源项目,Yahoo支持这个项目并在自己的web搜索和商业广告业务上使用它。Hadoop开发类似于Google的MapReduce和Google文件系统的技术。图 5.9为Hadoop的整体结构。...【阅读全文】