搜索博文结果_ChinaUnix博客

博客首页博客专家往日推荐博客文集

热搜： .net C语言 C++ 嵌入式 MongoDB 数据库移动开发 FTP

博客首页〉搜索结果

按类别查询搜索结果

操作系统程序设计数据库热点技术综合架构与运维移动开发与应用 Web前端

虚拟化| 云计算| 大数据| HADOOP| 高性能计算|

关于关键词的检测结果，共 31 条

【HADOOP】 Hive中小表与大表关联(join)的性能分析

jelon521 | 2018-11-16 09:46:42 | 阅读(1490) | 评论(0)

【转自：http://blog.sina.com.cn/s/blog_6ff05a2c01016j7n.html】经常看到一些Hive优化的建议中说当小表与大表做关联时，把小表写在前面，这样可以使Hive的关联速度更快，提到的原因都是说因为小表可以先放到内存中，然后大表的每条记录再去内存中检测，最终完成关联查询。这样的原因看似合理，...【阅读全文】

【HADOOP】 Hadoop学习系列一：环境搭建

浅色年华 | 2018-07-09 15:03:23 | 阅读(3860) | 评论(0)

为了学习HBase，跑过来先把Hadoop学习下。主要是根据马老师之前直播的教程来学习的。好了，废话不多说了，开搞。相比VMware，Vritual Box是免费的，因此这里采用Virtual Box。首先在virtualbox官网的下载页面下载Virtual Box，并安装。安装过程没什么好说的。在CentOS官网下载最新版的CentOS 7，下载的时候要DVD ...【阅读全文】

【HADOOP】 HDFS块文件和存放目录的关系

Aquester | 2017-05-19 09:29:25 | 阅读(3870) | 评论(0)

详情请参见DatanodeUtil.java中的函数idToBlockDir(File root, long blockId)。如果block文件没有放在正确的目录下，则DataNode会出现“expected block file path”日志。// g++ -g -o block2dir block2dir.cpp#include <stdio.h>#include <stdlib.h>int main(int argc, char* argv[]){ if (argc != ...【阅读全文】

【HADOOP】 centos添加系统变量

sanshugen | 2016-08-13 16:12:53 | 阅读(1870) | 评论(0)

CentOS添加环境变量在Linux CentOS系统上安装完php和MySQL后，为了使用方便，需要将php和mysql命令加到系统命令中，如果在没有添加到环境变量之前，执行“php -v”命令查看当前php版本信息时时，则会提示命令不存在的错误，下面我们详细介绍一下在linux下将php和mysql加入到环境变量中的方法（假设php和mysq...【阅读全文】

【HADOOP】修改hadoop的备份系数dfs.replication后操作

levy-linux | 2015-10-27 21:53:55 | 阅读(2870) | 评论(0)

Hadoop中常常需要增加新的节点，或者变更备份系数。在完成这些操作后，往往出现数据未自动备份，或者数据节点不可用的情况。 Hadoop的备份系数是指每个block在hadoop集群中有几份，系数越高，冗余性越好，占用存储也越多。备份系数在hdfs-site.xml中定义，默认值为3. 如何变更备份系数? 首先stop-...【阅读全文】

【HADOOP】上海市信息技术培训中心Cloudera Hadoop认证培训

sittc2 | 2015-04-16 10:12:57 | 阅读(760) | 评论(0)

作为大数据核心技术，Hadoop为企业提供了高扩展、高冗余、高容错、和经济有效的“数据驱动”解决方案，针对企业目前普遍缺乏海量数据技术人员的现状，上海市信息技术培训中心Cloudera Hadoop认证培训系列课程，为企业经理、CTO、架构师、技术带头人、系统管理员、数据管理员、数据/商务分析元和应用开发人员带来了业内最...【阅读全文】

【HADOOP】 2015年上海市信息技术培训中心hadoop课程开班啦

sittc2 | 2015-02-26 10:14:03 | 阅读(660) | 评论(0)

2015年上海市信息技术培训中心hadoop课程开班啦【阅读全文】

【HADOOP】上海市信息技术培训中心Cloudera Hadoop管理认证培训

sittc2 | 2015-01-04 14:54:20 | 阅读(510) | 评论(0)

【HADOOP】在hive创建跟hbase互联的表

hxl | 2014-11-12 16:14:38 | 阅读(0) | 评论(0)

1.在hive中创建如下表CREATE TABLE hive_table_test(key int, id int,name string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,info:id,info:name") TBLPROPERTIES ("hbase.table.name" = "hbase_table_test");2.在hbase...【阅读全文】

【HADOOP】自定义OutPutFormat系列之三

double_lq | 2014-08-09 14:58:12 | 阅读(0) | 评论(0)

功能：完成自定义输出格式的定义，因为hadoop0.20.2没有实现MultipleOutputs和MultipleOutputFormat这两个API，所以不能调用，要自定义。package yuu; import java.io.DataOutputStream;import java.io.IOException;import java.io.UnsupportedEncodingExcep...【阅读全文】

【HADOOP】 MapReduce自定义二次排序系列三

double_lq | 2014-08-01 11:50:12 | 阅读(0) | 评论(0)

同样接上一篇博客：将自定义类中的compareTo方法改为： public int compareTo(CombinationKey combinationKey) { logger.info("-------CombinationKey flag-------"); return this...【阅读全文】

【HADOOP】 MapReduce自定义二次排序系列二

double_lq | 2014-08-01 11:43:56 | 阅读(0) | 评论(0)

接上一篇博客，这里我们将job.setSortComparatorClass去掉，看是不是真的执行的自定义类的compareTo方法，如果是的话，同样也验证了前面的说的Job.setSortComparatorClass会覆盖compareTo的结论。代码如下： package hh;import java.io.DataInput;import java.io.DataO...【阅读全文】

【HADOOP】 MapReduce自定义二次排序系列一

double_lq | 2014-08-01 11:36:46 | 阅读(0) | 评论(0)

一、概述MapReduce框架对处理结果的输出会根据key值进行默认的排序，这个默认排序可以满足一部分需求，但是也是十分有限的。在我们实际的需求当中，往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现，网络上已经有很多人分享过了，但是对二次排序的实现的原理以及整个MapReduce框架的处理流程的分析还是有...【阅读全文】

【HADOOP】自定义outputFormat系列之二

double_lq | 2014-07-28 12:51:54 | 阅读(0) | 评论(0)

自定义一个OutputFormat，用于输出<Text , MapWritable >格式的数据MapWritable的内容是 [Text : LongWritable ]输出格式 [url url2 :times2 ,url3 :times3 ,...] 参考TextOutputFormat，修改简化之...【阅读全文】

【HADOOP】自定义inputformat系列之一

double_lq | 2014-07-13 13:47:58 | 阅读(0) | 评论(0)

1. 集群测试数据 2.希望以Text，Point的格式读取数据代码如下： package yuu;import java.io.DataInput;import java.io.DataOutput;import java.io.DataOutputStream;import java.io.IOException;import java....【阅读全文】

【HADOOP】自定义OutputFormat系列之二

double_lq | 2014-07-12 18:29:42 | 阅读(0) | 评论(0)

在这里自定义OutputFormat,以wordCount为背景，将其中的word作为文件名保存相应信息。具体代码如下: //自定义outputFormatpackage yuu;import java.io.DataOutputStream;import java.io.IOException;import java.io.UnsupportedEnco...【阅读全文】

【HADOOP】自定义OutputFormat系列之一

double_lq | 2014-07-12 16:33:42 | 阅读(0) | 评论(0)

在看了WordCount实例和TextOutputFormat的源码后，决定自定义一个OutputFormat，主要实现的功能就是将WordCount的最后输出结果中的Tab空格键转换为^^^^。具体代码如下：//自定义outputFormatpackage yuu;import java.io.DataOutputStream;import java.io.I...【阅读全文】

【HADOOP】看两种截然不同的设计理念：分布式文件系统支持大和小文件的思考

Aquester | 2014-04-19 11:33:41 | 阅读(3120) | 评论(0)

为何Google GFS设计成对大文件友好，而像腾讯的TFS（Tencent File System）和淘宝的TFS（Taobao File System）却设计成对小文件友好了？这一点非常好理解，两个TFS都用来满足图片等大量小文件的需求。但是两者是矛盾的吗？答案是否。实际中TFS也在努力支持大文件，GFS也要支持小文件。...【阅读全文】

【HADOOP】查看HDFS集群信息

Aquester | 2014-04-19 10:42:14 | 阅读(3530) | 评论(0)

clusterID：集群ID，必须保持一致1）在NameNode上查看cat $HADOOP_HOME/dfs/name/current/VERSION#Fri Apr 18 11:56:57 GMT 2014namespaceID=1397306199clusterID=CID-bfe869e9-fe7a-48c7-9606-08512f1708becTime=0storageType=NAME_NODEblockpoolID=BP-139798373-172.25.40.171-1397735615751layoutVersion=-56...【阅读全文】

【HADOOP】 Hadoop分布式文件系统（HDFS）

lingshaohusoft | 2014-03-19 14:27:27 | 阅读(2280) | 评论(0)

Hadoop是一个基于JAVA的支持数据密集型分布式应用的分布式文件系统。它能够保证应用可以在上千个低成本商用硬件存储结点上处理PB级的数据。Hadoop是Apache开源项目，Yahoo支持这个项目并在自己的web搜索和商业广告业务上使用它。Hadoop开发类似于Google的MapReduce和Google文件系统的技术。图 5.9为Hadoop的整体结构。...【阅读全文】

网络110 报警服务