搜索博文结果_ChinaUnix博客

博客首页博客专家往日推荐博客文集

热搜： H3C cISCO .net Ruby 嵌入式数据库云计算负载均衡

博客首页〉搜索结果

按类别查询搜索结果

操作系统程序设计数据库热点技术综合架构与运维移动开发与应用 Web前端

虚拟化| 云计算| 大数据| HADOOP| 高性能计算|

关于关键词的检测结果，共 38 条

【HADOOP】 Hive中小表与大表关联(join)的性能分析

jelon521 | 2018-11-16 09:46:42 | 阅读(1490) | 评论(0)

【转自：http://blog.sina.com.cn/s/blog_6ff05a2c01016j7n.html】经常看到一些Hive优化的建议中说当小表与大表做关联时，把小表写在前面，这样可以使Hive的关联速度更快，提到的原因都是说因为小表可以先放到内存中，然后大表的每条记录再去内存中检测，最终完成关联查询。这样的原因看似合理，...【阅读全文】

【HADOOP】 Hadoop学习系列一：环境搭建

浅色年华 | 2018-07-09 15:03:23 | 阅读(3960) | 评论(0)

为了学习HBase，跑过来先把Hadoop学习下。主要是根据马老师之前直播的教程来学习的。好了，废话不多说了，开搞。相比VMware，Vritual Box是免费的，因此这里采用Virtual Box。首先在virtualbox官网的下载页面下载Virtual Box，并安装。安装过程没什么好说的。在CentOS官网下载最新版的CentOS 7，下载的时候要DVD ...【阅读全文】

【HADOOP】 HDFS块文件和存放目录的关系

Aquester | 2017-05-19 09:29:25 | 阅读(3870) | 评论(0)

详情请参见DatanodeUtil.java中的函数idToBlockDir(File root, long blockId)。如果block文件没有放在正确的目录下，则DataNode会出现“expected block file path”日志。// g++ -g -o block2dir block2dir.cpp#include <stdio.h>#include <stdlib.h>int main(int argc, char* argv[]){ if (argc != ...【阅读全文】

【HADOOP】 HIVE备份之批量导出所有的HIVE建表字段

pamire | 2017-01-13 20:06:14 | 阅读(5610) | 评论(1)

hive export table 【阅读全文】

【HADOOP】 centos添加系统变量

sanshugen | 2016-08-13 16:12:53 | 阅读(1870) | 评论(0)

CentOS添加环境变量在Linux CentOS系统上安装完php和MySQL后，为了使用方便，需要将php和mysql命令加到系统命令中，如果在没有添加到环境变量之前，执行“php -v”命令查看当前php版本信息时时，则会提示命令不存在的错误，下面我们详细介绍一下在linux下将php和mysql加入到环境变量中的方法（假设php和mysq...【阅读全文】

【HADOOP】修改hadoop的备份系数dfs.replication后操作

levy-linux | 2015-10-27 21:53:55 | 阅读(2870) | 评论(0)

Hadoop中常常需要增加新的节点，或者变更备份系数。在完成这些操作后，往往出现数据未自动备份，或者数据节点不可用的情况。 Hadoop的备份系数是指每个block在hadoop集群中有几份，系数越高，冗余性越好，占用存储也越多。备份系数在hdfs-site.xml中定义，默认值为3. 如何变更备份系数? 首先stop-...【阅读全文】

【HADOOP】 hadoop群集设置block副本，对于数据传输很有影响的

levy-linux | 2015-10-15 19:33:23 | 阅读(2050) | 评论(0)

最近测试了下hadoop读写数据的情况，将结果分享给大家，

datanode
mem：128G
cup：2cpu 26** 4核共8核

namenode
mem：192G
cup：2cpu 26** 4核共8核

datanode15台
namenode2台

单个文件2G 使用-put方式
data block repl...【阅读全文】

【HADOOP】很久没有启动datanode服务的节点，重新启动，出现的Block更新情况

levy-linux | 2015-09-10 17:14:16 | 阅读(3280) | 评论(0)

最近处理一台，很久没有启动datanode服务的节点，启动后发现日志中一直有如下信息不断个产生，

2015-09-10 14:22:28,474 INFO datanode.DataNode (DataXceiver.java:writeBlock(598)) - Receiving BP-219392391-192.168.20.101-
1404293177278:blk_1121179008_48430870 src: /192.168.20.1...【阅读全文】

【HADOOP】文件副本数量问题，设置的dfs.replication没有生效

levy-linux | 2015-08-28 17:00:16 | 阅读(2920) | 评论(0)

问题描述：<br /><br />前几天发现hadoophdfs磁盘空间经常满，导致任务失败，但是查看hadoop fs -du -h /  这个根目录的文件大小总计150T左右，但是在50070端口页面查看到的磁盘使用接近390T，怀疑是文件备份数出问题了。<br /><br />执行 hadoop dfs -ls [filename]  近期的文件都是3份，上个月的抽几个文件...【阅读全文】

【HADOOP】上海市信息技术培训中心Cloudera Hadoop认证培训

sittc2 | 2015-04-16 10:12:57 | 阅读(770) | 评论(0)

作为大数据核心技术，Hadoop为企业提供了高扩展、高冗余、高容错、和经济有效的“数据驱动”解决方案，针对企业目前普遍缺乏海量数据技术人员的现状，上海市信息技术培训中心Cloudera Hadoop认证培训系列课程，为企业经理、CTO、架构师、技术带头人、系统管理员、数据管理员、数据/商务分析元和应用开发人员带来了业内最...【阅读全文】

【HADOOP】 2015年上海市信息技术培训中心hadoop课程开班啦

sittc2 | 2015-02-26 10:14:03 | 阅读(660) | 评论(0)

2015年上海市信息技术培训中心hadoop课程开班啦【阅读全文】

【HADOOP】上海市信息技术培训中心Cloudera Hadoop管理认证培训

sittc2 | 2015-01-04 14:54:20 | 阅读(510) | 评论(0)

【HADOOP】在hive创建跟hbase互联的表

hxl | 2014-11-12 16:14:38 | 阅读(0) | 评论(0)

1.在hive中创建如下表CREATE TABLE hive_table_test(key int, id int,name string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,info:id,info:name") TBLPROPERTIES ("hbase.table.name" = "hbase_table_test");2.在hbase...【阅读全文】

【HADOOP】自定义OutPutFormat系列之三

double_lq | 2014-08-09 14:58:12 | 阅读(0) | 评论(0)

功能：完成自定义输出格式的定义，因为hadoop0.20.2没有实现MultipleOutputs和MultipleOutputFormat这两个API，所以不能调用，要自定义。package yuu; import java.io.DataOutputStream;import java.io.IOException;import java.io.UnsupportedEncodingExcep...【阅读全文】

【HADOOP】 MapReduce自定义二次排序系列三

double_lq | 2014-08-01 11:50:12 | 阅读(0) | 评论(0)

同样接上一篇博客：将自定义类中的compareTo方法改为： public int compareTo(CombinationKey combinationKey) { logger.info("-------CombinationKey flag-------"); return this...【阅读全文】

【HADOOP】 MapReduce自定义二次排序系列二

double_lq | 2014-08-01 11:43:56 | 阅读(0) | 评论(0)

接上一篇博客，这里我们将job.setSortComparatorClass去掉，看是不是真的执行的自定义类的compareTo方法，如果是的话，同样也验证了前面的说的Job.setSortComparatorClass会覆盖compareTo的结论。代码如下： package hh;import java.io.DataInput;import java.io.DataO...【阅读全文】

【HADOOP】 MapReduce自定义二次排序系列一

double_lq | 2014-08-01 11:36:46 | 阅读(0) | 评论(0)

一、概述MapReduce框架对处理结果的输出会根据key值进行默认的排序，这个默认排序可以满足一部分需求，但是也是十分有限的。在我们实际的需求当中，往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现，网络上已经有很多人分享过了，但是对二次排序的实现的原理以及整个MapReduce框架的处理流程的分析还是有...【阅读全文】

【HADOOP】自定义outputFormat系列之二

double_lq | 2014-07-28 12:51:54 | 阅读(0) | 评论(0)

自定义一个OutputFormat，用于输出<Text , MapWritable >格式的数据MapWritable的内容是 [Text : LongWritable ]输出格式 [url url2 :times2 ,url3 :times3 ,...] 参考TextOutputFormat，修改简化之...【阅读全文】

【HADOOP】自定义inputformat系列之一

double_lq | 2014-07-13 13:47:58 | 阅读(0) | 评论(0)

1. 集群测试数据 2.希望以Text，Point的格式读取数据代码如下： package yuu;import java.io.DataInput;import java.io.DataOutput;import java.io.DataOutputStream;import java.io.IOException;import java....【阅读全文】

【HADOOP】自定义OutputFormat系列之二

double_lq | 2014-07-12 18:29:42 | 阅读(0) | 评论(0)

在这里自定义OutputFormat,以wordCount为背景，将其中的word作为文件名保存相应信息。具体代码如下: //自定义outputFormatpackage yuu;import java.io.DataOutputStream;import java.io.IOException;import java.io.UnsupportedEnco...【阅读全文】

网络110 报警服务