ChinaUnix首页
|
论坛
|
博客
博客首页
博客专家
往日推荐
博客文集
博文
博主
热搜:
H3C
cISCO
.net
Ruby
嵌入式
数据库
云计算
负载均衡
博客首页 〉
搜索结果
按类别查询搜索结果
操作系统
程序设计
数据库
热点技术
综合
架构与运维
移动开发与应用
Web前端
LINUX
|
BSD
|
WINDOWS
|
其他UNIX
|
AIX
|
SOLARIS
|
C/C++
|
Java
|
Python/Ruby
|
项目管理
|
Web开发
|
嵌入式
|
C#/.net
|
PHP
|
Delphi
|
PERL
|
Erlang
|
Verilog
|
敏捷开发
|
Mysql/postgreSQL
|
Oracle
|
DB2/Informix
|
Sybase
|
数据库开发技术
|
SQLite/嵌入式数据库
|
SQLServer
|
NOSQL
|
虚拟化
|
云计算
|
大数据
|
HADOOP
|
高性能计算
|
IT业界
|
IT职场
|
信息化
|
网络与安全
|
系统运维
|
服务器与存储
|
架构设计与优化
|
Android平台
|
iOS平台
|
Windows平台
|
其他平台
|
Html/Css
|
JavaScript
|
jQuery
|
HTML5
|
关于关键词 的检测结果,共
38
条
【HADOOP】
Hive中小表与大表关
联
(join)的性能分析
jelon521
| 2018-11-16 09:46:42 | 阅读(1490) | 评论(0)
【转自:http://blog.sina.com.cn/s/blog_6ff05a2c01016j7n.html】 经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询。这样的原因看似合理,...
【阅读全文】
【HADOOP】
Hadoop学习
系
列一:环境搭建
浅色年华
| 2018-07-09 15:03:23 | 阅读(3960) | 评论(0)
为了学习HBase,跑过来先把Hadoop学习下。主要是根据马老师之前直播的教程来学习的。好了,废话不多说了,开搞。相比VMware,Vritual Box是免费的,因此这里采用Virtual Box。首先在virtualbox官网的下载页面下载Virtual Box,并安装。安装过程没什么好说的。在CentOS官网下载最新版的CentOS 7,下载的时候要DVD ...
【阅读全文】
【HADOOP】
HDFS块文件和存放目录的关
系
Aquester
| 2017-05-19 09:29:25 | 阅读(3870) | 评论(0)
详情请参见DatanodeUtil.java中的函数idToBlockDir(File root, long blockId)。如果block文件没有放在正确的目录下,则DataNode会出现“expected block file path”日志。// g++ -g -o block2dir block2dir.cpp#include <stdio.h>#include <stdlib.h>int main(int argc, char* argv[]){ if (argc != ...
【阅读全文】
【HADOOP】
HIVE备份之批量导出所
有
的HIVE建表字段
pamire
| 2017-01-13 20:06:14 | 阅读(5610) | 评论(1)
hive export table
【阅读全文】
【HADOOP】
centos添加
系
统变量
sanshugen
| 2016-08-13 16:12:53 | 阅读(1870) | 评论(0)
CentOS添加环境变量在Linux CentOS系统上安装完php和MySQL后,为了使用方便,需要将php和mysql命令加到系统命令中,如果在没有添加到环境变量之前,执行“php -v”命令查看当前php版本信息时时,则会提示命令不存在的错误,下面我们详细介绍一下在linux下将php和mysql加入到环境变量中的方法(假设php和mysq...
【阅读全文】
【HADOOP】
修改hadoop的备份
系
数dfs.replication后操作
levy-linux
| 2015-10-27 21:53:55 | 阅读(2870) | 评论(0)
Hadoop中常常需要增加新的节点,或者变更备份系数。在完成这些操作后,往往出现数据未自动备份,或者数据节点不可用的情况。 Hadoop的备份系数是指每个block在hadoop集群中有几份,系数越高,冗余性越好,占用存储也越多。备份系数在hdfs-site.xml中定义,默认值为3. 如何变更备份系数? 首先stop-...
【阅读全文】
【HADOOP】
hadoop群集设置block副本,对于数据传输很
有
影响的
levy-linux
| 2015-10-15 19:33:23 | 阅读(2050) | 评论(0)
最近测试了下hadoop读写数据的情况,将结果分享给大家,
datanode
mem:128G
cup:2cpu 26** 4核 共8核
namenode
mem:192G
cup:2cpu 26** 4核 共8核
datanode15台
namenode2台
单个文件2G 使用-put方式
data block repl...
【阅读全文】
【HADOOP】
很久没
有
启动datanode服务的节点,重新启动,出现的Block更新情况
levy-linux
| 2015-09-10 17:14:16 | 阅读(3280) | 评论(0)
最近处理一台,很久没有启动datanode服务的节点,启动后发现日志中一直有如下信息不断个产生,
2015-09-10 14:22:28,474 INFO datanode.DataNode (DataXceiver.java:writeBlock(598)) - Receiving BP-219392391-192.168.20.101-
1404293177278:blk_1121179008_48430870 src: /192.168.20.1...
【阅读全文】
【HADOOP】
文件副本数量问题,设置的dfs.replication没
有
生效
levy-linux
| 2015-08-28 17:00:16 | 阅读(2920) | 评论(0)
问题描述:<br /><br />前几天发现hadoophdfs磁盘空间经常满,导致任务失败,但是查看hadoop fs -du -h / 这个根目录的文件大小总计150T左右,但是在50070端口页面查看到的磁盘使用接近390T,怀疑是文件备份数出问题了。<br /><br />执行 hadoop dfs -ls [filename] 近期的文件都是3份,上个月的抽几个文件...
【阅读全文】
【HADOOP】
上海市
信
息技术培训中心Cloudera Hadoop认证培训
sittc2
| 2015-04-16 10:12:57 | 阅读(770) | 评论(0)
作为大数据核心技术,Hadoop为企业提供了高扩展、高冗余、高容错、和经济有效的“数据驱动”解决方案,针对企业目前普遍缺乏海量数据技术人员的现状,上海市信息技术培训中心Cloudera Hadoop认证培训系列课程,为企业经理、CTO、架构师、技术带头人、系统管理员、数据管理员、数据/商务分析元和应用开发人员带来了业内最...
【阅读全文】
【HADOOP】
2015年上海市
信
息技术培训中心hadoop课程开班啦
sittc2
| 2015-02-26 10:14:03 | 阅读(660) | 评论(0)
2015年上海市信息技术培训中心hadoop课程开班啦
【阅读全文】
【HADOOP】
上海市
信
息技术培训中心Cloudera Hadoop管理认证培训
sittc2
| 2015-01-04 14:54:20 | 阅读(510) | 评论(0)
作为大数据核心技术,Hadoop为企业提供了高扩展、高冗余、高容错、和经济有效的“数据驱动”解决方案,针对企业目前普遍缺乏海量数据技术人员的现状,上海市信息技术培训中心Cloudera Hadoop认证培训系列课程,为企业经理、CTO、架构师、技术带头人、系统管理员、数据管理员、数据/商务分析元和应用开发人员带来了业内最领...
【阅读全文】
【HADOOP】
在hive创建跟hbase互
联
的表
hxl
| 2014-11-12 16:14:38 | 阅读(0) | 评论(0)
1.在hive中创建如下表CREATE TABLE hive_table_test(key int, id int,name string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,info:id,info:name") TBLPROPERTIES ("hbase.table.name" = "hbase_table_test");2.在hbase...
【阅读全文】
【HADOOP】
自定义OutPutFormat
系
列之 三
double_lq
| 2014-08-09 14:58:12 | 阅读(0) | 评论(0)
功能: 完成自定义输出格式的定义,因为hadoop0.20.2没有实现MultipleOutputs和MultipleOutputFormat这两个API,所以不能调用,要自定义。package yuu; import java.io.DataOutputStream;import java.io.IOException;import java.io.UnsupportedEncodingExcep...
【阅读全文】
【HADOOP】
MapReduce自定义二次排序
系
列三
double_lq
| 2014-08-01 11:50:12 | 阅读(0) | 评论(0)
同样接上一篇博客:将自定义类中的compareTo方法改为: public int compareTo(CombinationKey combinationKey) { logger.info("-------CombinationKey flag-------"); return this...
【阅读全文】
【HADOOP】
MapReduce自定义二次排序
系
列二
double_lq
| 2014-08-01 11:43:56 | 阅读(0) | 评论(0)
接上一篇博客,这里我们将job.setSortComparatorClass去掉,看是不是真的执行的自定义类的compareTo方法,如果是的话,同样也验证了前面的说的Job.setSortComparatorClass会覆盖compareTo的结论。代码如下: package hh;import java.io.DataInput;import java.io.DataO...
【阅读全文】
【HADOOP】
MapReduce自定义二次排序
系
列一
double_lq
| 2014-08-01 11:36:46 | 阅读(0) | 评论(0)
一、概述MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的。在我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现,网络上已经有很多人分享过了,但是对二次排序的实现的原理以及整个MapReduce框架的处理流程的分析还是有...
【阅读全文】
【HADOOP】
自定义outputFormat
系
列之二
double_lq
| 2014-07-28 12:51:54 | 阅读(0) | 评论(0)
自定义一个OutputFormat,用于输出<Text , MapWritable >格式的数据MapWritable的内容是 [Text : LongWritable ]输出格式 [url url2 :times2 ,url3 :times3 ,...] 参考TextOutputFormat,修改简化之...
【阅读全文】
【HADOOP】
自定义inputformat
系
列 之一
double_lq
| 2014-07-13 13:47:58 | 阅读(0) | 评论(0)
1. 集群测试数据 2.希望以Text,Point的格式读取数据代码如下: package yuu;import java.io.DataInput;import java.io.DataOutput;import java.io.DataOutputStream;import java.io.IOException;import java....
【阅读全文】
【HADOOP】
自定义OutputFormat
系
列 之二
double_lq
| 2014-07-12 18:29:42 | 阅读(0) | 评论(0)
在这里自定义OutputFormat,以wordCount为背景,将其中的word作为文件名保存相应信息。具体代码如下: //自定义outputFormatpackage yuu;import java.io.DataOutputStream;import java.io.IOException;import java.io.UnsupportedEnco...
【阅读全文】
首页
<<
1
2
>>
末页