按类别查询搜索结果
关于关键词 的检测结果,共 194
niao5929 | 2013-02-17 13:45:16 | 阅读(1960) | 评论(0)
本文主要是关于笔者在基于hadoop集群安装时,

相应安装步骤,以及使用的linux命令,

以及 /etc/profile, hive-site.xml , log4j等配置文件的参数的设定,

还有遇到问题时相应的解决方法。

希望对大家在安装hive时有所帮助。【阅读全文】
inuyasha1027 | 2013-02-14 16:50:58 | 阅读(2990) | 评论(0)
本文主要是关于笔者在基于hadoop集群安装时,

相应安装步骤,以及使用的linux命令,

以及 /etc/profile, hive-site.xml , log4j等配置文件的参数的设定,

还有遇到问题时相应的解决方法。

希望对大家在安装hive时有所帮助。【阅读全文】
qingheliu | 2013-02-14 15:31:04 | 阅读(2800) | 评论(0)
1:namenode目录结构 【阅读全文】
inuyasha1027 | 2013-02-07 11:31:03 | 阅读(2150) | 评论(0)
解决ssh配置无密码登录后 又出现输入密码的情况--hadoop集群配置【阅读全文】
ouyangmingyuan | 2013-01-28 13:39:38 | 阅读(1460) | 评论(0)
显示报错no tasktracker to stop ,no datanode to stop问题的原因是hadoop在stop的时候依据的是datanode上的mapred和dfs进程号。而默认的进程号保存在/tmp下,linux默认会每隔一段时间(一般是一个月或者7天左右)去删除这个目录下的文件。因此删掉hadoop-hadoop-jobtracker.pid和hadoop-hadoop-namenode.pid两个文件后,namenode自然就找不到datanode上的这两个进程了。在配置文件中$HADOOP_HOME/conf/hadoop-env.sh中export HADOOP_P【阅读全文】
ouyangmingyuan | 2013-01-28 13:38:42 | 阅读(270) | 评论(0)
From:http://www.programmer.com.cn/10416/    2011年,对Hadoop来说注定是载入史册的一年:Yahoo!与风险投资公司Benchmark Capital联合建立独立公司Hortonworks,接手Yahoo!开源软件平台Apache Hadoop;Hadoop海量数据分析平台Datameer、Karmasphere和Hadapt分别获得千万美元级别投资;一向对开源趋势不屑一顾的微软转投Hadoop怀抱;Hadoop之父Doug Cutting第一次莅临中国,布道Hadoop 0.23…… 可以说,Hadoop生态系统呈【阅读全文】
ouyangmingyuan | 2013-01-28 13:37:07 | 阅读(810) | 评论(0)
刚看到Hadoop序列化这一概念时,想不通为什么要序列化。因为之前一直用C, C语言中,网络两端通信或者读写文件,完全没关注过序列化这个概念。我想可能是因为C中每次使用的变量都有明确的类型定义,不需要这样明确地把序列化的概念提出来,C库中将这一过程实现了(这是我的猜想 因为看到有些C程序 使用int型变量并不是直...【阅读全文】
niao5929 | 2013-01-15 15:49:09 | 阅读(240) | 评论(0)
hadoop的使用中,一般只关注运行结果。对于mapper和reducer之间的处理逻辑往往不care。比如key-value对到达reducer的先后顺序等目前接触到的运用场景有:1.根据用户操作时间来整理事件链,在网站分析里比较常用。需要按时间先后顺序来处理,如果过亿的访问操作全在reducer里来排序,对计算能力和内存都是一个挑战。2.海量数据处理中,求去重distinct这种操作,往往需要先缓存很大的数据集,对单个reducer的内存要求很高,特别是上亿的数据时,很容易就撑爆内存。这里如果在reducer进入前就排好序,后续处理就简单的多。二次排序相当于把一个reducer的负载推给了【阅读全文】
Larpenteur | 2013-01-15 02:21:37 | 阅读(380) | 评论(0)
hadoop的使用中,一般只关注运行结果。对于mapper和reducer之间的处理逻辑往往不care。比如key-value对到达reducer的先后顺序等目前接触到的运用场景有:1.根据用户操作时间来整理事件链,在网站分析里比较常用。需要按时间先后顺序来处理,如果过亿的访问操作全在reducer里来排序,对计算能力和内存都是一个挑战。2.海量数据处理中,求去重distinct这种操作,往往需要先缓存很大的数据集,对单个reducer的内存要求很高,特别是上亿的数据时,很容易就撑爆内存。这里如果在reducer进入前就排好序,后续处理就简单的多。二次排序相当于把一个reducer的负载推给了【阅读全文】
bluecase | 2013-01-08 14:46:53 | 阅读(6339) | 评论(1)
hadoop的使用中,一般只关注运行结果。对于mapper和reducer之间的处理逻辑往往不care。比如key-value对到达reducer的先后顺序等目前接触到的运用场景有:1.根据用户操作时间来整理事件链,在网站分析里比较常用。需要按时间先后顺序来处理,如果过亿的访问操作全在reducer里来排序,对计算能力和内存都是一个挑战。2.海量数据处理中,求去重distinct这种操作,往往需要先缓存很大的数据集,对单个reducer的内存要求很高,特别是上亿的数据时,很容易就撑爆内存。这里如果在reducer进入前就排好序,后续处理就简单的多。二次排序相当于把一个reducer的负载推给了【阅读全文】
qhw | 2013-01-04 00:18:28 | 阅读(3009) | 评论(0)
显示报错no tasktracker to stop ,no datanode to stop问题的原因是hadoop在stop的时候依据的是datanode上的mapred和dfs进程号。而默认的进程号保存在/tmp下,linux默认会每隔一段时间(一般是一个月或者7天左右)去删除这个目录下的文件。因此删掉hadoop-hadoop-jobtracker.pid和hadoop-hadoop-namenode.pid两个文件后,namenode自然就找不到datanode上的这两个进程了。在配置文件中$HADOOP_HOME/conf/hadoop-env.sh中export HADOOP_P【阅读全文】
yungho | 2012-12-17 16:15:02 | 阅读(1566) | 评论(0)
From:http://www.programmer.com.cn/10416/    2011年,对Hadoop来说注定是载入史册的一年:Yahoo!与风险投资公司Benchmark Capital联合建立独立公司Hortonworks,接手Yahoo!开源软件平台Apache Hadoop;Hadoop海量数据分析平台Datameer、Karmasphere和Hadapt分别获得千万美元级别投资;一向对开源趋势不屑一顾的微软转投Hadoop怀抱;Hadoop之父Doug Cutting第一次莅临中国,布道Hadoop 0.23…… 可以说,Hadoop生态系统呈【阅读全文】
wenkudaren | 2012-12-11 10:10:46 | 阅读(1112) | 评论(0)
HBTC 2012 Hadoop与大数据技术大会演讲PPT资料 中国IT界技术盛会——Hadoop与大数据技术大会(HBTC 2012)于12月1日顺利落幕。本次大会以“大数据共享与开放技术”为主题,设定“Hadoop生态系统”、“大数据行业应用”、“大数据共享平台与应用”、“NoSQL与NewSQL”以及“大数据的技术挑战与发展趋势”五个分论坛。本文整理了本次大会的演讲PPT资料,与Hadoop技术爱好者一起分享到来自一线专家的实践经验,展望Hadoop和大数据璀璨的发展未来。 虚拟化和云计算让Hadoop变得简单 董波    数据【阅读全文】
【HADOOP】 hadoop块理解
qingheliu | 2012-10-28 16:22:59 | 阅读(2365) | 评论(0)
hadoop上默认块的大小为64M当文件小于64M时,以一个block计算,在实际的文件系统中,仅占原始文件的大小,外加一个.meta文件例如:中等文件,40M[root@ungeo12 current]# [root@ungeo8 xliu]# /usr/local/hadoop/bin/hadoop dfs -put  /home/xliu/hadoop-0.20.3-dev.tar.gz  /...【阅读全文】