搜索博文结果_ChinaUnix博客

niao5929 | 2013-02-17 13:45:16 | 阅读(1960) | 评论(0)

本文主要是关于笔者在基于hadoop集群安装时，

相应安装步骤，以及使用的linux命令，

以及 /etc/profile, hive-site.xml ， log4j等配置文件的参数的设定，

还有遇到问题时相应的解决方法。

希望对大家在安装hive时有所帮助。【阅读全文】

【HADOOP】基于hadoop的hive安装（derby，mysql）

inuyasha1027 | 2013-02-14 16:50:58 | 阅读(2990) | 评论(0)

本文主要是关于笔者在基于hadoop集群安装时，

相应安装步骤，以及使用的linux命令，

以及 /etc/profile, hive-site.xml ， log4j等配置文件的参数的设定，

还有遇到问题时相应的解决方法。

希望对大家在安装hive时有所帮助。【阅读全文】

【HADOOP】 hadoop 的namenode、checkpointnode、datanode目录结构

qingheliu | 2013-02-14 15:31:04 | 阅读(2800) | 评论(0)

1：namenode目录结构【阅读全文】

【HADOOP】解决ssh配置无密码登录后又出现输入密码的情况--hadoop集群配置

inuyasha1027 | 2013-02-07 11:31:03 | 阅读(2150) | 评论(0)

解决ssh配置无密码登录后又出现输入密码的情况--hadoop集群配置【阅读全文】

【HADOOP】 Hadoop机器运行一段时间后hadoop不能stop-all.sh的问题

ouyangmingyuan | 2013-01-28 13:39:38 | 阅读(1460) | 评论(0)

显示报错no tasktracker to stop ，no datanode to stop问题的原因是hadoop在stop的时候依据的是datanode上的mapred和dfs进程号。而默认的进程号保存在/tmp下，linux默认会每隔一段时间（一般是一个月或者7天左右）去删除这个目录下的文件。因此删掉hadoop-hadoop-jobtracker.pid和hadoop-hadoop-namenode.pid两个文件后，namenode自然就找不到datanode上的这两个进程了。在配置文件中$HADOOP_HOME/conf/hadoop-env.sh中export HADOOP_P【阅读全文】

【HADOOP】 Hadoop不是万能的

ouyangmingyuan | 2013-01-28 13:38:42 | 阅读(270) | 评论(0)

From：http://www.programmer.com.cn/10416/ 2011年，对Hadoop来说注定是载入史册的一年：Yahoo!与风险投资公司Benchmark Capital联合建立独立公司Hortonworks，接手Yahoo!开源软件平台Apache Hadoop；Hadoop海量数据分析平台Datameer、Karmasphere和Hadapt分别获得千万美元级别投资；一向对开源趋势不屑一顾的微软转投Hadoop怀抱；Hadoop之父Doug Cutting第一次莅临中国，布道Hadoop 0.23…… 可以说，Hadoop生态系统呈【阅读全文】

【HADOOP】 Hadoop的序列化知识准备：Java序列化

ouyangmingyuan | 2013-01-28 13:37:07 | 阅读(810) | 评论(0)

刚看到Hadoop序列化这一概念时，想不通为什么要序列化。因为之前一直用C， C语言中，网络两端通信或者读写文件，完全没关注过序列化这个概念。我想可能是因为C中每次使用的变量都有明确的类型定义，不需要这样明确地把序列化的概念提出来，C库中将这一过程实现了（这是我的猜想因为看到有些C程序使用int型变量并不是直...【阅读全文】

【HADOOP】 Hadoop的二次排序

niao5929 | 2013-01-15 15:49:09 | 阅读(240) | 评论(0)

hadoop的使用中，一般只关注运行结果。对于mapper和reducer之间的处理逻辑往往不care。比如key-value对到达reducer的先后顺序等目前接触到的运用场景有：1.根据用户操作时间来整理事件链，在网站分析里比较常用。需要按时间先后顺序来处理，如果过亿的访问操作全在reducer里来排序，对计算能力和内存都是一个挑战。2.海量数据处理中，求去重distinct这种操作，往往需要先缓存很大的数据集，对单个reducer的内存要求很高，特别是上亿的数据时，很容易就撑爆内存。这里如果在reducer进入前就排好序，后续处理就简单的多。二次排序相当于把一个reducer的负载推给了【阅读全文】

【HADOOP】 Hadoop的二次排序

Larpenteur | 2013-01-15 02:21:37 | 阅读(380) | 评论(0)

hadoop的使用中，一般只关注运行结果。对于mapper和reducer之间的处理逻辑往往不care。比如key-value对到达reducer的先后顺序等目前接触到的运用场景有：1.根据用户操作时间来整理事件链，在网站分析里比较常用。需要按时间先后顺序来处理，如果过亿的访问操作全在reducer里来排序，对计算能力和内存都是一个挑战。2.海量数据处理中，求去重distinct这种操作，往往需要先缓存很大的数据集，对单个reducer的内存要求很高，特别是上亿的数据时，很容易就撑爆内存。这里如果在reducer进入前就排好序，后续处理就简单的多。二次排序相当于把一个reducer的负载推给了【阅读全文】

【HADOOP】 Hadoop的二次排序

bluecase | 2013-01-08 14:46:53 | 阅读(6339) | 评论(1)

hadoop的使用中，一般只关注运行结果。对于mapper和reducer之间的处理逻辑往往不care。比如key-value对到达reducer的先后顺序等目前接触到的运用场景有：1.根据用户操作时间来整理事件链，在网站分析里比较常用。需要按时间先后顺序来处理，如果过亿的访问操作全在reducer里来排序，对计算能力和内存都是一个挑战。2.海量数据处理中，求去重distinct这种操作，往往需要先缓存很大的数据集，对单个reducer的内存要求很高，特别是上亿的数据时，很容易就撑爆内存。这里如果在reducer进入前就排好序，后续处理就简单的多。二次排序相当于把一个reducer的负载推给了【阅读全文】

【HADOOP】 Hadoop机器运行一段时间后hadoop不能stop-all.sh的问题

qhw | 2013-01-04 00:18:28 | 阅读(3009) | 评论(0)

显示报错no tasktracker to stop ，no datanode to stop问题的原因是hadoop在stop的时候依据的是datanode上的mapred和dfs进程号。而默认的进程号保存在/tmp下，linux默认会每隔一段时间（一般是一个月或者7天左右）去删除这个目录下的文件。因此删掉hadoop-hadoop-jobtracker.pid和hadoop-hadoop-namenode.pid两个文件后，namenode自然就找不到datanode上的这两个进程了。在配置文件中$HADOOP_HOME/conf/hadoop-env.sh中export HADOOP_P【阅读全文】

【HADOOP】 Hadoop不是万能的

yungho | 2012-12-17 16:15:02 | 阅读(1566) | 评论(0)

From：http://www.programmer.com.cn/10416/ 2011年，对Hadoop来说注定是载入史册的一年：Yahoo!与风险投资公司Benchmark Capital联合建立独立公司Hortonworks，接手Yahoo!开源软件平台Apache Hadoop；Hadoop海量数据分析平台Datameer、Karmasphere和Hadapt分别获得千万美元级别投资；一向对开源趋势不屑一顾的微软转投Hadoop怀抱；Hadoop之父Doug Cutting第一次莅临中国，布道Hadoop 0.23…… 可以说，Hadoop生态系统呈【阅读全文】

【HADOOP】 HBTC 2012 Hadoop与大数据技术大会演讲PPT资料

wenkudaren | 2012-12-11 10:10:46 | 阅读(1112) | 评论(0)

HBTC 2012 Hadoop与大数据技术大会演讲PPT资料中国IT界技术盛会——Hadoop与大数据技术大会（HBTC 2012）于12月1日顺利落幕。本次大会以“大数据共享与开放技术”为主题，设定“Hadoop生态系统”、“大数据行业应用”、“大数据共享平台与应用”、“NoSQL与NewSQL”以及“大数据的技术挑战与发展趋势”五个分论坛。本文整理了本次大会的演讲PPT资料，与Hadoop技术爱好者一起分享到来自一线专家的实践经验，展望Hadoop和大数据璀璨的发展未来。虚拟化和云计算让Hadoop变得简单董波数据【阅读全文】

【HADOOP】 hadoop块的理解

qingheliu | 2012-10-28 16:22:59 | 阅读(2365) | 评论(0)

hadoop上默认块的大小为64M当文件小于64M时，以一个block计算，在实际的文件系统中，仅占原始文件的大小，外加一个.meta文件例如：中等文件，40M[root@ungeo12 current]# [root@ungeo8 xliu]# /usr/local/hadoop/bin/hadoop dfs -put /home/xliu/hadoop-0.20.3-dev.tar.gz /...【阅读全文】