搜索博文结果_ChinaUnix博客

ouyangmingyuan | 2013-01-28 13:38:42 | 阅读(270) | 评论(0)

From：http://www.programmer.com.cn/10416/ 2011年，对Hadoop来说注定是载入史册的一年：Yahoo!与风险投资公司Benchmark Capital联合建立独立公司Hortonworks，接手Yahoo!开源软件平台Apache Hadoop；Hadoop海量数据分析平台Datameer、Karmasphere和Hadapt分别获得千万美元级别投资；一向对开源趋势不屑一顾的微软转投Hadoop怀抱；Hadoop之父Doug Cutting第一次莅临中国，布道Hadoop 0.23…… 可以说，Hadoop生态系统呈【阅读全文】

【HADOOP】 Hadoop的序列化知识准备：Java序列化

ouyangmingyuan | 2013-01-28 13:37:07 | 阅读(800) | 评论(0)

刚看到Hadoop序列化这一概念时，想不通为什么要序列化。因为之前一直用C， C语言中，网络两端通信或者读写文件，完全没关注过序列化这个概念。我想可能是因为C中每次使用的变量都有明确的类型定义，不需要这样明确地把序列化的概念提出来，C库中将这一过程实现了（这是我的猜想因为看到有些C程序使用int型变量并不是直...【阅读全文】

【HADOOP】 Hadoop的二次排序

niao5929 | 2013-01-15 15:49:09 | 阅读(230) | 评论(0)

hadoop的使用中，一般只关注运行结果。对于mapper和reducer之间的处理逻辑往往不care。比如key-value对到达reducer的先后顺序等目前接触到的运用场景有：1.根据用户操作时间来整理事件链，在网站分析里比较常用。需要按时间先后顺序来处理，如果过亿的访问操作全在reducer里来排序，对计算能力和内存都是一个挑战。2.海量数据处理中，求去重distinct这种操作，往往需要先缓存很大的数据集，对单个reducer的内存要求很高，特别是上亿的数据时，很容易就撑爆内存。这里如果在reducer进入前就排好序，后续处理就简单的多。二次排序相当于把一个reducer的负载推给了【阅读全文】

【HADOOP】 Hadoop的二次排序

Larpenteur | 2013-01-15 02:21:37 | 阅读(380) | 评论(0)

hadoop的使用中，一般只关注运行结果。对于mapper和reducer之间的处理逻辑往往不care。比如key-value对到达reducer的先后顺序等目前接触到的运用场景有：1.根据用户操作时间来整理事件链，在网站分析里比较常用。需要按时间先后顺序来处理，如果过亿的访问操作全在reducer里来排序，对计算能力和内存都是一个挑战。2.海量数据处理中，求去重distinct这种操作，往往需要先缓存很大的数据集，对单个reducer的内存要求很高，特别是上亿的数据时，很容易就撑爆内存。这里如果在reducer进入前就排好序，后续处理就简单的多。二次排序相当于把一个reducer的负载推给了【阅读全文】

【HADOOP】 Hadoop的二次排序

bluecase | 2013-01-08 14:46:53 | 阅读(6329) | 评论(1)

hadoop的使用中，一般只关注运行结果。对于mapper和reducer之间的处理逻辑往往不care。比如key-value对到达reducer的先后顺序等目前接触到的运用场景有：1.根据用户操作时间来整理事件链，在网站分析里比较常用。需要按时间先后顺序来处理，如果过亿的访问操作全在reducer里来排序，对计算能力和内存都是一个挑战。2.海量数据处理中，求去重distinct这种操作，往往需要先缓存很大的数据集，对单个reducer的内存要求很高，特别是上亿的数据时，很容易就撑爆内存。这里如果在reducer进入前就排好序，后续处理就简单的多。二次排序相当于把一个reducer的负载推给了【阅读全文】

【HADOOP】 Hadoop机器运行一段时间后hadoop不能stop-all.sh的问题

qhw | 2013-01-04 00:18:28 | 阅读(2999) | 评论(0)

显示报错no tasktracker to stop ，no datanode to stop问题的原因是hadoop在stop的时候依据的是datanode上的mapred和dfs进程号。而默认的进程号保存在/tmp下，linux默认会每隔一段时间（一般是一个月或者7天左右）去删除这个目录下的文件。因此删掉hadoop-hadoop-jobtracker.pid和hadoop-hadoop-namenode.pid两个文件后，namenode自然就找不到datanode上的这两个进程了。在配置文件中$HADOOP_HOME/conf/hadoop-env.sh中export HADOOP_P【阅读全文】

【HADOOP】 Hadoop不是万能的

yungho | 2012-12-17 16:15:02 | 阅读(1566) | 评论(0)

From：http://www.programmer.com.cn/10416/ 2011年，对Hadoop来说注定是载入史册的一年：Yahoo!与风险投资公司Benchmark Capital联合建立独立公司Hortonworks，接手Yahoo!开源软件平台Apache Hadoop；Hadoop海量数据分析平台Datameer、Karmasphere和Hadapt分别获得千万美元级别投资；一向对开源趋势不屑一顾的微软转投Hadoop怀抱；Hadoop之父Doug Cutting第一次莅临中国，布道Hadoop 0.23…… 可以说，Hadoop生态系统呈【阅读全文】

【HADOOP】 HBTC 2012 Hadoop与大数据技术大会演讲PPT资料

wenkudaren | 2012-12-11 10:10:46 | 阅读(1102) | 评论(0)

HBTC 2012 Hadoop与大数据技术大会演讲PPT资料中国IT界技术盛会——Hadoop与大数据技术大会（HBTC 2012）于12月1日顺利落幕。本次大会以“大数据共享与开放技术”为主题，设定“Hadoop生态系统”、“大数据行业应用”、“大数据共享平台与应用”、“NoSQL与NewSQL”以及“大数据的技术挑战与发展趋势”五个分论坛。本文整理了本次大会的演讲PPT资料，与Hadoop技术爱好者一起分享到来自一线专家的实践经验，展望Hadoop和大数据璀璨的发展未来。虚拟化和云计算让Hadoop变得简单董波数据【阅读全文】

【HADOOP】 hadoop块的理解

qingheliu | 2012-10-28 16:22:59 | 阅读(2365) | 评论(0)

hadoop上默认块的大小为64M当文件小于64M时，以一个block计算，在实际的文件系统中，仅占原始文件的大小，外加一个.meta文件例如：中等文件，40M[root@ungeo12 current]# [root@ungeo8 xliu]# /usr/local/hadoop/bin/hadoop dfs -put /home/xliu/hadoop-0.20.3-dev.tar.gz /...【阅读全文】

【HADOOP】 hadoop学习

qingheliu | 2012-04-14 21:51:26 | 阅读(5838) | 评论(0)

Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样， MapReduce的run-time系统会解决输入数据的分布细节，跨越机器集群的程序执行调度，处理机器的失效，并且管理机器之...【阅读全文】