按类别查询搜索结果
关于关键词 的检测结果,共 230
ouyangmingyuan | 2013-01-28 13:38:42 | 阅读(270) | 评论(0)
From:http://www.programmer.com.cn/10416/    2011年,对Hadoop来说注定是载入史册的一年:Yahoo!与风险投资公司Benchmark Capital联合建立独立公司Hortonworks,接手Yahoo!开源软件平台Apache Hadoop;Hadoop海量数据分析平台Datameer、Karmasphere和Hadapt分别获得千万美元级别投资;一向对开源趋势不屑一顾的微软转投Hadoop怀抱;Hadoop之父Doug Cutting第一次莅临中国,布道Hadoop 0.23…… 可以说,Hadoop生态系统呈【阅读全文】
ouyangmingyuan | 2013-01-28 13:37:07 | 阅读(800) | 评论(0)
刚看到Hadoop序列化这一概念时,想不通为什么要序列化。因为之前一直用C, C语言中,网络两端通信或者读写文件,完全没关注过序列化这个概念。我想可能是因为C中每次使用的变量都有明确的类型定义,不需要这样明确地把序列化的概念提出来,C库中将这一过程实现了(这是我的猜想 因为看到有些C程序 使用int型变量并不是直...【阅读全文】
niao5929 | 2013-01-15 15:49:09 | 阅读(230) | 评论(0)
hadoop的使用中,一般只关注运行结果。对于mapper和reducer之间的处理逻辑往往不care。比如key-value对到达reducer的先后顺序等目前接触到的运用场景有:1.根据用户操作时间来整理事件链,在网站分析里比较常用。需要按时间先后顺序来处理,如果过亿的访问操作全在reducer里来排序,对计算能力和内存都是一个挑战。2.海量数据处理中,求去重distinct这种操作,往往需要先缓存很大的数据集,对单个reducer的内存要求很高,特别是上亿的数据时,很容易就撑爆内存。这里如果在reducer进入前就排好序,后续处理就简单的多。二次排序相当于把一个reducer的负载推给了【阅读全文】
Larpenteur | 2013-01-15 02:21:37 | 阅读(380) | 评论(0)
hadoop的使用中,一般只关注运行结果。对于mapper和reducer之间的处理逻辑往往不care。比如key-value对到达reducer的先后顺序等目前接触到的运用场景有:1.根据用户操作时间来整理事件链,在网站分析里比较常用。需要按时间先后顺序来处理,如果过亿的访问操作全在reducer里来排序,对计算能力和内存都是一个挑战。2.海量数据处理中,求去重distinct这种操作,往往需要先缓存很大的数据集,对单个reducer的内存要求很高,特别是上亿的数据时,很容易就撑爆内存。这里如果在reducer进入前就排好序,后续处理就简单的多。二次排序相当于把一个reducer的负载推给了【阅读全文】
bluecase | 2013-01-08 14:46:53 | 阅读(6329) | 评论(1)
hadoop的使用中,一般只关注运行结果。对于mapper和reducer之间的处理逻辑往往不care。比如key-value对到达reducer的先后顺序等目前接触到的运用场景有:1.根据用户操作时间来整理事件链,在网站分析里比较常用。需要按时间先后顺序来处理,如果过亿的访问操作全在reducer里来排序,对计算能力和内存都是一个挑战。2.海量数据处理中,求去重distinct这种操作,往往需要先缓存很大的数据集,对单个reducer的内存要求很高,特别是上亿的数据时,很容易就撑爆内存。这里如果在reducer进入前就排好序,后续处理就简单的多。二次排序相当于把一个reducer的负载推给了【阅读全文】
qhw | 2013-01-04 00:18:28 | 阅读(2999) | 评论(0)
显示报错no tasktracker to stop ,no datanode to stop问题的原因是hadoop在stop的时候依据的是datanode上的mapred和dfs进程号。而默认的进程号保存在/tmp下,linux默认会每隔一段时间(一般是一个月或者7天左右)去删除这个目录下的文件。因此删掉hadoop-hadoop-jobtracker.pid和hadoop-hadoop-namenode.pid两个文件后,namenode自然就找不到datanode上的这两个进程了。在配置文件中$HADOOP_HOME/conf/hadoop-env.sh中export HADOOP_P【阅读全文】
yungho | 2012-12-17 16:15:02 | 阅读(1566) | 评论(0)
From:http://www.programmer.com.cn/10416/    2011年,对Hadoop来说注定是载入史册的一年:Yahoo!与风险投资公司Benchmark Capital联合建立独立公司Hortonworks,接手Yahoo!开源软件平台Apache Hadoop;Hadoop海量数据分析平台Datameer、Karmasphere和Hadapt分别获得千万美元级别投资;一向对开源趋势不屑一顾的微软转投Hadoop怀抱;Hadoop之父Doug Cutting第一次莅临中国,布道Hadoop 0.23…… 可以说,Hadoop生态系统呈【阅读全文】
wenkudaren | 2012-12-11 10:10:46 | 阅读(1102) | 评论(0)
HBTC 2012 Hadoop与大数据技术大会演讲PPT资料 中国IT界技术盛会——Hadoop与大数据技术大会(HBTC 2012)于12月1日顺利落幕。本次大会以“大数据共享与开放技术”为主题,设定“Hadoop生态系统”、“大数据行业应用”、“大数据共享平台与应用”、“NoSQL与NewSQL”以及“大数据的技术挑战与发展趋势”五个分论坛。本文整理了本次大会的演讲PPT资料,与Hadoop技术爱好者一起分享到来自一线专家的实践经验,展望Hadoop和大数据璀璨的发展未来。 虚拟化和云计算让Hadoop变得简单 董波    数据【阅读全文】
【HADOOP】 hadoop块理解
qingheliu | 2012-10-28 16:22:59 | 阅读(2365) | 评论(0)
hadoop上默认块的大小为64M当文件小于64M时,以一个block计算,在实际的文件系统中,仅占原始文件的大小,外加一个.meta文件例如:中等文件,40M[root@ungeo12 current]# [root@ungeo8 xliu]# /usr/local/hadoop/bin/hadoop dfs -put  /home/xliu/hadoop-0.20.3-dev.tar.gz  /...【阅读全文】
【HADOOP】 hadoop
qingheliu | 2012-04-14 21:51:26 | 阅读(5838) | 评论(0)
Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样, MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之...【阅读全文】