阿里巴巴是个快乐的青年
发布时间:2014-02-23 17:42:12
这里的开发环境是指:Hadoop集群安装在Linux下,本地开发环境在Windows下用Hadoop-eclipse-plugin,远程连接Linux运行job。一、安装 Hadoop集群安装配置请参看这里,Java与Eclipse的安装配置请参看这里,下面介绍Hadoop-eclipse-p.........【阅读全文】
发布时间:2014-02-16 09:01:26
一、HDFS端口参数描述默认配置文件例子值fs.default.namenamenode RPC交互端口8020core-site.xmlhdfs://master:8020/dfs.http.address.........【阅读全文】
发布时间:2014-02-10 21:29:28
为了实现横向扩展(scaling out),需要把数据存储在分布式文件系统中,一般为HDFS,由此允许Hadoop将MapReduce计算移到存储有部分数据的各台机器上。一、数据流 MapReduce作业(job)是客户端需要执行的一个工作单元,.........【阅读全文】
发布时间:2014-02-04 22:28:09
MapReduce是一种可用于数据处理的编程模型,Hadoop可以运行由各种语言编写的MapReduce程序。MapReduce程序本质上是并行运行的,因此,可以将大规模的数据分析任务交给任何一个拥有足够多机器的运营商。MapReduce的优势在于处理大规模数据集,这里以一个气象数据集分析为例说明之,查.........【阅读全文】
发布时间:2014-02-03 20:24:35
一、文件读取剖析 为了了解客户端及与之交互的HDFS、namenode和datanode之间的数据流是什么样的,可以参考下图,该图显示了在读取文件时一些时间的主要顺序:图1 客户端读取HDFS中的数据 客户端通过调用FileSyste对象的open()方法来打开.........【阅读全文】