参考资料:
IBM系列文章:
第1部分介绍了 MapReduce 计算模型,分布式文件系统 HDFS,分布式并行计算等的基本原理, 并且详细介绍了如何安装 Hadoop,如何在单机及伪分布式环境 (在一台单机中用多进程模拟) 运行基于 Hadoop 的并行程序。
第2部分介绍了如何针对一个具体的计算任务,基于 Hadoop 编写 MapReduce 并行程序。
第3部分介绍真实的 Hadoop 分布式运行环境, 包括如何在多台普通的计算机上部署分布式运行环境,如何将 MapReduce 程序远程部署并运行在这个分布式环境上,并简略介绍了”云计算平台” 以及计算能力按需租用服务。
这一系列的文章发表于2008年,当时Hadoop的版本是0.16,现在的版本是1.0.0,文中有些地方已经不合适,稍作修改即可。
阅读(622) | 评论(0) | 转发(0) |