全部博文(2759)
发布时间:2014-02-09 10:32:35
MapReduce是一种可用于数据处理的编程模型,Hadoop可以运行由各种语言编写的MapReduce程序。MapReduce程序本质上是并行运行的,因此,可以将大规模的数据分析任务交给任何一个拥有足够多机器的运营商。MapReduce的优势在于处理大规模数据集,这里以一个气象数据集分析为例说明之,查.........【阅读全文】
发布时间:2014-02-09 10:30:55
一、文件读取剖析 为了了解客户端及与之交互的HDFS、namenode和datanode之间的数据流是什么样的,可以参考下图,该图显示了在读取文件时一些时间的主要顺序:图1 客户端读取HDFS中的数据 客户端通过调用FileSyste对象的open()方法来打开.........【阅读全文】
发布时间:2014-02-09 10:30:28
Hadoop有一个抽象的文件系统概念,HDFS只是其中一个实现。Java抽象类org.apache.hadoop.fs.FileSystem定义了Hadoop中的一个文件系统接口,并且该抽象类有几个具体的实现。Hadoop对文件系统提供了很多接口,它一般使用URI方案来选取合适的文件系统实例进行交互,比如:要想列出本地文.........【阅读全文】
发布时间:2013-12-19 12:15:11
腾出手来对部署好的hadoop/hbase云计算平台进行取证分析测试,但是运行过程中经常会不时地node2无法正常启动HRegionserver,从而导致整个平台的计算受到影响。之前自己围绕HMaster自动关闭的问题,删除了各个节点的HDFS目录,重新格式化后问题得到了解决,但是这次问题却依旧,于是自己只好去日志中一.........【阅读全文】
发布时间:2013-11-18 11:40:49
一、适应场景 HDFS是Hadoop的分布式文件系统,即Hadoop Distributed Filesystem。 HDFS以流式数据访问模式来存储超大文件,运行于商用硬件集群上。这句话信息量太大,分解开来就是HDFS适合如下场景: .........【阅读全文】