全部博文(247)
发布时间:2013-07-31 12:06:02
以下为实现时用到的包及其职责 com.ouyang.chk包含 检测迭代能否停止的mapreduce任务的一些类com.ouyang.driver程序的入口com.ouyang.graph图的.........【阅读全文】
发布时间:2013-07-31 12:02:46
1. 基本概念 序列化可被定义为将对象的状态存储到存储媒介中的过程。在此过程中,对象的公共字段和私有字段以及类的名称(包括包含该类的程序集)都被转换为字节流,然后写入数据流。在以后反序列化该对象时,创建原始对象的精确复本。当在面向对象的环境中实现序列化机制时,您需要在简化使用和保持灵活.........【阅读全文】
发布时间:2013-07-31 12:00:58
org.apache.hadoop.io包中有四种Writable集合类型,分别是ArrayWritable,TwoDArrayWritable,MapWritable和SortedMapWritable。ArrayWritable和TwoDArrayWritable是Writable针对数组和二维数组(数组的数组)实例的实现。所有对ArrayWritbale或者TwoDArayWritable的使用都必须实例化相同的类,这是在构造时指定的,如下.........【阅读全文】
发布时间:2013-07-31 12:00:11
String转Text:String line="abcdefg";Text text=new Text(line);Text转String:(Text values)String line=values.toString;int转IntWritable:IntWritable one=new IntWritable(1);IntWritable转int:int sum=0;while(values.hasNext()){ sum.........【阅读全文】
发布时间:2013-07-31 11:59:05
根据Hadoop++论文的描述,Hadoop执行过程分为Load、Map、Shuffle、Reduce这四个阶段,可以看成是一个由split、 itemize、map、reduce等10个函数或算子组成的DAG。其中每一个函数或算子,都可以提供自定义的实现以此来扩展Hadoop的功能或优 化性能。1、Load阶段输入数据经block函数,按配置的block大小切分成多个bloc.........【阅读全文】