全部博文(247)
发布时间:2013-12-19 06:58:53
本文讨论Apache Hadoop大数据工具及技术,帮助有效管理实时的大数据,并讨论Apache Hadoop大数据分析的优缺点。帮助企业认识Hadoop,在选择Hadoop技术方案上做出抉择。一、什么是大数据分析工具及技术Hadoop是目前的处理和存储海量数据的最佳工具。Hadoop可以利用数百台甚至数千台计算机处理大数据问题,而不是使用.........【阅读全文】
发布时间:2013-07-31 12:06:02
以下为实现时用到的包及其职责 com.ouyang.chk包含 检测迭代能否停止的mapreduce任务的一些类com.ouyang.driver程序的入口com.ouyang.graph图的.........【阅读全文】
发布时间:2013-07-31 12:02:46
1. 基本概念 序列化可被定义为将对象的状态存储到存储媒介中的过程。在此过程中,对象的公共字段和私有字段以及类的名称(包括包含该类的程序集)都被转换为字节流,然后写入数据流。在以后反序列化该对象时,创建原始对象的精确复本。当在面向对象的环境中实现序列化机制时,您需要在简化使用和保持灵活.........【阅读全文】
发布时间:2013-07-31 12:00:58
org.apache.hadoop.io包中有四种Writable集合类型,分别是ArrayWritable,TwoDArrayWritable,MapWritable和SortedMapWritable。ArrayWritable和TwoDArrayWritable是Writable针对数组和二维数组(数组的数组)实例的实现。所有对ArrayWritbale或者TwoDArayWritable的使用都必须实例化相同的类,这是在构造时指定的,如下.........【阅读全文】
发布时间:2013-07-31 12:00:11
String转Text:String line="abcdefg";Text text=new Text(line);Text转String:(Text values)String line=values.toString;int转IntWritable:IntWritable one=new IntWritable(1);IntWritable转int:int sum=0;while(values.hasNext()){ sum.........【阅读全文】