发布时间:2014-01-26 22:59:24
有人问我,“你在大数据和Hadoop方面有多少经验?”我告诉他们,我一直在使用Hadoop,但是我处理的数据集很少有大于几个TB的。他们又问我,“你能使用Hadoop做简单的分组和统计吗?”我说当然可以,我只是告诉他们我需要看一些文件格式的例子。他们递给我一个包含600MB数据的闪盘,看起来这些数据并非样本数据,由于一.........【阅读全文】
发布时间:2014-01-26 22:55:18
linux平台下有个ls指令,大家都很熟悉:① ls | grep 2008 查询文件名包含2008的文件(这其实就是一个map,找到需要的数据)② ls | grep 2008 | wc -l 计算上述指令查询文件个数(这其实就是一个reduce,对找到数据进行汇总聚合) 再来一个例子,关于SQL:select * from device&nb.........【阅读全文】
发布时间:2014-01-26 22:49:34
1. 基本概念 序列化可被定义为将对象的状态存储到存储媒介中的过程。在此过程中,对象的公共字段和私有字段以及类的名称(包括包含该类的程序集)都被转换为字节流,然后写入数据流。在以后反序列化该对象时,创建原始对象的精确复本。当在面向对象的环境中实现序列化机制时,您需要在简化使用和保持灵活.........【阅读全文】