Chinaunix首页 | 论坛 | 博客
  • 博客访问: 325999
  • 博文数量: 31
  • 博客积分: 393
  • 博客等级: 一等列兵
  • 技术积分: 388
  • 用 户 组: 普通用户
  • 注册时间: 2012-08-26 10:23
文章分类

全部博文(31)

文章存档

2013年(16)

2012年(15)

分类: 大数据

2013-03-27 10:31:58

【背景】
      目前社区网站规模越来越大,一般采用分布式数据库存储即时信息,但是对于安全的备份,数据库中的数据备份最好是能转移到一个安全可靠的平台,而非将备份数据保留与本地。
【hadoop平台的利用
      在每个数据库备份完成后,将其复制到稳定的Hadoop集群中。集群对备份的数据有固定的保留时间,已确保集群被大量过时的备份吞噬。同时集群可以适当的扩展,以满足备份的需求。Hadoop的分布式特性让在数据库进行数据恢复的时候有足够的带宽。
      同时非实时数据可以再Hadoop平台中得到更好的分析和挖掘,提高数据库站点的前台响应时间
【Hadoop对文档去重
        1.对旧文档进行MD5处理,对行文档通过mapreduce进行合并到旧文档
        2.计算文档的hash值,在Hbase总设置去重表,来表示文档的重复性,重文档不予存入Hbase
        3.数据指纹(文档指纹)+mapreduce去重

参考:


    

阅读(2859) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~