Hadoop在网站备份中的应用-slp195-ChinaUnix博客

slp195的ChinaUnix博客

首页　| 　博文目录　| 　关于我

slp195

博客访问： 329045
博文数量： 31
博客积分： 393
博客等级：一等列兵
技术积分： 388
用户组：普通用户
注册时间： 2012-08-26 10:23

文章分类

全部博文（31）

大数据（2）
Shell（1）
C/C++/Java程序设（2）
数据库（1）
云计算（6）
数据结构&算法（2）
linux系统（7）
Web开发（2）
linux内核学习（6）
杂谈（0）
未分配的博文（2）

文章存档

2013年（16）

2012年（15）

我的朋友

相关博文

Hadoop在网站备份中的应用

分类：大数据

2013-03-27 10:31:58

【背景】
      目前社区网站规模越来越大，一般采用分布式数据库存储即时信息，但是对于安全的备份，数据库中的数据备份最好是能转移到一个安全可靠的平台，而非将备份数据保留与本地。
【hadoop平台的利用】
      在每个数据库备份完成后，将其复制到稳定的Hadoop集群中。集群对备份的数据有固定的保留时间，已确保集群被大量过时的备份吞噬。同时集群可以适当的扩展，以满足备份的需求。Hadoop的分布式特性让在数据库进行数据恢复的时候有足够的带宽。
      同时非实时数据可以再Hadoop平台中得到更好的分析和挖掘，提高数据库站点的前台响应时间。
【Hadoop对文档去重】
        1.对旧文档进行MD5处理，对行文档通过mapreduce进行合并到旧文档
        2.计算文档的hash值，在Hbase总设置去重表，来表示文档的重复性，重文档不予存入Hbase
        3.数据指纹（文档指纹）+mapreduce去重

参考：

阅读(2893) | 评论(0) | 转发(0) |

上一篇：hadoop 运行mapred程序涉及第三方jar包出现“ClassNotFound”解决办法

下一篇：WebService&Axis2&Tomcat6&Hadoop/HDFS搭建服务时遇到的一些问题

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6