【转】互联网百万级应用的大数据处理问题-binary

binary_XY.Z的ChinaUnix博客binary.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

binary_XY.Z

博客访问： 1514544
博文数量： 263
博客积分： 10851
博客等级：上将
技术积分： 2627
用户组：普通用户
注册时间： 2008-11-26 22:40

文章分类

全部博文（263）

终端开发（3）

android（2）
问题集（1）
linux桌面应用（2）
linux内核（13）

内核开发（1）

内核管理（12）
龙套箱（1）
虚拟技术（9）

xen（1）

vmware（8）
linux网络安全（22）

网络其他（2）

netfilter/iptabl（4）

网络基础（16）
数据库（20）

oracle（0）

mysql（20）
团队建设（2）
linux大杂烩（10）
linux系统管理（95）

lvs + heartbeat（11）

rpm（5）

包管理工具（0）

工具集（2）

vsftpd（2）

nginx（8）

rsync（5）

cacti（0）

resin（0）

apache（2）

nagios（0）
linux编程开发（27）

java web开发（1）

java（2）

系统编程（8）

php（3）

c/c++（11）
linux脚本（57）

tcl与expect（2）

perl（0）

bash（54）
未分配的博文（1）

文章存档

2013年（4）

2012年（25）

2011年（33）

2010年（50）

2009年（138）

2008年（13）

我的朋友

相关博文

【转】互联网百万级应用的大数据处理问题

分类： LINUX

2012-04-12 16:52:53

我说的大数据量处理是指同时需要对数据进行检索查询，同时有高并发的增删改操作。记得以前在XX做电力时，几百万条数据，那时一个检索查询可以让你等你分钟。现在我是想探讨下对大数据量的处理，那时我就在想例如腾讯，盛大，动辄数以亿计的帐号，怎么能这么快呢，于是找到了互联网现在对数据处理的发展。

　　对于大数据量处理，如果是互联网处理的话，一般分为下面阶段：
　　1、第一阶段，所有数据都装入一个数据库，当数据量大了肯定就会出现问题，就像刚刚说的查询，于是想办法。
　　2、第二阶段，那时肯定想做缓存机制，确实可以如加上缓存Memcached，但缓存也是治标不治本，数据量太大了也是不行，于是有了下面的方法。
　　3、第三阶段，master-slave模式，进行主从数据库，master提供写，slave进行读，这个适合于有写造成数据库卡的方法，XX那个还是不行，于是——
　　4、第四阶段，垂直分库，这个意义还是不大，对于这种采集数据的，于是——
　　5、第五阶段，进行水平分库，这个不错，记得以前从兴也是按这个分时间水平分库，其实可以分的更细点估计效果更好
　　6、第六阶段，用nosql做了，关于nosql怎么做可以参考google的bigtable

　　其实本文主要目的也是想探讨nosql对大数据量的处理：
　　NOSQL就是将写操作在内存中进行，定时或按某一条件将内存中的数据直接写到磁盘上，一定基础上是解决了一些问题：
　　1、高并发读写的需求
　　2、海量数据访问的需求
　　3、数据库横向扩展性的需求

　　CAP理论来说，nosql是牺牲了一致性，做到了AP，一致性只是保证了最终一致性。
　　缺点也很明显：
　　1、当机器挂了数据将会丢失，可以考虑共享内存解决。
　　补充：其实这里可以展开了讲，一种是通过共享内存来实现。
　　集群内存：根据的是Quorum NRW理论，比如你有N台机子用来集群，每次你进行读写数据时可以至少要同步到X个节点才算成功，所以你每次读数据时只需要读大于N-X个节点就能保持你的正确率，其实就是对数据进行的冗余备份，不过我们存的是内存，相对于直接的磁盘操作，跨网络进行内存操作可以更快。
　　其实还一种保证数据一致性，就是记录日志，当数据每次写操作内存时都进行日志记录，然后再在内存中进行写操作，至少很多数据库就是这样做的，如redis。
　　2、内存的限制，内存有限当写数据操作太大的时候内存也会爆。
　　解决：Bigtable的做法是通过bloom-filter算法合并掉相同的操作，比如UPDATE A='A' ，update A='B'时可以直接合并了。

　　基本理论基础
　　nosql理论基础：内存是新的硬盘，硬盘是新的磁盘
　　关系型数据库都要实现事务ACID，即：原子性（Atomicity），一致性（Consistency），隔离性（Isolation），持久性（Durability）。

　　CAP理论：
　　● Consistency 一致性
　　● Availability -可用性
　　● Partition -容错性

　　大多数NoSQL数据库都不支持事务，不支持SQL等，所以还是得保留关系型数据库。现在有人提到用内存数据库，总体如果是简单业务来说，NOSQL的速度比内存数据库更快，但NOSQL最大缺点，不支持事务，不支持SQL查询等。

转自：

阅读(800) | 评论(0) | 转发(0) |

上一篇：【转】运维的CAP原则

下一篇：MYSQL密码忘记的解决办法

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6