NoSQL之Cassandra-laoliulaoliu-ChinaUnix博客

miraclemiracle.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

laoliulaoliu

博客访问： 4663402
博文数量： 1214
博客积分： 13195
博客等级：上将
技术积分： 9105
用户组：普通用户
注册时间： 2007-01-19 14:41

个人简介

C++,python,热爱算法和机器学习

文章分类

全部博文（1214）

cloud（3）
operation（9）
tornado（4）
mac_os（1）
golang（4）
架构（13）
git（4）
security（29）
shell（1）
macbook（1）
ruby（13）
javascript（15）
design（3）
testing（1）
mac（1）
bigdata（69）
nosql（46）
R（9）
gcj/acm（6）
NLP（10）
小说（3）
matlab（4）
web（44）
java（66）
product（7）
c#（1）
language（4）
machine learning（76）
science（4）
opencourse（2）
windows（3）
search（33）
algorithm（65）
database（51）
compiler（11）
ACE（5）
poem（1）
programming（29）
python（140）
assembly（1）
linux（49）
C++（16）
book（2）
cate（1）
phliosophy（3）
mental（30）
Science fiction（1）
Software（5）
c（23）
network（65）
CS（15）
thinking（10）
BSD（13）
solaris10（2）
life（57）
Debian（16）
economy（7）
Mathematics（57）
OS（8）
ibm（2）
gentoo（32）
未分配的博文（8）

文章存档

2021年（13）

2020年（49）

2019年（14）

2018年（27）

2017年（69）

2016年（100）

2015年（106）

2014年（240）

2013年（5）

2012年（193）

2011年（155）

2010年（93）

2009年（62）

2008年（51）

2007年（37）

我的朋友

相关博文

NoSQL之Cassandra

分类： NOSQL

2014-03-21 15:29:45

文章来源：http://www.cnblogs.com/LBSer/p/3328841.html

　　9月初听了一个讲座，演讲者是张月同学，他给我们分享了Cassandra nosql数据库，讲得很精彩，听完之后收益良多。

　　Cassandra是一个noSQL数据库，在国外被广泛使用，比如FaceBook、Twitter、Intel等，国内用的较少，只有奇虎360等公司在大规模使用。张月首先讲了Cassandra怎么来的，之后讲了Cassandra的一些具体细节，让我印象比较深刻的有数据分布以及通讯协议两个部分，最后讲了Cassandra的效率以及使用情况。

1. Cassandra怎么来的

他山之石可以攻玉，Cassandra从Dynamo和BigTable中借鉴了相应的思想。

类似Dynamo的特性	类似bigTable的特性
对称、P2P的结构，没有主节点	稀疏、列存储模型
基于 Gossip的集群管理	commit log，内存有 MemTable，SSTable Files
分布式哈西表	支持Hadoop
最终一致性

2. Cassandra中的数据是怎样分布的？

1.2版本之前使用的是普通一致性哈西算法，如图上部所示，一共6个节点，每个节点计算Hash值a，之后各个节点根据各自的hash值映射到一段区间上，比如Node1对应着A，此外，各个节点保存着其它节点的两个副本，比如Node1还保存着Node5的E，以及Node6的F。

普通的一致性哈西有个缺点，当增加或删除节点时会导致数据分布不均衡，比如Node2宕机后，原先Node2的数据全部分布到Node3上，造成Node3的数据量大大多余其它节点；同理，当在区间B插入一个节点Node7时，会使得Node2和Node7的数据量大大小于其它节点。

为了解决上述问题，1.2版本使用带有虚拟节点的一致性哈西算法，如图下部所示，一共6个节点，每个节点需要计算两次hash，首先与传统一样计算Hash值a，然后根据这个值a计算多个hash值a1,a2,a3...，即将一个节点映射到多个hash值，从而每个节点不再仅仅对应一个区间，而是对应着许多小区间，如果保证各个hash值是随机的，则能使得这些小区间的分布也是随机的，从而确保了数据分布的均衡性

3. Gossip协议管理集群

每隔T秒，集群中各个节点将都会将自己的Heartbeat信息通过Gossip传递给其他节点。Gossip协议效率较高，只需要Log(N)次就能将所有节点状态信息传递给各个节点。

4. Cassandra的效率以及使用情况

张月给了张图，上面显示Cassandra读写速度远远大于Hbase和MongoDB，但是也有很多人质疑这个图，因为他没有给出这张图的实验条件，比如多大数据量，各个数据库是否在同一集群上等等。不过我后来查看了些文献，发现Cassandra的性能还是很不错的。

5. 讨论

会后有个问题：既然Cassandra性能这么出色，为什么国内很少有公司使用Cassandra？为什么国外的facebook和twitter等都弃用Cassandra而转用HBase了，Cassandra有什么不足？

张月的回答是国内的宣传不够，至于facebook和twitter为什么转用HBase，可能和HBase天生支持Hadoop有关系，可以结合mapreduce，虽然Cassandra也支持Hadoop，但是配置起来特别麻烦。

后来我网上查了下，Cassandra还是有一些缺点，或许因为这些使得很多大公司转向HBase。

a）Cassandra来源自Facebook，但是在Facebook内部Cassandra 目前只用在inbox search产品上，容量大约有一两百T，且Inbox Search在Facebook的也不是核心应用；

b）Cassandra出身较晚，自身还存在不少问题。

阅读(878) | 评论(0) | 转发(0) |

上一篇：mongodb drop不释放磁盘空间

下一篇：Warshall传递闭包算法的学习与实现

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6