关于LevelDB-LaoLiulaoliu-ChinaUnix博客

miraclemiracle.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

laoliulaoliu

博客访问： 4663584
博文数量： 1214
博客积分： 13195
博客等级：上将
技术积分： 9105
用户组：普通用户
注册时间： 2007-01-19 14:41

个人简介

C++,python,热爱算法和机器学习

文章分类

全部博文（1214）

cloud（3）
operation（9）
tornado（4）
mac_os（1）
golang（4）
架构（13）
git（4）
security（29）
shell（1）
macbook（1）
ruby（13）
javascript（15）
design（3）
testing（1）
mac（1）
bigdata（69）
nosql（46）
R（9）
gcj/acm（6）
NLP（10）
小说（3）
matlab（4）
web（44）
java（66）
product（7）
c#（1）
language（4）
machine learning（76）
science（4）
opencourse（2）
windows（3）
search（33）
algorithm（65）
database（51）
compiler（11）
ACE（5）
poem（1）
programming（29）
python（140）
assembly（1）
linux（49）
C++（16）
book（2）
cate（1）
phliosophy（3）
mental（30）
Science fiction（1）
Software（5）
c（23）
network（65）
CS（15）
thinking（10）
BSD（13）
solaris10（2）
life（57）
Debian（16）
economy（7）
Mathematics（57）
OS（8）
ibm（2）
gentoo（32）
未分配的博文（8）

文章存档

2021年（13）

2020年（49）

2019年（14）

2018年（27）

2017年（69）

2016年（100）

2015年（106）

2014年（240）

2013年（5）

2012年（193）

2011年（155）

2010年（93）

2009年（62）

2008年（51）

2007年（37）

我的朋友

相关博文

关于LevelDB

分类： NOSQL

2014-01-06 16:06:43

文章来源：http://blog.sina.com.cn/s/blog_593af2a70100ztjn.html

1）关于max_open_files

LevelDB的默认打开文件数为1000，低于linux默认的1024最大文件打开数。

在完成插入记录做库时，前3亿条插入都非常快速，后面则非常龟速，如果你把默认打开文件调大到10000，则做库完数据（总共7亿数据）不可查，返回Corruption: partial record without end错误，全库作废，无法使用。(这个bug是在ulimit -n 65535的情况下，即系统支持的最大打开文件数远大于10000）.

结论：慎用options.max_open_files这个option选项。可能有bug。

2）还是max_open_files

如果插入的记录非常多，LevelDB会吃满1000个文件句柄的份额，还有其他系统进程需要文件句柄，因此，如果在你的程序中在插入到一定记录量时（1000个文件句柄用尽时），整个系统可用文件句柄也耗尽，如果此时程序要打开其他文件就会报错，因此必须把系统最大打开文件数调大，而leveldb在运行时默认系统有足够多的文件句柄。

另外要指出，如果你在正常情况下ulimit -n 65535情况下做库（比如有9000个sst），并且能查到记录，如果再ulimit -n 1024一下，则整个库废掉，不能查询，这个太诡异，应该属于明显bug。

结论：用LevelDB时ulimit -a一下，看看你机器上最大文件打开数，如果是1024，没有调过的，就直接调到65535吧。因为ulimit -n是只对当前batch有效，所以要调的彻底，在bashrc里面加上，ulimit -HSn 65535这一条。

3）sst文件的大小

LevelDB的sst文件大小默认是2M起，如果想入库时把这个搞大，只需要把options.write_buffer_size搞大，比如options.write_buffer_size = 100000000。这样一上来sst就是32M起。大规模数据入库，速度会快到惊人，有多快呢，把我的THUIRDB也打败了（在7亿数据量插入的情况下）。

结论：write_buffer可以调大，可以让写的次数降低，写的强度提高

4）batch写入

LevelDB加快写操作还可以用batch写入的方式，我尝试了用4096个记录打一个batch写入，从sst文件看，是直接将这个batch看做一个整体插入的，如果你有40960条记录，4096个记录打一个batch，其实对于leveldb只看到10次真正的插入，这每次插入的数据都是明文可见的，vim一个sst就能看到。

结论：多大batch为好，要根据实验，有batch可以加快做库过程

以上是我的一些经验，在一个7.2亿条记录插入的数据集上获得，数据集17GB，key是一个在1-73字节的变长的且符合正态分布的string，value是6-11字节的一个变长string，记录下来，仅供朋友们参考。

阅读(958) | 评论(0) | 转发(0) |

上一篇：leveldb性能分析和表现

下一篇：hadoop2.3.0单点伪分布与多点分布的配置

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6