Chinaunix首页 | 论坛 | 博客
  • 博客访问: 638096
  • 博文数量: 43
  • 博客积分: 1108
  • 博客等级: 少尉
  • 技术积分: 1852
  • 用 户 组: 普通用户
  • 注册时间: 2012-03-18 16:33
文章分类

全部博文(43)

文章存档

2012年(43)

分类: 系统运维

2012-03-19 10:03:20

 我一直希望能够通过一种手段统计出目前博客世界的一些情况,比如现在中文博文大约总数有多少。 比如中国的博客总数有多少,比如博客中的色情狂有多少等等严肃的学术问题。出于这个目的,着手进行 调查,本文主要探讨中文博文数量的总体估计以及各个博客搜索引擎的索引量的评估。

调查目的:目前各个博客搜索引擎索引博文数量范围。由此推出可能的中文博文数量; 调查方法:抽样调查法。我自己建立一个小的博客搜索引擎,索引博文5000条,然后 挑选高频,中频和低频的词汇作为查询词汇,看看5000篇文章包含多少相关 文章,然后再和目前博客搜索引擎返回的结果数量对比,由此推算出现有博客搜索引擎的索引量。
这5000篇相当于对博客世界进行抽样,由于词汇的分布在语料集合里面基本 符合Zipf分布,所以其在不同大小的语料集合的相对比例是满足Zipf分布。而其纵向比较基本能够估算出其索引数量的大小。
调查范围:自己的5000数据集;百度博客搜索;奇虎博客搜索;有道博客搜索;souyo博客搜索

示例:
这里给出部分查询的数据对比信息,真实的查询要大于给出的例子。其中, 横坐标代表查询词,比如“李湘”等代表提交给搜索引擎的查询词;纵坐标是搜索引擎;其中数据代表:有多少文章包含这个查询词,比如 第一个5代表我自己的5000数据中有5篇文章包含查询"李湘".


李湘 黄健翔 研究生 大学 李宇春

5000数据: 5 80 53 452 25

百度: 45000 103000 608000 905,000 168,000

奇虎: 34775 83886 456969 4,233,610 102,117

souyo: 1434 1581 10060 121149 3032

有道: 11600 30200 130100 107万 3万7800


估算结果:


1.平均来说,查询奇虎的返回结果大约是我的5000数据集合返回结果的1万倍左右。所以估计奇虎的索引量
大约是5000*1万=5000万条博文。
2. 百度:大约6000-7000万条
3.有道:大约2000倍左右,5000*2000=1000-1500万左右索引量
4. souyo: 大约200-300倍之间:5000*200=100万-2百万之间索引量



排序:百度》奇虎》有道》souyo

奇虎的索引量大约是百度的80%,有道大约是奇虎的30%,souyo大约是有道的10%-15%


百度一贯多报查询结果,比如“芭比机器”,返回显示结果1000条,实际上只有760条。所以适当给百度的数量缩水,其索引数量
应该和奇虎基本相当;也就是说,目前中文博文数量大约是5000万条左右。

 
 /*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/
博客搜索引擎索引博文数量分析与评估

CopyMiddle:张俊林
TimeStamp:2007/1/25
阅读(3567) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~