博客首页 注册 建议与交流 排行榜 加入友情链接
推荐 投诉 搜索: 帮助

MANIAC

逝去的时光,奔腾的流水,放浪的生涯,燃烧的梦想,繁繁茫茫的人海,漂泊流浪的我...
  maniac.cublog.cn

关于作者
小时候一直以为我跟别人不一样,原来长大以后,每个人都一样.要么忙着活,要么忙着死,只有这两种选择.

QQ    396002399
MSN   00ahui@gmail.com
EMAIL 00ahui@gmail.com
|| << >> ||
我的分类


网页排重 -- 简单易行的Charikar算法
最近在做网页排重(排除重复,deduplicate),使用的是Moses S. Charikar在其论文Similarity Estimation Techniques from Rounding Algorithm中提到的随机映射(Random Projection)算法,算法本身很简单,先给每个词语(Token)生成随机的特征向量,保存为一个集合,然后对网页正文进行分词,得到一系列的词语,从词语的特征向量集合中取出这些词语的特征向量(如果词语不在在集合中,那么给词语生成一个随机的特征向量,将其加入集合),将这些特征向量按位进行一个特殊的加运算,最后得到网页的特征向量。判断两个网页是否具有相似或重复内容就可以通过判断它们特征向量相同的位数(bit)来进行。Monika Henzinger在其论文Finding Near-Duplicate Web Pages: A Large-Scale Evaluation of Algorithms中通过大量实验给C算法提供了合理的参数,另外他还比较了Andrei Z. Broder算法和Charikar算法的优略,并提出了一个先使用B算法找出相似对然后再使用C算法进行过滤的网页排重方案。

 TAG 网页重复判断 网页排重 deduplicate
发表于: 2007-12-16,修改于: 2007-12-16 13:59,已浏览366次,有评论0条 推荐 投诉


网友评论
 发表评论