大规模网页快速消重中网页特征的提取-yjfx77-ChinaUnix博客

御剑飞翔

首页　| 　博文目录　| 　关于我

yjfx77

博客访问： 170579
博文数量： 33
博客积分： 2015
博客等级：大尉
技术积分： 317
用户组：普通用户
注册时间： 2009-12-15 17:01

文章分类

全部博文（33）

ACM算法（1）
笔试面试（2）
数据库（1）
Xen和虚拟化（5）
心语（1）
Conll（1）
信息处理（5）
算法研究（4）
C/C++（7）
linux（6）

高级bash脚本编程（1）
未分配的博文（0）

文章存档

2010年（23）

2009年（10）

我的朋友

相关博文

大规模网页快速消重中网页特征的提取

分类： C/C++

2010-02-24 20:56:33

从网上找的一般处理方法：
（1）最原始的使用文本相似度判别，相当准确，但是计算速度慢，提高的方法无非是先索引进行预处理，或者用SVD来降维减少矩阵运算时间
（2）文本摘要为文本特征，进行特征重复判别
（3）抽取文本关键词，构成比较小的文本向量做为特征进行判别
以上3中算法的共性是要分词，中文分词博大精深，效果越好速度越慢这是铁律，但具体还要看分词算法的设计。所以这部分时间的消耗以上3中方法是无可避免的必须进行的步骤。
而我所考虑的是从句子的角度，但如果单个句子的特征，特征未免单一，而不具有代表性，句子多了又可能，造成特征过于复杂和容错性能的下降，毕竟我们通过自动抽取的网页正文不能保证100%无任何噪音和抽取失误带来的原文缺失。在这个角度上我们进一步考虑是否能有更好的方法呢？传统中文断句，我们主要依赖于标点符号，那我的想法就是标点符号左右的汉字已经能有很强的代表性来作为句子的特征，而句子又能作为文本的特征，因此尝试了取逗号句号感叹问号左右2边各2个汉字或英文作为特征，来进行文本表示。全文按照标点符号取出汉字后构成了1个比较长的串，但为了信息指纹的需要，我们必须考虑容错性的问题，这个串如果直接HASH，有可能因为噪音的加入产生巨大的偏差，因此我对这个长串做了截断的处理，同时考虑一般标题的信息含量很高，单独认为标题也成为1个字串，指纹特征就变成了1个标题的HASH码 3个截断后的子串HASH码同时标题的权重为1.5 其他子串权重为1.0 阀值设定为3 这样如果有标题相同并有2个字串相同的文章我们就认为是重复，或者标题不相同 3个字串完全相同的是重复。具体消重特征判别，是使用数据库的内存表还是BLOOMFILTER之类的算法就随便你了。
当然以上算法的前提是正文和标题抽取的准确如果噪音过多，这个算法可能降低到一个完全无法应用的程度，怎么提高该算法的在噪音比较高情况下的容错性，该是各位看官自己考虑的问题了

阅读(1447) | 评论(0) | 转发(0) |

上一篇：贝叶斯算法(bayesian)在反垃圾邮件中的应用

下一篇：最大熵模型和条件随机场

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6