Chinaunix首页 | 论坛 | 博客
  • 博客访问: 960019
  • 博文数量: 134
  • 博客积分: 7443
  • 博客等级: 少将
  • 技术积分: 1411
  • 用 户 组: 普通用户
  • 注册时间: 2007-02-10 20:18
文章分类

全部博文(134)

文章存档

2012年(7)

2011年(29)

2010年(16)

2009年(6)

2008年(18)

2007年(58)

分类: IT业界

2011-08-01 15:53:06

互联网上各种信息泛滥,真假难辨。许多时候不是找不到信息,而是信息太多,而无法判断消息的真实可靠性,权威性。对资讯类的信息找到事件的来源,是判断其可靠性的有效办法。然而google搜索的PageRank算法,是把最大引用的排名靠前,对资讯类的信息,这是不合适的。因为许多信息的传播都多是拷贝粘贴,不一定最初发消息的地方Page的级别就会高。google+的办法也不行,因为更不一定推荐的人多的就是“原始帖”。要搜索一个资讯的根源,应该使用一个全新的搜索算法。这个新的搜索算法,要把相似说法的咨询模糊归类,考虑信息出现的最早的那一版本,要智能判断谁“复制”的谁,不能只考虑整篇的复制,考虑部分文字的引用,甚至考虑语义上的参考。
阅读(1120) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~