新闻搜索算法-cuichaox-ChinaUnix博客

崔超的思想备忘录（只有原创和翻译）cuichao.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

cuichaox

博客访问： 972609
博文数量： 134
博客积分： 7443
博客等级：少将
技术积分： 1411
用户组：普通用户
注册时间： 2007-02-10 20:18

文章分类

全部博文（134）

评论（2）
UI设计（1）
待整理（75）
日记（6）
翻译（1）
灵感和顿悟（19）
总结（14）
算法（5）
专题（1）
个人项目（1）
设计模式（9）
未分配的博文（0）

文章存档

2012年（7）

2011年（29）

2010年（16）

2009年（6）

2008年（18）

2007年（58）

我的朋友

最近访客

推荐博文

新闻搜索算法

分类： IT业界

2011-08-01 15:53:06

互联网上各种信息泛滥，真假难辨。许多时候不是找不到信息，而是信息太多，而无法判断消息的真实可靠性，权威性。对资讯类的信息找到事件的来源，是判断其可靠性的有效办法。然而google搜索的PageRank算法，是把最大引用的排名靠前，对资讯类的信息，这是不合适的。因为许多信息的传播都多是拷贝粘贴，不一定最初发消息的地方Page的级别就会高。google+的办法也不行，因为更不一定推荐的人多的就是“原始帖”。要搜索一个资讯的根源，应该使用一个全新的搜索算法。这个新的搜索算法，要把相似说法的咨询模糊归类，考虑信息出现的最早的那一版本，要智能判断谁“复制”的谁，不能只考虑整篇的复制，考虑部分文字的引用，甚至考虑语义上的参考。

阅读(1151) | 评论(0) | 转发(0) |

上一篇：突破创新的障碍

下一篇：我猜测通用操作系统今后会专用化

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6