Chinaunix首页 | 论坛 | 博客
  • 博客访问: 61115
  • 博文数量: 40
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 571
  • 用 户 组: 普通用户
  • 注册时间: 2013-03-07 15:44
文章分类

全部博文(40)

文章存档

2013年(40)

我的朋友

分类: IT业界

2013-06-03 09:27:34

第一、首先分词:分词是一大特色,无论我们输入的是长句子或者是短语,搜索引擎都会把这些词语进行切分,将这些搜索的字符串切分成以词为基础的关键词组合。只要这样,才能更好的通过自己已经预处理后的数据库进行查询和比对,把所有符合这些词的也没列举返回给用户。这个分词和页面分词的原理有些类似。
  第二、去停止词:我们在搜索时候带有很多的主观性,很多时候把口语话的一些词语都用在了搜索词上,但这次词往往对要搜索的内容没有实质性的帮助,但我们已经养成了输入这些词的习惯,所以搜索引擎必须要能去停止词,最大程度上保证搜索的准确率以及相关性。
  第三、指令的处理:平时我们在搜索时会输入多个词语,其实默认的情况下,搜索引擎把多个默认的词语都按照“与”来进行词语。比如你搜索“”“网站”时,引擎会默认我们输入的“减网站”来进行处理,单独包含“减肥”或者“网站”的内容理论上将不会返回,但实际情况往往也会出现单独包含一个词语的网站。另外,还要处理各种高级搜索指令的词语,比如加号减号等。
  第四、错误矫正:很多时候我们输入都会存在错误的问题,拼音本来谐音就比较多,输错也实属正常,但如果搜索引擎不进行纠错的话,就会返回很多我们不希望看到的结果。所以,有时候我们即使输入的全拼,搜索引擎也会根据这个来提示正确的中文。
  第五、分类对待:不同词语一般是不同对待的,这是搜索引擎的一个特色功能。比如我们搜索一般性的关键词,返回的一般以网页居多,而当我们搜索一个明星的名字,则会出现很多新闻网络营销、视频、图片等综合的搜索结果。所以,搜索引擎要根据用户的需求去进行判断。
阅读(583) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~