2011年(395)
分类:
2011-03-30 21:57:04
我们平时找信息都是通过输入数据来获得,也就是我们常说的关键词,搜索引擎对于输入的关键词是如何工作的,是直接通过这个词来找,还是要把这些词分开,进行相关的比对再从数据库中找,然后再根据这次词来进行排名,很多人对这个工作原理还不是很清楚,笔者因为在SEO优化行业工作多年,对于搜索引擎的分词原理也有了一定的了解,下面就把我的理解写下来跟大家讨论一下!
一:首先就是分词,这是搜索引擎都要做的工作,因为我们在搜索框里面输入的词有时候是短语,有时候就是一个完整的句子,很少是用词组来直接搜索的,所以搜索引擎在正式工作之前要把输入的短语或者句子进行切分,然后把这些字符串变成词组的组合,不能够再分割了,然后在通过预处理的数据库进行查询和比对,把符合这些词的数据返回给用户,这个分词其实和页面分词差不了多少!
二:去掉停止词,所谓停止词都是一些没有实际意义的词,比如一些啊,哦等等语气词,这些词往往会在搜索的时候被输入搜索框里面,此时搜索引擎在正式和数据库比对的时候会把这些没有意义的停止词取消然后保证搜索的准确性!
三:如何处理指令,对于搜索引擎处理搜索命令式,会把很多默认的词组变成一个短语来进行搜索,这样能够保持较高的准确性,比如你在搜索框里面输入xx减肥xx网站,此时实际上被执行的命令是减肥网站,而不是全部的xx减肥xx网站返回结果,但是往往会返回一些单独的这些词的内容,比如单独的减肥内容等等!另外指令执行的时候还要粗粒各种高级的搜索命令,比如特定的标识符,如加减号等等!
四:对输入词的矫正,因为汉字很多都有谐音,有时候写词组还很容易出现错别字,这时候搜索引擎往往也能够返回正确的结果来,这就是因为搜索引擎在分词的过程中,将一些错别字给矫正过来了,而且在返回的结果页面的上方还会出现纠正后的正确词组出来!如图:
五:分类区分对待,不同的词语会不同的对待,这是搜索引擎的一个独特功能,如果你搜索的一般的关键词,那么返回的结果就是一般的网页,而如果你搜索的是新闻热词或者明星关键词时往往返回的就是相关的新闻源,所以搜索引擎在这方面的智能是相当高的!
上面就是笔者对于搜索引擎对关键词的工作原理从五个方面进行了简单的介绍,虽然这个原理对于我们做网站没有直接的关系,但是在网站的优化方面还是有很大帮助到,毕竟涉及到关键词的分析和选择,所以认识这个原理对于我们个人站长们来说也是非常必要的!
本文源自: