Chinaunix首页 | 论坛 | 博客
  • 博客访问: 408706
  • 博文数量: 286
  • 博客积分: 11350
  • 博客等级: 上将
  • 技术积分: 5280
  • 用 户 组: 普通用户
  • 注册时间: 2012-06-01 10:15
文章分类

全部博文(286)

文章存档

2012年(286)

最近访客

分类: IT职场

2012-09-06 17:25:41

对于一个网站来说,获得百度的流量对于网站的运营是很重要的。但是想要获得百度的流量,专家认为,对于网站进行网站优化是一个不错的方法。可是优化的关键词也是有限的,如何实现更多的页面排名靠前呢?经过一段时间的调查发现,发现百度分词技术可以更好的实现我们的愿望。对于百度分词技术,我们总结为一下2点,希望对于大家有所帮助。

一、百度不会切分的词

对于用户查询的某一些词语,百度是不会切分的。为什么呢?因为一切分的话,那么将会完全转变了搜索者的意思。那么什么样的词语百度是不会切分的呢?我们认为凡是包含3个汉字含3个汉字以下,并且这三个汉字连在一起才能够表示完整的意思的词。比如“老鼠药”,我们查询了全部的百度搜索结果,都没有出现类似于“老鼠”+“药”的情况。

二、百度会切分的词

那么什么样的词语百度会切分呢?这就要求我们做实验了。经过一段时间的实验发现,我们认为4个汉字以上的词语,比如“临清金龙液压打包机”百度会将“临清”“金龙”“液压打包机”等分出来。

关于百度的分词技术,上面的两点只是百度分词技术中的一点皮毛,百度的现在算法有的很复杂,比如有有正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法等等。百度对于某一些词语会做专有名词处理,一般这样的词语是不会被切分的,对于某一些长一些的词语百度会切分为多种组合方法。

本文是吉恩创想专业人员精心打造,希望对大家有所帮助。我们站内还有更多网站建设、网站优化知识盘点,请大家时刻关注,更多内容敬请访问网站:

阅读(646) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~