Chinaunix首页 | 论坛 | 博客
  • 博客访问: 3364916
  • 博文数量: 530
  • 博客积分: 13360
  • 博客等级: 上将
  • 技术积分: 5473
  • 用 户 组: 普通用户
  • 注册时间: 2006-07-13 13:32
文章分类

全部博文(530)

文章存档

2017年(1)

2015年(2)

2013年(24)

2012年(20)

2011年(97)

2010年(240)

2009年(117)

2008年(12)

2007年(8)

2006年(9)

分类: 项目管理

2009-12-06 21:25:22

by baiheinet on 四月 27th, 2009

最近研究我的,我没有一个做“工程施工论坛”
却排名,why? 百度的分词技术已经很好了,知道论坛=社区了

我们都知道,传统的算 法基于关键词,——当然,这里所说的关键词,不仅仅指网页中的关键词,还包括链接Anchor Text中的关键词。——搜索引擎通过统计特定网页中关键词的位置、密度以及链接Anchor Text中的关键词甚至URL中的关键词,从而按照匹配程度给出与用户搜索项相关的结果,这是之前计算机发展水平下搜索引擎对“向用户提供所需内容”的最 接近模拟。

  但是,我们必须看到,从自然语言的角度,即便不能说所有的词(或短语),但至少大部分词具有一词多义的特点,同时,自然语言也具有一义多词的特 点,这样,搜索结果与用户的理想值便存在很大的距离:一词多义将导致基于精确匹配的搜索算法在结出的结果中包含很多并非用户真正要查找的内容,而一义多词 则使用得基于精确匹配的搜索算法在给出的结果中遗漏很多用户真正要查找的内容。

  这个弊端是传统的搜索引擎算法所无法克服的,毕竟,机器算法是死的,就象施州长扮演的Terminator,无法做到像人那样理解、分析。虽然 如今多家搜索引擎都在进行自然语言方面的研究,但客观地说,自然语言理解仍然停留在研究阶段,距真正能够使用可以信赖的地步还差得很远,甚至换个角度,就 算自然语言理解发展到实用阶段,其效率能否可以保障还在未知之数,而对搜索引擎而言,效率也是必须考虑的因素,他们也不希望需投入更多的服务器及其他网络 资源才能完成同样的任务,而如果让用户进行一次搜索需等上半天才能看到搜索结果则无异于搜索引擎的噩梦。——当然,这仅仅针对笨笨的Google,也许国 产搜索引擎伟大的“中文分词技术”已经能够圆满地解决这个问题。

  Latent Semantic Indexing (LSI : 隐性语义索引)便是搜索引擎试图尽可能弱化这一弊端的可行解决方案之一。Latent Semantic Indexing通过绕开自然语言理解,以大样本数量的统计分析找出不同的词(词组、短语)间的相关性,以使搜索结果进一步接近于用户真正要查找的内容, 同时,也能够保证搜索的效率。

Latent Semantic Indexing(隐性语义索引)的机制
  单纯从理论上看,Latent semantic indexing (隐性语义索引)的实现机制并不复杂,它只不过是在正常的网页收录与索引过程中增添了一个步骤:不仅仅简单地统计、分析网页及链接中的关键词,还将该网页 与索引数据库中其他包含相同关键词或部分相同关键词的网页进行比对,以确定不同网页间的语义相关性以及网页与特定关键词间的相关性,同时,将具有高语义相 关性的网页进行比对分析,从中找出特定网页中存在关键词的相关项,即找出特定网页中虽然并不存在但与其内容相关的关键词。——这段话确实比较拗口,不知道 我是否表述清楚了。

  当然,具体实施的算法要复杂得多。需要注意的是,对Latent Semantic Indexing,可能大多数人注意的是其中的Semantic (语义有关的),但Latent Semantic Indexing方面的技术文档则往往更强调Latent (潜在的、隐含的),而非简单意义的语义相关。比如说对“水”一词而言,与其语义相关的可能是“热水”、“凉水”之类,但潜在相关的则可以是“蒸汽”、“ 冰”等,这里有很大区别。

  搜索引擎具体怎样完成类似的计算不是我们所关心的,但可以明显看出,虽然搜索引擎本身并不知道某个词究竟代表什么,不知道某个词是什么意思,但 通过Latent Semantic Indexing算法,与单纯的关键词匹配相比,搜索引擎能够以一种更准确的方式判断特定网页中内容与搜索项间的相关性,从而给出用户要寻找的内容,甚至 从某种角度上看,更接近于“人”分析、查找内容时的判断方式。

Google算法中的Latent Semantic Indexing(隐性语义索引)
  一般认为,Google最先将Latent Semantic Indexing(隐性语义索引)用于其AdWords/AdSense广告系统,用于分析特定网页与广告之间的相关性,从而将最具有文本相关性的广告投 放到特定网页上。随后才将其引入到排名算法中,不过,在最初的时候,其权重很小,在去年开始的Jagger与BigDaddy更新中逐步提升其权重。

  究其原因,也许是因为最初的Latent Semantic Indexing(隐性语义索引)算法并不完善,用于Adsense固然可以但若用于排名则会出现问题,而随着算法的不断改进才在排名算法中逐步提高它的 影响。毕竟,Latent Semantic Indexing只是电脑进行的模拟,而不是真正意义上的自然语言分析,其结果仍与搜索引擎的目标存在距离。

  需要再次强调的是,Latent Semantic Indexing(隐性语义索引)只是目前搜索引擎排名算法中关键词匹配技术的补充,从乐观的角度甚至可以说是非常有意义的补充,但绝不是取代现有的关键词匹配算法。

Latent Semantic Indexing(隐性语义索引)如何影响排名?
  这需要从两个方面看,首先,引入Latent semantic indexing (隐性语义索引)及提高其权重,将会降低部分网页在SERP中的排名,特别是那些针对特定关键词但未涉及与其“语义相关”或“潜在”关键词的网页,这样, 一个之前优化良好,如具有最佳的关键词密度等,在纯粹的关键词匹配算法中排名领先的网页可能会搜索结果页面的前几页彻底消失。

  其次,同样的影响还存在于链接Anchor Text中,如果一个网站/网页反相链接的Anchor Text大都使用同样的关键词,链接自身应有的价值会大幅缩水。

如何应对Latent Semantic Indexing(隐性语义索引)?
  应该说,从IT技术点评的具体情况看,尤其是将其与SEO探索相比,个人感觉将最近的排名下降归结到Latent Semantic Indexing(隐性语义索引)权重提高的影响,还是有一定道理的。——具体分析在此从略。

  那么,应如何应对Latent Semantic Indexing(隐性语义索引)呢?

  老实说,这里给出的只能是根据上述介绍而得出的分析,或者说臆测,是否可行有待验证。

  首先,要保证网站的排名,需要为核心关键词选定一系列的周边关键词,就象很多企业注册域名(或商标)时除要使用的域名(或商标)外还要注册一批 保护域名 (或商标)那样,以更有效地保护核心关键词,同时,将周边关键词恰当地放入相应网页内,或者针对这些周边关键词建立相应的内容。当然,这些周边关键词需与 核心关键词语义相关或具有一定程度上的联系。

  其次,适当变换反相链接的Anchor Text,不仅要让核心关键词出现在Anchor Text中,也要保证周边关键词在Anchor Text中出现的频率。那种反相链接关键词统统使用网站名称或核心关键词的作法是不可取的。

阅读(2641) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~