分享

Latent Semantic Indexing : 隐性语义索引 | SEO探索

 石头狗 2009-07-23
2006/10/10 by HighDiy

  在Google最近一次更新后,许多网站发现自己在搜索结果页面中的排名大幅下降,很多以前能够出现在第一页的网页现在掉到了三、四页甚至十页开外,针对此的讨论在多家SEO论坛上很激烈。

  事实上,我们自己的网站也出现了类似的现象,在查询网站在Google补充结果中网页数量的方法一文中曾提到过,IT技术点评的排名下降幅度很大,来自Google的访问量损失了很多。虽然可能与上个月我们的服务器故障有关,如googlebot不能正常索引网页,导致部分网页被放入了补充结果,或者Google因此降低了IT技术点评的信任指数,但仅仅几天的服务器故障——甚至不是完全意义的停机,而只是IIS间歇性重启——竟能触发如此大的波动?仍然让人怀疑,尤其是考虑到处于同一服务器上的SEO探索Vista天地并没有表现出如此明显的趋势。

  在很多人的分析中,提到了这可能缘于在Google最近的排名算法调整中,将原先对最终网页排名影响微乎其微的Latent Semantic Indexing的权重大大提高,从笔者个人的角度看,似乎有一定道理。

  那么,应如何理解Latent Semantic Indexing?Latent Semantic Indexing怎样影响网站/网页在Google中的排名呢?

什么是Latent Semantic Indexing(隐性语义索引)?

  我们都知道,传统的搜索引擎算法基于关键词,——当然,这里所说的关键词,不仅仅指网页中的关键词,还包括链接Anchor Text中的关键词。——搜索引擎通过统计特定网页中关键词的位置、密度以及链接Anchor Text中的关键词甚至URL中的关键词,从而按照匹配程度给出与用户搜索项相关的结果,这是之前计算机发展水平下搜索引擎对“向用户提供所需内容”的最接近模拟。

  但是,我们必须看到,从自然语言的角度,即便不能说所有的词(或短语),但至少大部分词具有一词多义的特点,同时,自然语言也具有一义多词的特点,这样,搜索结果与用户的理想值便存在很大的距离:一词多义将导致基于精确匹配的搜索算法在结出的结果中包含很多并非用户真正要查找的内容,而一义多词则使用得基于精确匹配的搜索算法在给出的结果中遗漏很多用户真正要查找的内容。

  这个弊端是传统的搜索引擎算法所无法克服的,毕竟,机器算法是死的,就象施州长扮演的Terminator,无法做到像人那样理解、分析。虽然如今多家搜索引擎都在进行自然语言方面的研究,但客观地说,自然语言理解仍然停留在研究阶段,距真正能够使用可以信赖的地步还差得很远,甚至换个角度,就算自然语言理解发展到实用阶段,其效率能否可以保障还在未知之数,而对搜索引擎而言,效率也是必须考虑的因素,他们也不希望需投入更多的服务器及其他网络资源才能完成同样的任务,而如果让用户进行一次搜索需等上半天才能看到搜索结果则无异于搜索引擎的噩梦。——当然,这仅仅针对笨笨的Google,也许国产搜索引擎伟大的“中文分词技术”已经能够圆满地解决这个问题。 :)

  Latent Semantic Indexing (LSI : 隐性语义索引)便是搜索引擎试图尽可能弱化这一弊端的可行解决方案之一。Latent Semantic Indexing通过绕开自然语言理解,以大样本数量的统计分析找出不同的词(词组、短语)间的相关性,以使搜索结果进一步接近于用户真正要查找的内容,同时,也能够保证搜索的效率。

Latent Semantic Indexing(隐性语义索引)的机制

  单纯从理论上看,Latent semantic indexing (隐性语义索引)的实现机制并不复杂,它只不过是在正常的网页收录与索引过程中增添了一个步骤:不仅仅简单地统计、分析网页及链接中的关键词,还将该网页与索引数据库中其他包含相同关键词或部分相同关键词的网页进行比对,以确定不同网页间的语义相关性以及网页与特定关键词间的相关性,同时,将具有高语义相关性的网页进行比对分析,从中找出特定网页中存在关键词的相关项,即找出特定网页中虽然并不存在但与其内容相关的关键词。——这段话确实比较拗口,不知道我是否表述清楚了。 :oops:

  当然,具体实施的算法要复杂得多。需要注意的是,对Latent Semantic Indexing,可能大多数人注意的是其中的Semantic (语义有关的),但Latent Semantic Indexing方面的技术文档则往往更强调Latent (潜在的、隐含的),而非简单意义的语义相关。比如说对“水”一词而言,与其语义相关的可能是“热水”、“凉水”之类,但潜在相关的则可以是“蒸汽”、“冰”等,这里有很大区别。

  搜索引擎具体怎样完成类似的计算不是我们所关心的,但可以明显看出,虽然搜索引擎本身并不知道某个词究竟代表什么,不知道某个词是什么意思,但通过Latent Semantic Indexing算法,与单纯的关键词匹配相比,搜索引擎能够以一种更准确的方式判断特定网页中内容与搜索项间的相关性,从而给出用户要寻找的内容,甚至从某种角度上看,更接近于“人”分析、查找内容时的判断方式。

Google算法中的Latent Semantic Indexing(隐性语义索引)

  一般认为,Google最先将Latent Semantic Indexing(隐性语义索引)用于其AdWords/AdSense广告系统,用于分析特定网页与广告之间的相关性,从而将最具有文本相关性的广告投放到特定网页上。随后才将其引入到排名算法中,不过,在最初的时候,其权重很小,在去年开始的Jagger与BigDaddy更新中逐步提升其权重。

  究其原因,也许是因为最初的Latent Semantic Indexing(隐性语义索引)算法并不完善,用于Adsense固然可以但若用于排名则会出现问题,而随着算法的不断改进才在排名算法中逐步提高它的影响。毕竟,Latent Semantic Indexing只是电脑进行的模拟,而不是真正意义上的自然语言分析,其结果仍与搜索引擎的目标存在距离。

  需要再次强调的是,Latent Semantic Indexing(隐性语义索引)只是目前搜索引擎排名算法中关键词匹配技术的补充,从乐观的角度甚至可以说是非常有意义的补充,但绝不是取代现有的关键词匹配算法

Latent Semantic Indexing(隐性语义索引)如何影响排名?

  这需要从两个方面看,首先,引入Latent semantic indexing (隐性语义索引)及提高其权重,将会降低部分网页在SERP中的排名,特别是那些针对特定关键词但未涉及与其“语义相关”或“潜在”关键词的网页,这样,一个之前优化良好,如具有最佳的关键词密度等,在纯粹的关键词匹配算法中排名领先的网页可能会搜索结果页面的前几页彻底消失。

  其次,同样的影响还存在于链接Anchor Text中,如果一个网站/网页反相链接的Anchor Text大都使用同样的关键词,链接自身应有的价值会大幅缩水。

如何应对Latent Semantic Indexing(隐性语义索引)?

  应该说,从IT技术点评的具体情况看,尤其是将其与SEO探索相比,个人感觉将最近的排名下降归结到Latent Semantic Indexing(隐性语义索引)权重提高的影响,还是有一定道理的。——具体分析在此从略。 :D

  那么,应如何应对Latent Semantic Indexing(隐性语义索引)呢?

  老实说,这里给出的只能是根据上述介绍而得出的分析,或者说臆测,是否可行有待验证。

  首先,要保证网站的排名,需要为核心关键词选定一系列的周边关键词,就象很多企业注册域名(或商标)时除要使用的域名(或商标)外还要注册一批保护域名(或商标)那样,以更有效地保护核心关键词,同时,将周边关键词恰当地放入相应网页内,或者针对这些周边关键词建立相应的内容。当然,这些周边关键词需与核心关键词语义相关或具有一定程度上的联系。

  其次,适当变换反相链接的Anchor Text,不仅要让核心关键词出现在Anchor Text中,也要保证周边关键词在Anchor Text中出现的频率。那种反相链接关键词统统使用网站名称或核心关键词的作法是不可取的。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多