分享

什么是seo?我们先从搜索引擎技术架构聊起

 昵称30086806 2018-08-29

SEO是英文Search Engine Optimization的缩写,中文译为“搜索引擎优化”。简单地说,SEO是指从自然搜索结果获得网站流量的技术和过程。更严谨些的定义可以表述为:SEO是指在了解搜索引擎自然排名机制的基础上,对网站进行内部及外部的调整优化,改进网站在搜索引擎中的关键词自然排名,获得更多流量,从而达成网站销售及品牌建设的目标。

定义很容易理解,实践中却有些迷惑。SEO博客、论坛上都有大量SEO技巧、经验分享,但其实仔细想来这些技巧都不是SEO独特的东西,或者说就没有一种真正叫SEO的东西。

什么是seo?我们先从搜索引擎技术架构聊起

  1. 搜索引擎的分类

    搜索引擎按其工作方式主要可分为三种:全文搜索引擎(Full Text Search Engine)
    目录索引类搜索引擎(Search Index/Directory)
    元搜索引擎(Meta Search Engine)。

  2. 全文搜索引擎

    全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。

    在搜索引擎分类部分提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天), 蜘蛛搜索引擎搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。

    当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度、出现的位置、频次、链接质量——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。这种引擎的特点是搜全率比较高。

  3. 目录索引

    虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。(更简单说就是网址导航网站)
    用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。

    与全文搜索引擎相比,目录索引有许多不同之处。
    首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。 目录索引其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象Yahoo这样的超级索引,登录更是困难

    此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。
    目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。

    目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而象 Yahoo! 这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围(注)。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如中国的搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。这种引擎的特点是找的准确率比较高。

  4. 元搜索引擎

    元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。

    除上述三大类引擎外,还有以下几种非主流形式:

  5. 垂直搜索引擎

    垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),如国内的酷讯,去哪儿,携程等。在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。

    • 集合式搜索引擎集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。
    • 门户搜索引擎门户搜索引擎:AOLSearch、MSNSearch等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。
    • 免费链接列表免费链接列表(Free For All Links简称FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。
  6. 搜索引擎的技术架构

    • 优秀的搜索引擎需要复杂的架构和算法,以 此来支撑对海量数据的获取、存储,以及对用户查询的快速而准确地响应。
    • 从架构层面,搜索引擎需要能够对以百亿计的海量网页进行获取、存储、处理的能力,同 时要保证搜索结果的质量。
    • 如何获取、存储并计算如此海量的数据?
    • 如何快速响应用户的査 询?
    • 如何使得搜索结果能够满足用户的信息需求?

这些都是搜索引擎面对的技术挑战。 下图是一个通用的搜索引笨架构示意图

 
 

1、抓取网页:

搜索引擎的信息源来自于互联网网页,通过网络爬虫将互联网的信息获取到本地. 因为互联网页面中有相当大比例的内容是完全相同或者近似重复的,“网页去重”模块会对此做出检測,并去除重复内容

2、建立索引:

抓取到网页后,搜索引擎会对网页进行解析,抽取出网页主体内容和相关信息,(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等)。根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页建立索引。为了加快响应用户査询的速度,网页内容通过”倒排索引”这种高效查询数据结构来保存,而网页之间的链接关系也会予以保存。之所以要保存链接关系,是因为这种关系 在网页相关性排序阶段是可利用的,通过”链接分析”可以判断页面的相对重要性,对于为用 户提供准确的搜索结果帮助很大

由于网页数量太多,搜索引擎不仅需要保存网页原始信息,还要存储一些中间的处理结果 使用单台或者少量的机器明显是不现实的。Google等商业搜索引擎为此开发了一整套云存储与 云计算平台,使用数以万计的普通廉价PC搭建了海量信息的可靠存储与计算架构,以此作为搜索引擎及其相关应用的基础支撑。优秀的云存储与云计算平台已经成为大型商业搜索引擎的核心竞争力。 上面所述是搜索引擎如何获取并存储海量的网页相关信息,这些功能因为不需要实时计算,所以可以被看做是搜索引擎的后台计算系统。

3、查询词分析

搜索引擎的最重要目的是为用户提供准确全面的搜索结果,如何响应用户査询并实时地提供准确结果构成了搜索引擎前台计算系统。 当搜索引擎接收到用户的査询词后,首先需要对查询词进行分析,希望能够结合查询词和用户信息来正确推导用户的真正搜索意图。在此之后,首先在缓存中査找,搜索引擎的缓存系统存储了不同的查询意图对应的搜索结果,如果能够在缓存系统找到满足用户需求的信息,则可以直接将搜索结果返回给用户,这样既省掉了重复计算对资源的消耗,又加快了响应速度;

4、搜索结果排序:

如果保存在缓存的信息无法满足用户需求,搜索引擎需要调用”网页排序”模快功能,根据用户的査询实时计算哪些网页是满足用户信息需求的,并排序输出作为搜索结果。而网页排序最重要的两个参考因素中,一个是内容相似性因素,即哪些网页是和用户查询密切相关的;另外 一个是网页重要性因素,即哪些网页是质量较好或者相对重要的,这点往往可以从链接分析的结果获得。结合以上两个考虑因素,就可以对网页进行排序,作为用户查询的搜索结果。

其实细心的小伙伴会发现,除了以百度、谷歌为代表的搜索引擎(全文搜索引擎)外,各大门户网站都有自己研发的搜索引擎,比如58同城自研搜索引擎E-search,淘宝网的Pora(Personal Offline Realtime Analyze ‘千人千面’),京东自研搜索引擎,此外当当网、腾讯社区、一点资讯,今日头条 都有自己的搜索引擎技术,各家搜索引擎各有千秋,淘宝网搜索引擎技术完全可以和百度媲美。

 

综上所述,博主给总结出两点 :网页排序最重要的两个参考因素中,一个是内容相似性因素,即哪些网页是和用户查询密切相关的;另外一个是网页重要性因素,即哪些网页是质量较好或者相对重要的,这点往往可以从链接分析的结果获得。结合以上两个考虑因素,就可以对网页进行排序,作为用户查询的搜索结果,你GET到了吗?

明白了搜索引擎的原理,我们再进行以下工作,做起来可能目标更清晰,更系统:

 

关键词分析

其实也就是市场调查和行业竞争对手调查。做任何一个生意,不都得做用户需求调查,竞争对手调查吗?只不过工具不同,做SEO的关键词分析是看关键词搜索次数和返回竞争页面多少。

除非你是天才,或者有VC投资,花别人的钱办自己的事,不然甭管干什么,都得先做一下调查。

网站架构优化

合理清晰的内部结构,利于搜索引擎抓取,利于用户浏览的内部链接,说到底其实就是个技术问题。告诉技术人员搜索引擎必须抓取网站页面,哪些东西不利于抓取,技术人员自然就会按规范去做,他甚至不必知道SEO这个词。

页面优化

这也是个最基本的写作文的要求。你不可能把初一到初六所写的作文都叫“我的作文”,总得分成“我的爸爸”,“游香山”,“读红岩有感”等不同的题目吧。优化页面Title标签讲的也就是这个。

页面上其他该做的关键词优化,完全和写作文的基本要求没区别,上好中学语文就可以了。

外部链接建设

这根本就应该是公司公关部门和市场部门的副产品。不知道大家是否注意访谈小鹏时他说的话,大公司的链接都是用户自己给的,人家根本不去做什么外部链接建设,很少的交换链接人家叫商业扩展,估计这事也不归SEO部门管。

你什么时候见微软、可口可乐会去建设外部链接呢?连纯粹的线上品牌Wiki也不做这事。真正牛的公司是不做外链的,只有我们这些小人物才吭哧吭哧干这个事。

流量分析

出现SEO之前若干年,流量分析就是运营网站必做的事情。

所以看一圈下来,你会发现不知道到底什么是SEO。我们所做的SEO大部分是常识。

当然,可喜的是,常识往往是常人们做不到的,所以就会出现了所谓的SEO和SEO行业,而且至少还会红火个十年二十年。

最后说一句,seo的真谛是什么?答案:有效的大量收录,如果你想让你的网站每天10000ip,你的网站至少需要收录5000个有效页面,拙见,勿喷

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多