行业资讯

百度搜索引擎的工作流程你了解多少

发布时间:2012年10月19日    点击数:

百度搜索引擎的工作流程你了解多少

搜索引擎为用户展现的每一条搜索结果,都对应着互联网上的一个页面。每一条搜索结果从产生到被搜索引擎展现给用户,都需要经过四个过程:抓取、过滤、建立索引和输出结果。

百度蜘蛛,英文名是“Baiduspider”是百度搜索引擎的一个自动程序。它的作用是访问互联网上的网页、图片、视频等内容,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站的网页、图片、视频等内容。

抓取

Baiduspider,或称百度蜘蛛,会通过搜索引擎系统的计算,来决定对哪些网站施行抓取,以及抓取的内容和频率值。搜索引擎的计算过程会参考您的网站在历史中的表现,比如内容是否足够优质,是否存在对用户不友好的设置,是否存在过度的搜索引擎优化行为等等。

当您的网站产生新内容时,Baiduspider会通过互联网中某个指向该页面的链接进行访问和抓取,如果您没有设置任何外部链接指向网站中的新增内容,则Baiduspider是无法对其进行抓取的。对于已被抓取过的内容,搜索引擎会对抓取的页面进行记录,并依据这些页面对用户的重要程度安排不同频次的抓取更新工作。

需您要注意的是,有一些抓取软件,为了各种目的,会伪装成Baiduspider对您的网站进行抓取,这可能是不受控制的抓取行为,严重时会影响到网站的正常运作。点此识别Baiduspider的真伪

过滤

互联网中并非所有的网页都对用户有意义,比如一些明显的欺骗用户的网页,死链接,空白内容页面等。这些网页对用户、站长和百度来说,都没有足够的价值,因此百度会自动对这些内容进行过滤,以避免为用户和您的网站带来不必要的麻烦。

建立索引

百度对抓取回来的内容会逐一进行标记和识别,并将这些标记进行储存为结构化的数据,比如网页的tagtitle、metadescripiton、网页外链及描述、抓取记录。同时,也会将网页中的关键词信息进行识别和储存,以便与用户搜索的内容进行匹配。

输出结果

用户输入的关键词,百度会对其进行一系列复杂的分析,并根据分析的结论在索引库中寻找与之最为匹配的一系列网页,按照用户输入的关键词所体现的需求强弱和网页的优劣进行打分,并按照最终的分数进行排列,展现给用户。

综上,您若希望通过搜索引擎为用户带来更好的体验,需要对进行您的网站严格的内容建设,使之更符合用户的浏览需求。需要您注意的是,网站的内容建设始终需要考虑的一个问题是,这对用户是否有价值。

工作机制
  一、百度蜘蛛的构建的原理。 
搜索引擎构建一个调度程序,来调度百度蜘蛛的工作,让百度蜘蛛去和服务器建立连接下载网页,计算的过程都是通过调度来计算的,百度蜘蛛只是负责下载网页,目前的搜索引擎普遍使用广布式多服务器多线程的百度蜘蛛来达到多线程的目的。
    二、百度蜘蛛的工作要素。
  百度蜘蛛在从首页登陆后抓取首页后调度会计算其中所有的连接,返回给百度蜘蛛进行下一步的抓取连接列表,百度蜘蛛再进行下一步的抓取,网址地图的作用是为了给百度蜘蛛提供一个抓取的方向,来左右百度蜘蛛去抓取重要页面,如何让百度蜘蛛知道那个页面是重要页面?可以通过连接的构建来达到这个目的,越多的页面指向该页,网址首页的指向,副页面的指向等等都能提高该页的权重,地图的另外一个作用是给百度蜘蛛提供更多的连接来达到抓去更多页面的目的,地图其实就是一个连接的列表提供给百度蜘蛛,来计算你的目录结构,找到通过站内连接来构建的重要页面。
  三、百度蜘蛛的运行原理。  
  (a)通过百度蜘蛛下载回来的网页放到补充数据区,通过各种程序计算过后才放到检索区,才会形成稳定的排名,所以说只要下载回来的东西都可以通过指令找到,补充数据是不稳定的,有可能在各种计算的过程中给k掉,检索区的数据排名是相对比较稳定的,百度目前是缓存机制和补充数据相结合的,正在向补充数据转变,这也是目前百度收录困难的原因,也是很多站点今天给k了明天又放出来的原因。  
  (b)深度优先和广度优先,百度蜘蛛抓页面的时候从起始站点(即种子站点指的是一些门户站点)是广度优先抓取是为了抓取更多的网址,深度优先抓取的目的是为了抓取高质量的网页,这个策略是由调度来计算和分配的,百度蜘蛛只负责抓取,权重优先是指反向连接较多的页面的优先抓取,这也是调度的一种策略,一般情况下网页抓取抓到40%是正常范围,60%算很好,100%是不可能的,当然抓取的越多越好。   
  四、百度蜘蛛原理的应用。
  补充数据到主检索区的转变:在不改变板块结构的情况下,增加相关连接来提高网页质量,通过增加其他页面对该页的反向连接来提高权重,通过外部连接增加权重。如果改变了板块结构将导致seo的从新计算,所以一定不能改变板块结构的情况下来操作,增加连接要注意一个连接的质量和反向连接的数量的关系,短时间内增加大量的反向连接将导致k站,连接的相关性越高,对排名越有利。

信息来源:东莞百度优化

上一篇:专家总结5个百度和谷歌优化的要点
下一篇:专家分析关键词排名不好的原因