行业资讯

重点理解百度谷歌搜索引擎索引流程介绍

发布时间:2014年02月10日    点击数:

重点理解百度谷歌搜索引擎索引流程介绍

    搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。根据自己的优化程度,获得相应的名次。

    东莞网站优化搜索引擎有四大部分:1、抓取,2、过滤,3、索引 ,4、查询,今天讲解到索引部分有以下几点内容:注意:索引(主要关于“相关性”的一个概念了,所谓的“预处理”)
 
  一、提取文字内容:搜索引擎是对文字处理比较强,其次图片、视频等其他处理比较弱,理解:我们在站内和站外更新文章时候一定要以文字为主,没办法情况下才发其他内容.
 
  二、停止词:什么叫停止词我们可以理解成讲话停顿出现的那个词就叫停止词,如你在哪里啊,你在干嘛呀,我的SEO优化, 等等,“啊”“呀”“的” “等”出现网页和互联网网页中最多次数不会被索引(写软文注意事项)
 
  三、消躁:这两个词我们可以先有现实生活中理解他,消:消失,消除,躁:躁动因急躁而行动,躁汗心烦急躁,导致汗出,躁狂浮躁轻狂, 我们就知道搜索引擎索在提取你网页时先提取标题在提取文章内容给予比较高分数,而网页文章以外内容会给予比较低分数,如你想把关键词排名好分数高尽量出现在文章页里面,(站内和站外注意事项)
 
  四、中文分词:里面有切词,正向匹配,逆向匹配,双向最大匹配,词库:切词就是词与词之间把他分开来读,因搜索引擎只读一个词,在切词分开时搜索引擎有他切法,就是把词与词之间相关性用正向匹配在用逆向匹配以及双向最大匹配得出来你文章内容相关性和可读性.稍微解释下:正向匹配:就是顺着词的组词在组词组词成语,逆向匹配:也是一样组词在组词组词成语.双向最大匹配:有些词可正配也可逆配,词库:就是百度谷歌有他自己词典,来分析你网站网页文章中相关性(站内和站外文章相关性)
 
  五、提取关键词信息:理解:搜索引擎提取所有互联网中网页关键词相关文章来进行对比,如网站网页信任度高分数高投票人多关键词合理安排又相关性强从而会把你页面排在比较靠前排名。
 
  六、去重:理解:网页中重复在重复,搜索引擎检测你网页文章中太对不自然关键词
 
  七、倒排索引(介绍正排与倒排):正排(以网页文件为主,以关键词为集合暂时储存数据库,倒排(以关键词为主,以网页文件为集合)数据库为准
 
  八、链接计算(分值与相关性)外链/内链:网站网页尽可能跟文章内容有一定相关性 搜索引擎检计算出链接文章相关性强而得到较高分值。

全文搜索引擎

    在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。
    另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。
    当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。

上一篇:百度优化布局设计及内容更新建议
下一篇:外链优化排名有那些注意事项