搜索引擎原理图详解

上一次给各位网友们分享一张搜索引擎的原理图，上面有密密麻麻的文字，这次详解一下，我们称之为搜索引擎的体系结构图或搜索引擎动作的流程图。从中发现的seo技巧，也会解决很多的seo问题。

图片地址：搜索引擎原理图

1、WWW代表互联网，网是一个很复杂的也是很混乱的，找不到什么规率的网状结构，像一张蜘蛛网一样。

2、跟WWW接触的是搜索器,也可以叫做蜘蛛，抓虫。就是一个功能简直的下载器，抓取现存的数量，下载速度，抓取间隔等。主要的工作就是下载网页。

3、下载下来的传给控制器，跟他直接相关的服务器，叫做调度，比如公交集团的调度室，来控制发车时间，目的地，主要来控制蜘蛛的抓取间隔，以及派最近的蜘蛛去抓取，我们做SEO可以想到，空间位置对SEO是有利处的。

控制器把搜索器下载下来网页进行简直的分析，最简单的消噪，网页的的去复，抓取网页中的URL，做seo我们会想到一点，分为已经抓取的排列和未抓取的排列，所以不管你的URL在什么位置和在哪里，只要能从源代码当中找到。我们可以见到挂黑链的，他一般插到body或body以外的地方，因为这些都能从源码里看到。

解译robots，哪些目录是限制，哪些是可以抓取的。

定制抓取的礼帽规则，蜘蛛跟普通用户访问是一样的，如果不断抓，会出现打不开的情况，一般网站蜘蛛都会在下半夜来抓取。这个只是权重不高的网站，如果权重很高的网站，蜘蛛会长驻的。

根据URL权重优先来抓取，我们会想到控制器下面所有的蜘蛛会根据权重高的去抓取URL，如初始网页，仅有一个初始权重，比如你排在100个位置，如果在后面的排队，如果它的权重比你高，会优先抓取他们的URL，所心要想获得优先抓取，就是提高权重，包括站内和站外的权重。排名并不是搜索引擎最难的部分，最难的部分就是效率，为什么百度没有谷歌的抓取快。

还有另外一个功能，就是把数据传递给网页数据库。

4、原始数据库。是一个存取网页的数据库，就是原始数据库，存进去就是为了下一步的工作，还有就是提供百度快照，我们会发现，跟MD5值一样的URL是不重复的，有的URL有了，但标题就是没有，只有通过URL这个组件来找到，因为这个没有通过索引数据库来建立索引。原始数据库主要功能是存入和读取的速度，以及存取的空间，会通过压缩，以及为后面提供服务。

网页数据库调度程序将蜘蛛抓取回来的网页，进行简单的分析过后，也就是提取了URL，简直的过滤镜像后存入数据当中，那么在他的数据当中，是没有建立索引的。

5、网页分析模板，这一块非常重要，seo的重点，垃圾网页，镜像网页的过滤，网页的权重计算全部都集中在这一块。称之为网页权重算法。几百个都不止。
6、索引器，把有价值的网页存入到索引数据库，目的就是查询的速度更加的快。把有价值的网页转换另外一个表现形式，把网页转换为关键词。叫做正排索引，这样做就是为了便利，网页有多少个，关键词有多少个。几百万个页面和几百万个词哪一个便利一些。倒排索引把关键词转换为网页，把排名的条件都存取在这个里面，已经形成一高效存储结构，把很多的排名因素作为一个项存储在这个里面，一个词在多少个网页出现。。

一个网页很多个关键词组成的，把网页变成关键词这么一个对列过程叫做正排索引。

建议索引的原因：为了便利，提高效率。

一个词在多少个网页中出现，把词变成网页这么一个对列过程叫做倒排索引。

搜索结果就是在倒排数据库简直的获取数据，把很多的排名因素作为一个项，存储在这个里面。

7、索引数据库，将来用于排名的数据。关键词数量，关键词位置，网页大小，关键词特征标签，指向这个网页（内链，外链，锚文本），用户体验这些数据全部都存取在这个里面，提供给检索器。为什么百度这么快，就是百度直接在索引数据库中提供数据，而不是直接访问WWW。也就是预处理工作。

8、检索器，将用户查询的词，进行分词，再进行排序，通过用业内接口把结果返回给用户。负责切词，分词，查询，根据排名因素进行数据排序。

9、用户接口，将查询记录，IP，时间，点击的URL，以及URL位置，上一次跟下一次点击的间隔时间存入到用户行为日志数据库当中。就是百度的那个框，一个用户的接口。

10、用户行为日志数据库，搜索引擎的重点，SEO工具和刷排名的软件都是从这个里面得出来的。用户使用搜索引擎的过程，和动作。

11、日志分析器通过用户行为日志数据库进行不断的分析，把这些行为记录存储到索引器当中，这些行为会影响排名。也就是我们所说的恶意点击，或是一夜排名。

如果通过关键找不到，那么会直接搜索域名，这些都将会记入到用户行为数据库当中。

12、词库：网页分析模块中日志分析器会发现最新的词汇存入到词库当中。通过词库进行分词。网页分析模块基于词库的。