搜索引擎创建索引网页库的原理解析

SZYB 发表于 2017-2-15 14:01:07

搜索引擎网页采集完成之后，就是会对数据进行预处理，而这一章节：先讲数据预处理中的的搜索引擎索引网页库的的形成。
搜索引擎数据预处理，首先讲解数据预处理子系统的系统结构，继而介绍建立索引网页库的算法，接着介绍中文切词技术，然后讲解网页的分析，最后讲如何生成用于查询的网页倒排索引文件。
1、搜索引擎数据预处理系统结构
在经过搜索引擎Web数据采集之后，采集到的网页都是按照搜索引擎的格式进行存储，拥有良好的容错性，即使出现损坏的情况，也不会是的整个数据库中的信息都难以存取。但是这种存储格式是无法按照网页URL，来进行存取与其对应的网页的，所以，我们预处理第一步：
为原始网页建立索引，即索引网页库(1)。建立索引网页库之后，就可以提供网页快照功能(2)，通过对索引网页库中内容进行网页切词处理，将每一篇网页转化为一组关键词的集合(3)，最后，将网页到所索引词的映射转化为索引词到网页的映射，形成倒排表(倒排表和索引词表)，同时将网页中包含的不重复的索引词汇聚成索引词表(4)
(盐城SEO疑问：索引词到网页的不应该是多对多的吗?为什么不重复的索引词要形成索引词表呢?倒排表已经满足需要了)
2、索引网页库的建立：
内容较为复杂，作为一个SEO，我们只需要了解原理部分就可以了，其中编程部分，我们暂时不讲解(盐城SEO也不会….)
2-1)在原始网页库，是有若干条记录组成，每一条记录包括了：头部信息(head),数据(Data)。每一条数据(DATA)有网页头文件(header)和网页内容(content)组成。
2-2)索引网页库的算法通过MD5算法，将网页内容和URL摘要信息，分别记录为16个字节的唯一标识，同时为了方便查看，将这16个字节转化为23字节的ASCLL码。
2-3)网页索引文件，最终通过 ISAM(索引顺序访问模式)来进行存储，保证数据的紧凑性和检索能力。同时在网页索引文件存储之后，还会存在URL索引文件，同时通过文档编号，将URL摘要信息和网页摘要信息联系起来。实现网页快照功能
(盐城SEO疑问：在数据预处理的索引网页库中，涉及到摘要信息的产生算法讲解，在前面，我们知道摘要信息，有动态和静态两种，那么这里的如果是动态摘要信息，那么这里如何产生网页摘要摘要信息呢?)
(盐城SEO解答：在这里，所说的摘要信息并不一定是，显示给用户的，和description中的信息一样，可能是记录中网页content的所有内容缩写，知识叫法上的不同而已)

xl11502b 发表于 2017-2-23 14:41:22

哈哈,顶你了哦.

xl16135b 发表于 2017-2-23 14:41:22

回贴赚学识，不错了

xl11781b 发表于 2017-2-23 14:41:22

一山不能容二虎，除非一公和一母!

xuling2543h 发表于 2017-2-23 14:41:22

哎怎么说那~~

xl12972b 发表于 2017-6-3 10:59:30

呵呵，找个机会...

cdcjrdd 发表于 2017-6-3 10:59:30

我想要`~

xl20096b 发表于 2017-6-3 10:59:30

我来了~~~~~~~~~ 闪人~~~~~~~~~~~~~~~~

iyozepoibin 发表于 2017-6-3 10:59:30

呵呵，等着就等着....

xl11364b 发表于 2017-6-17 11:58:20

写得好啊　估计有马甲

页: [1] 2 3 4 5 6 7 8 9 10

自媒体论坛 - 专注于自媒体推广|营销|博客|网创|副业的自媒体论坛's Archiver

搜索引擎创建索引网页库的原理解析