快捷搜索:  汽车  科技

倒排索引和正排索引区别:带你简单理解倒排索引

倒排索引和正排索引区别:带你简单理解倒排索引最后祝大家工作顺利,天天开心!不积跬步 无以至千里;不积小流 无以成江海!!!

倒排索引和正排索引区别:带你简单理解倒排索引(1)

倒排索引从逻辑结构和基本思路上来讲非常简单。下面我们通过具体实例来进行说明,使得大家能够对倒排索引有一个宏观而直接的感受。假设文档集合包含四个文档,每个文档内容如下图所示,在图中最左端一栏是每个文档对应的文档编号。下面对这个文档集合建立倒排索引。

倒排索引和正排索引区别:带你简单理解倒排索引(2)

之所以说图2所示倒排索引是最简单的,是因为这个索引系统只记载了哪些文档包含某个单词,而事实上,索引系统还可以记录除此之外的更多信息。图3是一个相对复杂些的倒排索引,与图3的基本索引系统比,在单词对应的倒排列表中不仅记录了文档编号,还记载了单词频率信息(TF),即这个单词在某个文档中的出现次数,之所以要记录这个信息,是因为词频信息在搜索结果排序时,计算查询和文档相似度是很重要的一个计算因子,所以将其记录在倒排列表中,以方便后续排序时进行分值计算。在图3的例子里,单词“回应”的单词编号为6,对应的倒排列表内容为:(3:1),其中的3代表文档编号为3的文档包含这个单词,数字1代表词频信息,即这个单词在3号文档中只出现过1次,其它单词对应的倒排列表所代表含义与此相同。

倒排索引和正排索引区别:带你简单理解倒排索引(3)

实用的倒排索引还可以记载更多的信息,图4所示索引系统除了记录文档编号和单词频率信息外,额外记载了两类信息,即每个单词对应的“文档频率信息”(对应图4的第三栏)以及在倒排列表中记录单词在某个文档出现的位置信息。

倒排索引和正排索引区别:带你简单理解倒排索引(4)

有了这个索引系统,搜索引擎可以很方便地响应用户的查询,比如用户输入查询词“蓝标”,搜索系统查找倒排索引,从中可以读出包含这个单词的文档,这些文档就是提供给用户的搜索结果,而利用单词频率信息、文档频率信息即可以对这些候选搜索结果进行排序,计算文档和查询的相似性,按照相似性得分由高到低排序输出,此即为搜索系统的部分内部流程。

最后祝大家工作顺利,天天开心!不积跬步 无以至千里;不积小流 无以成江海!!!

猜您喜欢: