[笔记]搜索引擎

#[笔记]搜索引擎| 来源: 网络整理| 查看: 265

第一章：信息检索的概念：

广义的信息检索，是关于信息的结构、分析、组织、存储、搜查和检索的范畴—(Salton,1968) 狭义的信息检索，是指按照一定的方式从现有的信息集合或数据库中，找出并提取所需要的信息, 信息检索的主要焦点一直是文本和文本形式的文档(网页、邮件、书籍、学术论文、短信息、专利等) 文档的共有特性: 有意义的文本结构信息 (比如，论文的标题、作者、发表时间; 邮件的主题、发送者、接收者)

信息检索和搜索引擎的关系：

搜索引擎是信息检索技术在大规模文本集合上的实际应用。

搜索引擎是指互联网上专门提供检索服务的一类网站，这些站点的服务器通过网zhi络搜dao索软件(例如网络搜索机器人)或网络登录等方式，将Intemet上大量网站的页面信息收集到本地，经过加工处理建立信息数据库和索引数据库，从而对用户提出的各种检索作出响应，提供用户所需的信息或相关指针。用户的检索途径主要包括自由词全文检索、关键词检索、分类检索及其他特殊信息的检索。索引技术是搜索引擎的核心技术之一。搜索引擎要对所收集到的信息进行整理、分类、索引以产生索引库，而中文搜索引擎的核心是分词技术。分词技术是利用一定的规则和词库，切分出一个句子中的词，为自动索引做好准备。检索器的主要功能是根据用户输入的关键词在索引器形成的倒排表中进行检索，同时完成页面与检索之间的相关度评价，对将要输出的结果进行排序，并实现某种用户相关性反馈机制。

信息检索不仅仅局限于文本，从事信息检索工作的人们使用着不同的媒体、不同类型的搜索应用程序和不同的任务。信息检索的任务：特殊搜索/基于用户查询的搜索、过滤/跟踪、分类、问答等。

信息检索和搜索引擎要解决的重要问题信息检索：相关性：评价注重用户的信息需求用户需求用关键字查询表示，但是关键字查询通常不能很好地描述实际的信息需求查询建议、查询扩展和相关反馈等技术，使用交互的方式和上下文环境来优化初始的查询查询建议查询扩展相关反馈搜索引擎性能合并新数据可扩充性自适应特殊问题搜索引擎的分类

搜索引擎按其工作方式主要可分为3种：

全文搜索引擎（Full Text Search Engine）目录索引类搜索引擎（Search Index/Directory）元搜索引擎（Meta Search Engine）。搜索引擎的信息检索模型布尔逻辑模型模糊逻辑模型向量空间模型概率模型建立搜索引擎的关键技术信息收集和存储技术信息预处理技术信息索引技术第二章：搜索引擎的体系结构

搜索引擎的架构和工作原理

分为三步：从互联网上抓取网页、建立索引数据库、在索引数据库中搜索排序。

从互联网上抓取网页，就是利用能够从互联网上自动收集网页的Spider系统程序，自动访问互联网，并沿着任何网页中的所有URL爬到其它网页，重复这过程，并把爬过的所有网页收集回来。建立索引数据库，就是由分析索引系统程序对收集回来的网页进行分析，提取相关网页信息，根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及超链中每一个关键词的相关度（或重要性），然后用这些相关信息建立网页索引数据库。在索引数据库中搜索排序，就是当用户输入关键词搜索后，由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好，所以只需按照现成的相关度数值排序，相关度越高，网站排名越靠前。最后，由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。搜索引擎的数据结构存储结构顺序存储方法顺序存储方法是将数据在物理位置上进行连续的存储。链接存储方法链接存储方法不要求数据在物理位置上连续存放，各个数据结点之间用指针进行连接。索引存储方法索引表由若干索引项组成。索引项的一般形式是关键字、地址。散列存储方法该方法的基本思想是；根据结点的关键字直接计算出该结点的存储地址。散列存储类似于Hash表，即根据记录中的关键字特点设计一种Hash函数（也叫散列函数）和处理冲突的方法来确定记录的存储位置，将记录散列在存储介质上，这样的文件被称作散列文件。索引结构

文本索引需要按照一定的次序来保存每个文档的信息，以便于信息的查找。在Google中利用了固定长度的ISAM（索引序列访问模式）进行索引，该索引按照docID排序。在每个索引条目中包含当前文本的状态、一个指向信息库的指针、一个文本的检查值和一些统计信息。

前向索引

前向索引是文档到词的索引，在处理文档的时候以文档为单位建立这种索引比较方便。

后向索引（倒排索引）

前向索引便于建立，但是在信息查找的过程中，是根据词来找文档的，因此为了提高文档检索的速度，必须建立词到文档的索引，即后向索引

词典

Google的词典由两部分组成：第一部分是一个通过空格分隔的词表，另一部分是由指针组成的散列表。

元搜索引擎

所谓元搜索引擎，就是指在统一的用户查询界面与信息反馈的形式下，共享多个独立搜索引擎的资源库为用户提供信息服务的系统。

第三章：爬虫的概念和分类

概念：网络爬虫是一种计算机自动程序，它能够自动建立到WEB服务器的网络连接，访问服务器上的某个页面或网络资源，获得其的内容，并按照页面上的超链接进行更多页面的获取。分类：爬虫分类方法从爬虫抓取的链接范围看，可以分为基于整个WEB的爬虫和基于局部确定范围的爬虫。从爬虫抓取的页面内容看，可以分为无固定主题的爬虫和主题爬虫。从爬虫的执行模式看，可以分为批量型爬虫和增量型爬虫。从爬虫的内部功能协调方式看，可以单线程爬虫和多线程爬虫。

爬虫的工作原理

爬虫要完成的功能分解成为两个层次：第一个层次是爬虫的基本功能，即获取页面所需要的功能模块构成，是每一种爬虫都需要实现的功能，通常包括建立网络连接、页面请求与解析、链接分析、爬行队列管理等基础性工作，主要针对的是简单的爬虫结构；第二个层次则是针对各种复杂类型爬虫所需要做的扩展，例如URL范围控制、主题识别、支持增量式，这些并非是每种爬虫都需要实现的功能。

主题爬虫和动态爬虫

主题爬虫，也称为聚焦爬虫(Focused Crawler)，从功能上看，它主要爬行与某些预先设定好的主题的相关WEB页面，各种面向特定领域的爬虫，如旅游领域爬虫、财经新闻爬虫等，都是属于这类。主题的定义：采用关键词集来描述一个主题、对关键词集进行划分，通过对自主题的描述来实现对整个主题的定义。

动态页面的主要特征:

其最终展示的内容是根据用户的请求由服务器临时组织在一起，并形成HTML页面返回给用户。动态页面的交互与显示效果取决于发起页面请求的用户端

动态页面的获取方法大致的步骤是：首先需要对获取页面的请求内容或者本地的cookies（输入）进行分析，找到生成动态页面所依赖的请求接口以及其所需要的数据内容/格式，然后使用程序模拟组装数据并发送至特定接口，从接口获取到返回的数据（JSON或HTML），最后对返回的JSON、页面HTML信息进行分析以采集目标信息。

搜索引擎爬虫的关键技术网页抓取优先策略: 网页抓取优先策略也称为“页面选择问题”（Page Selection），通常是尽可能地首先抓取重要性的网页，这样保证在有限的资源内尽可能地照顾到那些重要性高的网页。重要性度量由链接欢迎度和链接重要度决定 I （ P ） = α ∗ I B （ p ） + β ∗ I L （ p ）其中：网页重要性的度量为 I （ P ）；链接欢迎度 I B （ P ）；链接重要度 I L （ P ）。 I（P）=α*IB（p）+β*IL（p）其中：网页重要性的度量为I（P）；链接欢迎度IB（P）；链接重要度IL（P）。 I（P）=α∗IB（p）+β∗IL（p）其中：网页重要性的度量为I（P）；链接欢迎度IB（P）；链接重要度IL（P）。深搜广搜策略最佳优先策略不重复抓取策略网页重访策略网页抓取提速策略第四章：文本预处理流程（1）文本的词法分析，它主要是对文本中的数字、连接符、标点符号和字符的大小写进行处理；（2）无用词汇的删除，它主要是过滤掉那些对于信息获取过程来说区分能力低的词汇；（3）词干提取，它主要是去除词缀（前缀和后缀），这样可以允许所获取的文档包含一些查询词条的变换形式；（4）索引词条/词干的选择，在选择的时候通常按照单词的习惯用法，实际上名词往往要比形容词、副词和动词包含更多的语义；（5）构造词条的分类结构，例如词典或者结构抽取，利用它可以进行查询的扩展。 PageRank算法

PageRank思想：“被越多优质的网页所指的网页，它是优质的概率就越大”

计算公式1： P R n ( A ) = ( 1 − d ) + d × ( ∑ i = 1 m P R n − 1 ( T i ) C ( T i ) PR_n(A)=(1-d)+d\times(\sum_{i=1}^{m}\frac{PR_{n-1}(T_i)}{C(T_i)} PRn(A)=(1−d)+d×(∑i=1mC(Ti)PRn−1(Ti)

其中：PRn(A)是网页A的PageRank值，PRn-1（Ti）是指网页Ti存在指向A的链接，并且网页在上一次迭代时的PageRank值，C（Ti）是指网页Ti的外链数量。可见，首先，PageRank并不是将整个网站排等级，而是以单个页面计算的。其次，页面A的PageRank值取决于那些连接到A的页面的PageRank的递归值。

计算公式2：假定用户一开始随机地访问网页集合中的一个网页，以后跟随网页的向外链接向前浏览网页，而不回退浏览，浏览下一个网页的概率就是被浏览网页的PageRank值。基于以上的原理，算法1可改进为以下的公式： P R n ( A ) = ( 1 − d ) / N + d × ( ∑ i = 1 m P R n − 1 ( T i ) C ( T i ) PR_n(A)=(1-d)/N+d\times(\sum_{i=1}^{m}\frac{PR_{n-1}(T_i)}{C(T_i)} PRn(A)=(1−d)/N+d×(∑i=1mC(Ti)PRn−1(Ti)

第五章：顺排索引和倒排索引的含义、区别

顺排文档检索的主要思想是将文档中的每一条记录依次去匹配用户的检索提问集合，文档处理完毕后，将各提问的命中结果归并分发给有关用户。顺排文档检索是用文档中记录一条一条去匹配提问的，是顺序对文档记录检索的方法，所以称为顺排文档检索。顺排文档的关键技术是采用列表处理方法将提问逻辑式（检索式）变换成等价的提问展开式，按提问展开表的内容对顺排文档的每篇文献进行检索。

倒排文档是一种面向单词的索引机制，相对顺排文档而言，是将顺排文档中可检索字段的作者名、关键词、分类号等取出，按一定规则排序，归并相同词汇，并把在顺排文档中相关记录的记录号集合赋予其后，以保证通过某一特征词能够快速、方便地获取相关记录。

区别：正排由文档指向关键词，倒排由关键词指向文档

后缀树的构造

emm这块就不写了，，

文本压缩技术有哪些？统计方法：霍夫曼编码、算术编码字典方法：一二类字典编码、LZ77编码、LZW编码、倒排文档压缩固定长度压缩变长压缩方法：一元编码、Elias编码、Golomb压缩方法霍夫曼编码

emmmm这也不用说了，，

第六章：

布尔模型

文档表示一个文档被表示为关键词的集合查询式表示查询式(Queries)被表示为关键词的布尔组合，用“与、或、非”连接起来，并用括弧指示优先次序匹配一个文档当且仅当它能够满足布尔查询式时，才将其检索出来检索策略基于二值判定标准

优点：到目前为止，布尔模型是最常用的检索模型，因为：由于查询简单，因此容易理解通过使用复杂的布尔表达式，可以很方便地控制查询结果相当有效的实现方法相当于识别包含了一个某个特定term的文档经过某种训练的用户可以容易地写出布尔查询式布尔模型可以通过扩展来包含排序的功能，即“扩展的布尔模型”

问题：布尔模型被认为是功能最弱的方式，其主要问题在于不支持部分匹配，而完全匹配会导致太多或者太少的结果文档被返回非常刚性: “与”意味着全部; “或”意味着任何一个很难控制被检索的文档数量原则上讲，所有被匹配的文档都将被返回很难对输出进行排序不考虑索引词的权重，所有文档都以相同的方式和查询相匹配很难进行自动的相关反馈如果一篇文档被用户确认为相关或者不相关，怎样相应地修改查询式呢？

向量空间模型

文档D(Document)：泛指文档或文档中的一个片段（如文档中的标题、摘要、正文等）。索引项t（Term）：指出现在文档中能够代表文档性质的基本语言单位（如字、词等），也就是通常所指的检索词，这样一个文档D就可以表示为D(t1,t2,…,tn)，其中n就代表了检索字的数量。特征项权重Wk（Term Weight）：指特征项tn能够代表文档D能力的大小，体现了特征项在文档中的重要程度。相似度S（Similarity）：指两个文档内容相关程度的大小

特点：基于关键词(一个文本由一个关键词列表组成) 根据关键词的出现频率计算相似度例如：文档的统计特性用户规定一个词项(term)集合，可以给每个词项附加权重未加权的词项: Q =  database; text; information  加权的词项: Q =  database 0.5; text 0.8; information 0.2  查询式中没有布尔条件根据相似度对输出结果进行排序支持自动的相关反馈有用的词项被添加到原始的查询式中例如：Q   database; text; information; document 

概率模型

这一章还是看ppt吧，，东西略多。。

第七章：几种常见的检索模式布尔检索加权检索检索词加权检索词频加权检索标引加权检索全文检索位置检索限制检索截词检索超文本检索对相关性的理解

相关性概念信息检索的本质是文献与提问的匹配，而匹配的原则就是两者必须是“相关”的，“相关”程度越高意味着匹配效果越好，因此，“相关性” （Relevance）和“相关性判断”是检索性能评价不可或缺的标尺与基准。相关性的意义就信息检索而言，“相关性”是一个关键性的基础概念。从检索系统的设计和信息检索算法的开发，到用户对检索结果的评判及检索效果的评价，几乎所有环节都离不开对“相关性”概念的理解和运用。相关性的特征：关系（Relation）、直觉（Intuitive）多维（Multidimensional）、动态（Dynamical）

相关性判断组成要素（1）相关性类型。基于何种相关性进行判断。（2）判断者类型。实施判断的主体，通常分为用户与非用户两大类。前者是指检索系统的真实用户，后者包括检索系统设计者、检索中介等。（3）判断的时间。在不同的时间点上，相关性判断的结果可能会不同。（4）判断结果的表达方式。对相关性的赋值方法。

信息检索的评价

评价的指标比较容易观察或测度，如查全率（Recall Ratio）、查准率（Precision Ratio）、非相关检出率（Fallout）、囊括值（Generality）等

第八章：相关反馈和自动扩展的基本原理、实现技术相关反馈

指在检索过程中基于初始检索输出结果的相关性判断来调整查询检索式的过程

特征：

在一定程度上减轻用户构造检索式的负担提供一个逐渐明晰用户需求的场景提供一个受控的查询过程

主要技术：

基于向量空间模型的相关反馈基于概率模型的相关反馈基于布尔模型的相关反馈自动扩展

无需用户参与的自动扩展技术：

全局策略：集合中的所有信息用于确定一个全局的叙词表结构，并定义语词的关系，然后用户在这个叙词表结构中选择合适的语词进行查询扩展局部策略：只采用给定初始查询的检出信息来确定查询扩展的语词，与相关反馈较为相似，区别在于可以不需要用户参与

全局扩展技术的基本思想统一对整个信息集合中所有的词或词组进行相关分析，计算词或词组与查询之间的相似度；进行查询时，使用与查询相似度最高的词作为重构的查询用词；早期是词聚类方法，现在是构建相似度词表

局部扩展技术的基本思想利用初次检索得到的与初始查询最相关的前N个相关信息来确定扩展的语词，主要类型包括相关反馈和局部反馈

信息过滤的概念

是指根据用户提供的过滤要求，从动态的信息集合中去掉用户不需要的信息而识别出用户需要信息的个性化检索方式

第九章：了解常见的自动标引方法

标引是从数据信息提取元数据(描述数据及其环境的数据)的过程，通过文献内容分析，识别其重要特征，用一定的语言、符号标识记录下来，其目的是准确地揭示文本的特征，便于集中同类文本、区分不同文本，为相关文本建立联系，并且将其作为存储和检索文献依据的文献处理过程，其质量直接影响文献的传递和使用。

自动标引是利用计算机从文献中自动提取相关检索标识的过程。文献检索标识主要包括文献标题、作者名、分类号、主题词、关键词和摘要等。采用自动标引方法和技术，对文献进行主题分析和选定标引词。

原理：自动标引从原理上分为抽词标引和赋词标引，各种方法和技术以自然语言的规律为基础，构建在相应的数学模型上。汉语自动标引方法既遵循英文标引的一般规律，又有其因分词问题所带来的特殊性。 …

实验手册的内容

【本文地址】

[笔记]搜索引擎

[笔记]搜索引擎

今日新闻

推荐新闻