文章目录

一、搜索引擎
- 定义
- 分类
- - 1.全文搜索引擎
  - 2.目录索引
  - 3.元搜索引擎
  - 4.垂直搜索引擎
- 工作原理
- - 1.抓取网页
  - 2.处理网页
  - 3.提供检索服务
- 核心算法
- 组成部分
- 发展趋势
二、网络蜘蛛
三、中文分词
- 基于词典的分词方法
- 基于统计的分词方法
- 基于理解的分词方法
- 分词难点
- - 1.歧义识别
  - 2.新词识别
四、链接分析
- 1. Web图
- 2. 锚文字
- 3. 随机游走模型
- 4. 子集传播模型
- 5. PageRank算法

一、搜索引擎

因特网包括成百上千的网站，设计数以亿计的资源。因此需要通过搜索引擎了快速定位到所需资源，搜索引擎技术对网站的运营具有非常重要的意义。

定义

搜索引擎（Search Engine）是指根据一定的策略、运用特定的计算机程序收集互联网上的信息，在对信息进行组织和处理后，将处理后的信息显示给用户，是为用户提供检索服务的系统。

工作原理

1.抓取网页

网页抓取程序顺着网页中的链接，连续地抓取网页，被抓取的网页被称之为网页快照。

2.处理网页

搜索引擎抓到网页后，还要做大量的预处理工作，才能提供检索服务。其中最重要的是提取关键词，建立索引文件。其他预处理工作包括去除重复网页、分词、判断网页类型、分析超链接、计算网页重要度/丰富度等。

3.提供检索服务

用户输入关键词进行检索，搜索引擎从索引数据中找到匹配该关键词的网页。为用户提供网页标题和URL，同时提供一段摘要和其他信息。

核心算法

网页抓取程序
关键词提取
索引文件创建方式
重复网页合并
结果排序算法
中文分词算法
网页类型判断
超链接分析（语言判断：meta标签、字符编码、内容分析）
网页重要性与丰富度计算

组成部分

搜索器：其功能是在互联网中漫游，发现和收集信息。
常使用分布式、并行计算技术，以提高信息发现和更新速度。
要求尽可能多、尽可能快地搜索各种类型的新信息，定期更新搜索过的旧信息。目前有两种搜索策略：
- 从一个起始URL集合（通常为一些非常主流、包含很多链接的站点）开始，循着这些URL中的超链接，以宽度优先、深度优先或启发式循环地在互联网中发现信息。
- 将Web空间按照域名、IP地址或国家域名划分，每个搜索器负责一个子空间的穷尽搜索。
索引器：其功能是理解搜索器所搜索到的信息，从中抽取出索引项，用于表示文档以及生成文档库的索引表。
索引表一般使用倒排表，即由索引项查找相应的文档。索引表也可能要记录索引项在文档中出现的位置，以便检索器计算索引项之间的相邻或接近关系。
索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时，必须使用即时索引。
一个搜索引擎的有效性很大程度上取决于索引的质量。
索引项有客观索引项和内容索引项两种。
- 客观索引项与文档的语音内容无关，如作者名、URL、更新时间、编码、长度、链接流行度；
- 内容索引项是用来反映文档内容的，如关键词及其权重、短语、单词等。
  可以分为单项索引和多项索引（短语索引项）。
  - 单项索引对于英文来讲是取单词，比较容易提取。对于中文，必须进行词语的切分（分词技术）
    一般要给单项索引项赋予一个权值，以表示该索引项对文档的区分度，同时用来计算查询结果的相关度，使用方法一般有统计法、信息论法和概率法。
  - 短语索引项提取方式有统计法、概率法和语言学法，
检索器：其功能是根据用户的查询在索引库中快速检索文档，进行相关度评价，对将要的输出结果排序，并能按用户的查询需求合理反馈信息。
用户接口（HTML页面）：接纳用户查询、显示查询结果、提供个性化查询项。
主要目的是方便用户使用搜索引擎，高效率、多方式地从搜索引擎中得到有效、及时的信息。
用户接口可以分为简单接口和复杂接口两种。
- 简单接口只提供用户输入查询串的文本框；
- 复杂接口可以让用户对查询进行限制，如逻辑运算、相近关系、出现位置（标题、内容）、域名范围、信息时间、长度。