《信息检索导论》第七章总结

一、打分排序的特性

 

其实对于打分排序来说,我们最终只需要确定文档的相对顺序即可,因此我们可以简化打分的算法,只需要保持相对顺序不变即可;

 

二、快速排序及打分方法

 

我们前面的打分排序方法都需要计算查询及每篇文档的余弦相似度,然后需要取出打分最高的前K篇文档,这样做的复杂度是很高的;其实如果有一个算法能够近似求出前K篇文档但是复杂度少很多(不需要计算所有文档的得分),则我们通常会采用后一种算法;

通用方法:预先找到文档子集A(远小于初始文档集),包含了大多数的候选文档,并在A中计算得分最高的前K篇文档;以下方法都是基于这个规则计算的;

1.索引去除技术

(1)只考虑term的idf超过阈值的posting;因为低idf的term通常是stop words,posting非常长,所以不计算这些将使复杂度大大降低,因此不必考虑;

这里会出现超过阈值的doc没超过K篇,则需要使用层次型索引解决;

层次型索引:将倒排记录表进行分层,比如tf超过20的在第一层,tf超过10的在第二层,当需要查找前K篇文档时,只需要先在第一层查找,如果没取够K篇,则到第二层查找;

因此层次型索引是解决可能返回文档少于K篇的方法;

(2)只考虑包含多个查询词项的文档;

 

2.胜利表法

 

胜利表(champion list):对于词项t,预先取出posting的tf值最高的r篇文档,此序列称为胜利表;

给定一个查询Q,我们只需要求Q中的每个词项的胜利表的并集,此并集就是通用方法所说的文档子集A,并在A中计算余弦相似度;

 

3.静态得分排序法Static quality Score

 

每篇文档都有一个与查询无关的静态得分g(d),倒排索引中的posting按照g(d)进行降序排列;

而最后的得分是Score(q,d)=g(d)+v(q)v(d);

在第二十一章所说的PageRank是一个静态质量得分,是一个基于网页链接分析的打分;

 

4.分层搜索排序

 

对于词项t,维持两个表:高端表(tf值最高的m篇文档)和低端表(其余文档),都以g(d)排序;

取出打分最高的K篇文档方法:先计算高端表的得分,如果已经在高端表已经能够取出K篇得分最高的文档,则结束;否则,其余的在低端表中取;

 

5.cluster pruning

 

leader:在N篇文档中找到(根号N)篇文档作为leader;

follower:每个leader都有(根号N)个follower,表示与leader距离较近;

查询方法:给定查询Q,先与每个leader计算余弦相似度,找到最近的leader,文档子集A为此leader+leader对应的follower;

 

三、其他考虑因素

 

1.查询词项邻近性

我们希望查询词在文档中都靠的很近,这样才能够使得文档和查询更相关;

最小窗口大小:the quality of mercy is not stained ,如果查询为:stained quality;则最小窗口大小为6(quality of mercy is not strained);

软合取:文档不必包含全部的查询词项,只需要包含大部分的查询词项即可;

因此有可能需要将邻近性也加入权重中;

 

四、搜索引擎组成

 

 

indexer用于生成各式各样的索引,比如参数化索引、域索引、K-gram索引、分层索引;

 

向量空间模型和布尔检索模型有所不同,布尔模型只考虑词项在文档中是否存在,而不考虑出现了几次,也没有权重;

 

转载于:https://www.cnblogs.com/xiazdong/archive/2012/01/07/3058353.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/475325.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

日志级别_SpringBoot实战(十三):Admin动态修改日志级别

强烈推荐一个大神的人工智能的教程:http://www.captainbed.net/zhanghan【前言】之前关于线上输出日志一直有个困惑:如何可以动态调整的日志级别,来保证系统在正常运行时性能同时又能在出现问题时打印详细的信息来快速定位问题;最…

LeetCode 293. 翻转游戏

文章目录1. 题目2. 解题1. 题目 你和朋友玩一个叫做「翻转游戏」的游戏,游戏规则:给定一个只有 和 - 的字符串。 你和朋友轮流将 连续 的两个 “” 反转成 “–”。 当一方无法进行有效的翻转时便意味着游戏结束,则另一方获胜。 请你写出一…

LeetCode 1196. 最多可以买到的苹果数量(贪心)

文章目录1. 题目2. 解题1. 题目 楼下水果店正在促销,你打算买些苹果,arr[i] 表示第 i 个苹果的单位重量。 你有一个购物袋,最多可以装 5000 单位重量的东西,算一算,最多可以往购物袋里装入多少苹果。 示例 1&#x…

3点 刚体运动 opencv_模态法动力学分析中的刚体模态

01—概述在对汽车结构进行动力学有限元分析时,无论是瞬态问题还是频响问题,都经常使用模态叠加法。模态叠加法动力学分析是常规模态分析的自然扩展,它利用结构振型来缩减问题求解规模,从而使数值求解更为高效。模态叠加法首先计算…

简单实用的铁道部12306.cn网站自动化登录

铁道部网站登录难点分析 必须使用微软IE浏览器 铁道部网站只支持IE在线付款网站使用Https协议 客户端不允许跨域访问 技术解析 使用微软IE开发者工具栏即可破解自动化登录过程开始步骤 使用IE8及其以上的版本,IE7及以下版本需要另外下载微软官方的IE开发者工具栏&a…

LeetCode 1064. 不动点(二分查找)

文章目录1. 题目2. 解题2.1 暴力搜2.2 二分查找1. 题目 给定已经按升序排列、由不同整数组成的数组 A,返回满足 A[i] i 的最小索引 i。 如果不存在这样的 i,返回 -1。 示例 1: 输入:[-10,-5,0,3,7] 输出:3 解释&…

LeetCode 1474. 删除链表 M 个节点之后的 N 个节点

文章目录1. 题目2. 解题1. 题目 给定链表 head 和两个整数 m 和 n. 遍历该链表并按照如下方式删除节点: 开始时以头节点作为当前节点. 保留以当前节点开始的前 m 个节点. 删除接下来的 n 个节点. 重复步骤 2 和 3, 直到到达链表结尾. 在删除了指定结点之后, 返回修改过后的链…

mac找不到mysql_mac找不到mysql

出现问题:macbook安装好mysql,并按照各路大神的说明进行了以下配置。打开Terminal,输入:vim .bash_profile进入编辑界面,添加以下内容:export PATH$PATH:/usr/local/mysql/bin按下esc键,输入 :w…

LeetCode 1427. 字符串的左右移

文章目录1. 题目2. 解题1. 题目 给定一个包含小写英文字母的字符串 s 以及一个矩阵 shift,其中 shift[i] [direction, amount]: direction 可以为 0 (表示左移)或 1 (表示右移)。 amount 表示 s 左右移的…

LeetCode 800. 相似 RGB 颜色

文章目录1. 题目2. 解题2.1 暴力枚举2.2 独立枚举1. 题目 RGB 颜色用十六进制来表示的话,每个大写字母都代表了某个从 0 到 f 的 16 进制数。 RGB 颜色 “#AABBCC” 可以简写成 “#ABC” 。例如,"#15c" 其实是 “#1155cc” 的简写。 现在&a…

mysql 图片base64_关于图片的Base64编码

什么是Base64编码Base64编码是一种图片处理格式,通过特定的算法将图片编码成一长串字符串,在页面上显示的时候,可以用该字符串来代替图片的url属性。base64编码就是长得像下面这样子的代码:thunder://QUFodHRwOi8vd3d3LmJhaWR1LmN…

LeetCode 243. 最短单词距离

文章目录1. 题目2. 解题1. 题目 给定一个单词列表和两个单词 word1 和 word2,返回列表中这两个单词之间的最短距离。 示例: 假设 words ["practice", "makes", "perfect", "coding", "makes"] 输入: word1 “…

mysql load character_mysql load data Invalid utf8mb4 character string: ”

使用mysql的 load data 导入数据到 数据库中:LOAD DATA LOCAL INFILE /tmp/2982/20200424/user.csvINTO TABLE t_user CHARACTER SET utf8mb4 FIELDS TERMINATED BY ,LINES TERMINATED BY \r\nIGNORE 1 LINES(userName, userNo, age, homeAddr)SET province 浙江省…

LeetCode 1426. 数元素(哈希set)

文章目录1. 题目2. 解题1. 题目 给你一个整数数组 arr, 对于元素 x ,只有当 x 1 也在数组 arr 里时,才能记为 1 个数。 如果数组 arr 里有重复的数,每个重复的数单独计算。 示例 1: 输入:arr [1,2,3] …

mysql 默认page大小_MySQL innodb_page_size

原标题:MySQL innodb_page_size墨墨导读:Page是MySQL Innodb存储的最基本结构,也是Innodb磁盘管理的最小单位,了解page的一些特性,可以更容易理解MySQL。innodb_page_size作为innodb和OS交互单位。文件系统对文件的buf…

LeetCode 266. 回文排列(计数)

文章目录1. 题目2. 解题1. 题目 给定一个字符串,判断该字符串中是否可以通过重新排列组合,形成一个回文字符串。 示例 1: 输入: "code" 输出: false示例 2: 输入: "aab" 输出: true示例 3: 输入…

LeetCode 1150. 检查一个数是否在数组中占绝大多数(二分查找)

文章目录1. 题目2. 解题2.1 暴力2.2 二分查找1. 题目 给出一个按 非递减 顺序排列的数组 nums,和一个目标数值 target。 假如数组 nums 中绝大多数元素的数值都等于 target,则返回 True,否则请返回 False。 所谓占绝大多数,是指…

VirtualBox的Linux虚拟机访问Windows7的文件

第一步: 安装 VirtualBox 增强工具 点击确定,稍等片刻,VirtualBox 的增强功能就可以安装完毕。 第2步:设置要共享给Linux 虚拟机的文件夹(目录) 点击右下角的“分配数据空间” 点击“添加” 选择要共享的路…

LeetCode 1118. 一月有多少天(闰年判断)

文章目录1. 题目2. 解题1. 题目 指定年份 Y 和月份 M,请你帮忙计算出该月一共有多少天。 示例 1: 输入:Y 1992, M 7 输出:31示例 2: 输入:Y 2000, M 2 输出:29示例 3: 输入&am…

vue warning如何去掉_详解 vue 组件三大核心概念

前言本文主要介绍属性、事件和插槽这三个vue基础概念、使用方法及其容易被忽略的一些重要细节。如果你阅读别人写的组件,可以从这三个部分展开,它们可以帮助你快速了解一个组件的所有功能。本文的代码请猛戳https://github.com/ljianshu/Blog&#xff0c…