现代信息检索笔记(四)——文档评分、词项权重计算及向量空间模型

目录

对搜索结果进行排序

目标

方案一:jaccard系数

方案二:tf-idf公式

长文本长度

向量空间模型小结


对搜索结果进行排序

排序式检索,如何高速求相关性R

目标

  1. 无关的不在上面
  2. 相关度高的在前面

在链表中不出现的相关性为0,出现次数越多,R逼近1

方案一:jaccard系数

AB集合的交集为分子,并集为分母。

查询为A,文档为B。注:按照集合的方式计算,所以相同的词应看做一个。

这个不算是好模型。

计算下列查询 文档之间的 Jaccard 系数

q: [information on cars] d: “all you’ve ever wanted to know about cars”

q: [information on cars] d: “information on trucks, information on planes, information on trains”  q: [red cars and red trucks] d: “cops stop red cars more often”

J1=1/10 J2=2/6 J3=2/8

1、如例子中第二个information on的权重超过了第一个car,但从文本内容来看,第一个比第二个更相关。在这里Information on属于高频词,要降低高频词的权重。所以df越大,权重要降低。

Df,词在文档集C中出现的文档个数。

  1. 没有考虑在文档集C中出现的词的个数tf(词频)
  2. 添加无关的词会大大降低相关程度。

(分母完全不考虑长短文本的差异,所以长文本会吃亏,短文本的相关)

解决方案,引入两个参数tf df 再加上长度归一化。

有点像CSDN质量分的分析了。

方案二:tf-idf公式

引入

每篇文档可以看做二值关联矩阵(0-1)

非二值关联矩阵(1变成tf)

词袋模型:不考虑词在文档中出现的顺序,方案一其实也是一种词袋模型。

Tf ,term在某doc出现的次数,词项频率

第一种方法,采用原始的tf值,但原始的不合适。

相关度不会正比于词项频率tf,一般把原始的tf做对数化处理。

W=1+log10tf 0->0 1->1 2->1.3 10->2 1000->4

R为所有相关的w值之和。

Df文档频率,词出现的文档数目。IDF是逆文档频率,原始idf是df的倒数。

Idf=log10(N/DF)

单个词的查询,不必考虑idf。所以idf非必要。

Cf在文档集中出现的次数之和,是tf之和。

因为cf无法区分。

综上可得出w=tf.idf公式。

长文本长度

长文本长度怎么计算?长度归一化涉及的问题。

Tf和idf在预处理的时候就能计算,之前生成关联矩阵,现在能生成更高级的关联矩阵。

将文档表示成tfidf权重矩阵。

每篇文档表示成一个基于 tfidf 权重的实值向量

于是,我们有一个 |V|维实值空间

空间的每一维都对应词项

文档都是该空间下的一个点或者向量

极高维向量:对于 Web ∈R 搜索引擎,空间会上千万维

对每个向量来说又非常稀疏,大部分都是 0

查询看成向量

关键思路 1: 对于查询做同样的处理,即将查询表示成同 一高维空间的向量

关键思路 2: 按照文档对查询的邻近程度排序

邻近度=相似度 邻近度 ≈ 距离的反面

回想一下,我们是希望和布尔模型不同,能够得到非二 值的、既不是过多或也不是过少的检索结果 这里,我们通过计算出相关文档的相关度高于不相关文 档相关度的方法来实现

相似度形象化定义

  1. 欧式距离:对文档的长度很敏感。短向量更易和短向量相关,长的类似。
  2. 夹角法,夹角为0,相关性为1。根据夹角余弦值来判断。

文档长度归一化:所有向量映射(长的叫截取、短的叫扩展)半径为1的单位圆上面。

归一化之后,直接求点乘即可。

对于查询和文档可以用不同的模型。

文档中不使用idf差距不是很大,如果文档中高频词过多,那就有很大影响。

向量空间模型小结

将查询表示成 tf-idf 权重向量

将每篇文档表示成同一空间下的 tf -idf权重向量

计算两个向量之间的某种相似度(如余弦相似度)   

按照相似度大小将文档排序 将前 K(如 K =10 )篇文档返回给用户

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/41815.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PageCache页缓存

一.PageCache基本结构 1.PageCache任务 PageCache负责使用系统调用向系统申请页的内存,给CentralCache分配大块儿的内存,以及合并前后页空闲的内存,整体也是一个单例,需要加锁. PageCache桶的下标按照页号进行映射,每个桶里span的页数即为下标大小. 2.基本结构 当每个线程的…

如何使用uer做多分类任务

如何使用uer做多分类任务 语料集下载 找到这里点击即可 里面是这有json文件的 因此我们对此要做一些处理,将其转为tsv格式 # -*- coding: utf-8 -*- import json import csv import chardet# 检测文件编码 def detect_encoding(file_path):with open(file_path,…

Vatee万腾平台:智能生活的新选择

在科技飞速发展的今天,智能生活已经不再是遥不可及的梦想,而是逐渐渗透到我们日常生活的方方面面。Vatee万腾平台,作为智能科技领域的佼佼者,正以其创新的技术、丰富的应用场景和卓越的用户体验,成为智能生活的新选择&…

dc/dc_shell的keep和donot touch区别

donot touch和keep的区别 在半导体设计和综合工具中,donottouch 和 keep 属性通常用于指定综合和布局阶段的特定要求。sizeonly 是 keep 属性的一个可能值。以下是 donottouch 和 keep 属性以及 sizeonly 的区别和用途: donottouch: donotto…

rsync使用教程

1、rsync是什么 rsync是一个在Unix/Linux环境下常用的工具,Windows上可以通过一些替代工具或者使用Cygwin环境来实现类似的功能。Cygwin在安装过程中,选择需要安装的组件时确保选择了rsync和openssh(如果需要通过SSH连接到其他服务器进行备份)。rsync的简单使用如下: rs…

如何引流到私域最有效?

引流到私域最有效的方法通常包括以下几个策略: 1、内容营销: 优质内容创作:制作有价值、有吸引力的内容,如文章、视频、图文等,吸引用户关注。 SEO优化:通过搜索引擎优化,提高内容在搜索引擎…

带流水线的持续连接详解

流水线(Pipeline)的持续连接在网络编程中通常指的是一种能够保持连接持续开放,并允许多个请求在同一个连接上连续发送和接收的技术。这种技术在HTTP/1.1和其他一些网络协议中有应用,目的是提高网络通信效率和性能。HTTP的默认模式…

C++| STL之string

前言:最近在做LeetCode算法题,C字符串通常都是string作为输入,所以补充一下STL里面string。在介绍的具体使用的时候,会补充char字符串相关的进行对比。 string 创建大小和容量遍历字符串比较插入字符拼接字符串分配内存查找截取分…

Java 注入的几种方式

构造函数注入:构造函数注入是最常见的一种依赖注入方式。通过在组件的构造函数中接受依赖参数,并将其保存在私有字段中,可以实现依赖注入。这种方式简单直接,适用于必须的依赖和不变的依赖场景。 public class UserserviceImpl im…

vue学习笔记(购物车小案例)

用一个简单的购物车demo来回顾一下其中需要注意的细节。 先看一下最终效果 功能: (1)全选按钮和下面的商品项的选中状态同步,当下面的商品全部选中时,全选勾选,反之,则不勾选。 &#xff08…

51单片机嵌入式开发:2、STC89C52操作GPIO口LED灯

STC89C52操作GPIO口LED灯 1 芯片介绍1.1 芯片类型1.2 芯片系列说明 2 GPIO引脚寄存器说明3 GPIO操作3.1 GPIO输入3.2 GPIO输出3.3 GPIO流水灯3.4 Protues仿真 4 总结 1 芯片介绍 1.1 芯片类型 芯片采用宏晶科技品牌下的STC89C52RC单片机 选择STC89C52RC系列STC89C58RD系列单片…

Pycharm远程连接GPU(内容:下载安装Pycharm、GPU租借、配置SSH、将代码同步到镜像、命令行操控远程镜像、配置远程GPU解释器)

目录 windows下载安装pycharmGPU租借网站AutoDlfeaturize好易智算 GPU租借GPU选择选择镜像充值 然后创建镜像创建成功 复制SSH登录信息 远程进入镜像 在Pycharm中进行ssh连接新建SFTP配置SSH复制ssh根据复制的信息填写ssh配置测试连接 将代码同步到远程镜像上设置mappings将本地…

大语言模型与知识图谱结合发展方向

引言 在人工智能的发展历程中,大语言模型(LLM)的出现标志着一个重要的转折点。随着深度学习技术的突破和计算能力的提升,LLM以其前所未有的规模和复杂性,开启了迈向人工通用智能(AGI)的新浪潮。…

STM32利用FreeRTOS实现4个led灯同时以不同的频率闪烁

在没有接触到FreeRTOS时,也没有想过同时叫两个或两个以上的led灯闪烁的想法,接触后,发现如果想叫两个灯同时以不同的频率闪烁,不能说是不可能,就算是做到了也要非常的麻烦。但是学习了FreeRTOS后,发现要想同…

使用WinSCP工具连接Windows电脑与Ubuntu虚拟机实现文件共享传输

一。环境配置 1.首先你的Windows电脑上安装了VMware虚拟机,虚拟机装有Ubuntu系统; 2.在你的windows电脑安装了WinSCP工具; 3.打开WinSCP工具默认是这样 二。设置WinSCP连接 打开WinSCP,点击新标签页,进入到如下图的…

(杂文)参加WAIC 2024 所思所感

受华为广办的邀请,在领导要求下, 我还是在这个炎热的暑假通过一个接近凌晨两点落地的飞机连夜从北京来到了上海,去“睁眼看世界”。 区别于纯学术会议和CCF类的会议,WAIC 更加的平易近人,有更多的工业界同行&#xff…

【学术会议征稿】2024年工业自动化与机器人国际学术会议(IAR 2024)

2024年工业自动化与机器人国际学术会议(IAR 2024) 2024 International Conference on Industrial Automation and Robotics 2024年工业自动化与机器人国际学术会议(IAR 2024)将于2024年10月18-20日在新加坡隆重召开。会议将围绕…

三丰云评测:免费虚拟主机与免费云服务器的全面对比

三丰云是一家知名的互联网服务提供商,专注于虚拟主机和云服务器的服务。在互联网技术日新月异的今天,选择一个优质的云服务提供商至关重要。本次评测将重点对比三丰云的免费虚拟主机和免费云服务器,帮助用户更好地选择适合自己需求的服务。首…

0 TMS320F28379D 开坑

开坑原因 最近开始做实验,实验室的主控采用的是F2812FPGA,属于够用但不好用的状态。FPGA用于生成调制信号,DSP完成采样和控制。师兄师姐研究拓扑及调制策略,对驱动数量以及驱动逻辑有比较高的要求,因此不好脱离FPGA&a…

CVE-2023-30212(xss漏洞)

简介 OURPHP版本<7.2.0存在XSS漏洞&#xff0c;攻击路径为/client/manage/ourphp_out.php。 过程 打开靶场 访问攻击路径/client/manage/ourphp_out.php 得到flag{354c7c41-cc23-4de5-be73-79cbbf384aba}