【信息检索导论1】布尔模型

1.Information Retrieval

定义:
Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers).
web search

  • 数量庞大
  • 需要索引
  • 反欺诈
  • 利用超链接

personal information retrieval:

  • eg:Email
  • 分类
  • 垃圾邮件过滤
  • 存储大量类别
  • 维护免费
  • 磁盘空间

enterprise,institutional, and domain-specific search

  • stored on centralized file systems

线性查找:grep

  • 在文本中查某个词足够了,但有其他需求

其他需求:

  • 数据量大而多,快速处理
  • flexible matching operations
  • 排序

布尔模型

  • query:布尔表达式

任务:

  • ad hoc retrieval task.
    • 输入query,输出doc列表(排序后)

评估

  • precision
  • recall

专有名词

  • term:索引的单元,如词、词组、潜在词等
  • document:检索的单位,如网站列表,也可能是某一章节
  • collection或者corpus:doc的集合
  • information need
    • 用户向计算机传递的需求
    • 可能并不精确
  • relevant:如果用户认为包含与其个人信息需求相关的信息

1.1 term-document matrix

在这里插入图片描述
词袋->doc向量:每列一个doc向量,每行一个term向量
query:Brutus AND Caesar AND NOT Calpurnia,
在这里插入图片描述
答案:Antony and Cleopatra and Hamlet
问题

  • 稀疏,词表大难以存储–>倒排索引

1.2 倒排索引

在这里插入图片描述

INVERTED INDEX

  • dictionary(vacabulary):
    • 内存
    • key:term列表,也排序了,也会记录postings的长度(doc freq)
    • value:postings list/postings:排好序的,按doc id,出线相关词的freq,…
  • postings
    • posting记录:docid,term在doc中出现的位置、freq,…
    • 存储:disk
      • 固定长度:不行,浪费
      • linked list:链表,
        • 便于插入,
        • 便于扩展到advanced indexing strategies
          • skip list,需要新的指针
        • 问题:要存储指针
      • 可变数组
        • 顺序存储,遍历快
        • 无需存储指针,指针可以是offset
      • 混合
        • 不变数组的链表

建立:

  • Collect the documents to be indexed:
  • 分词
  • normalized
  • index
    • merge:相同term的相同doc合并
      在这里插入图片描述

1.3 Processing Boolean queries

  1. 得到每个term的postings
  2. OR:则两个表融合,取并集,AND:取交集,转化为AND链接的形式

取交集:(标准方法)
在这里插入图片描述
问题:取交集时,常数复杂度,但这个常数很大
解决:

  • 先按doc freq排序(posting的长度),先合并短的
    • 最终结果的长度不会超过最短的列表
    • 这是保存doc freq.的原因
    • 先算OR,再算AND
      在这里插入图片描述
  • 先算短的,然后保存到中间结果
    • 每次下一个输入与中间结果求交集
    • 问题:不对称
      • 中间结果:内存;下一个输入:disk
      • 但下一个输入可能比中间结果大得多(两个数量级?)
    • 加速合并过程
      • 中间结果的doc在长positng中二分查找合并
      • 长postings采用哈希存储
      • 上述无法用于压缩后的positngs
    • 都是常见词,仍可以用标准法

带中间结果的求交集:
在这里插入图片描述

1.4 对基本布尔操作的扩展和有序检索

布尔检索和有序检索(排序检索模型)对应

布尔检索:

  • query:精确的逻辑表达式
  • 结果:无序
  • 布尔操作符的扩展
    • 邻近操作符:term的距离在文档中接近(中间含有几个词,来表征接近的程度
  • 专业人士更喜欢布尔检索:查询精确,控制力和透明度
    • 排序:按时间。。。

有序检索

  • query:不像逻辑表达式这么精确,采用一个或多个词构建(自由文本查询)
  • 结果:有序

要点

  • term:提供,容忍拼写错误,词语表达不一致(语义相同)
  • 复合词和短语:(Gates Near Microsoft)
  • 相似度:布尔查询仅记录存在与否,但是我们需要得到文档相关的可靠程度
    • 词项频率:term在doc中的频率高,权重高
  • 排序

ad hoc search:

  • 大搜、电商搜索。。。
  • 部分支持布尔操作,专业人士喜欢,大多人用的少

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481418.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一个基于 Transformer 的深度学习架构,在基因调控中组蛋白代码的定量破译方面性能超群...

编辑 | 萝卜皮通过组蛋白修饰对转录控制的定量表征受到许多计算研究的挑战,但其中大多数只关注启动子周围的狭窄和线性基因组区域,留下了改进的空间。韩国首尔大学的研究人员提出了 Chromoformer,这是一种基于 Transformer 的三维染色质构象感…

【搜索排序】预训练综述Pre-training Methods in Information Retrieval

文章目录相关性效率系统预训练word embeddingtransformers2. 召回阶段2.1 Sparse Retrieval Models2.2 Dense Retrieval Models。2.3 混合方式3.re-rank阶段4. 其他组件4.1 在query理解上4.2 在doc理解上:未来工作数据集数据集中排行榜信息检索中的花式预训练综述&a…

i-Refill | 张益唐:虽未实现大海捞针,但摸透了整个海底的情况

来源:IDG资本#i-Refill欢迎回到本周的i-Refill! 我们知道,黎曼猜想是当代数学领域内最重要的待解决问题之一,很多深入和重要的数学及物理结果都将在它成立的大前提下得到证明。10月中,我们围绕数学家张益唐承认已攻克黎曼猜想的弱…

【搜索排序】(ReRank)A Deep Look into Neural Ranking Models for Information Retrieval

文章目录数据集3. 同一框架4. 模型结构-对称与非对称对称结构:s,t可互换siamese networksSymmetric interaction networks,非对称结构query splitdocument splitJoint split,one-way attention mechanism基于表示的模型和基于交互的模型representation-focused arch…

2022全国市域治理与城市大脑峰会开放报名

来源:中国指挥与控制学会未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术…

新的深度学习方法可能有助于预测大脑认知功能

编辑 | 萝卜皮人类大脑结构与认知功能的关系很复杂,而这种关系在儿童期和成年期之间有何不同却知之甚少。一个强有力的假设表明,流体智能(Gf)的认知功能依赖于前额叶皮层和顶叶皮层。在这项工作中,西北大学&#xff08…

哈佛大学教授详解:深度学习和经典统计学差异?

来源:机器学习研究组订阅深度学习和简单的统计学是一回事吗?很多人可能都有这个疑问,毕竟二者连术语都有很多相似的地方。在这篇文章中,理论计算机科学家、哈佛大学知名教授 Boaz Barak 详细比较了深度学习与经典统计学的差异&…

【CTR优化】威尔逊区间

实际&#xff1a;正态分布 采样得到的&#xff1a;不一样 p^\hat{p}p^​:wilson p: 区间相等原则:&#xff08;假设&#xff09; P1/P2都是P,是实际值 做CTR优化时 p^\hat{p}p^​为计算所得CTR点击率/曝光率 优化后的为w- 疑问&#xff1a;why取w-?因为默认P<p(P1<p) …

数字科技与数字经济的数字大脑模型

本文2022年10月发表于中国科学报社《科学新闻》杂志作者&#xff1a;刘锋21世纪是数字科技和数字经济爆发的时代。从2000年开始&#xff0c;社交网络、web2.0等数字科技不断涌现&#xff0c;由此诞生的谷歌、亚马逊、腾讯、阿里巴巴、京东等科技企业构成了日益壮大的数字经济&a…

【hadoop3.2.1】windows10 docker学习环境创建,windows和容器bridge模式下联网,测试例子

本地机器&#xff1a;windows10 虚拟机&#xff1a;centOS7.9 docker创建hadoop学习环境 1.创建docker镜像&#xff08;hadoop&#xff09; 下载centos镜像: docker pull centos 启动一个容器&#xff1a;docker run -td --name base -i centos bash 进入容器&#xff0c;安装…

工信部专家:中国传感器最大的问题是什么?怎么解决?(最新观点)

来源&#xff1a;中国传感器与应用技术大会、河南省智能传感器行业协会、中国电子报、传感器专家网&#xff08;本文仅做综合整理&#xff09;11月11日-13日&#xff0c;首届中国传感器与应用技术大会在深圳市光明区隆重举行。会上&#xff0c;工信部电子元器件行业发展研究中心…

皮亚杰:数学结构和逻辑结构

来源&#xff1a;人机与认知实验室计算是封闭的事实结构&#xff0c;算计是开放的价值组合&#xff0c;计算计是开放性封闭的事实价值混合体——编者按群的概念如果不从检验数学结构开始&#xff0c;就不可能对结构主义进行批判性的陈述。其所以如此&#xff0c;不仅因为有逻辑…

大模型狂欢背后:AI基础设施的“老化”与改造工程

来源&#xff1a;OneFlow社区作者&#xff1a;River Riddle、Eric Johnson、Abdul Dakak翻译&#xff1a;胡燕君、杨婷机器学习模型逐渐发展成人们口中的“庞然大物”。全球顶尖的科技公司纷纷踏上“军备竞赛”之路&#xff0c;立志训练出规模最大的模型&#xff08;MUM、OPT、…

DeepMind 最新发文:AlphaZero 的黑箱打开了

来源&#xff1a;AI科技评论作者&#xff1a;李梅编辑&#xff1a;陈彩娴AlphaZero 表明神经网络可以学到人类可理解的表征。国际象棋一直是 AI 的试验场。70 年前&#xff0c;艾伦图灵猜想可以制造一台能够自我学习并不断从自身经验中获得改进的下棋机器。上世纪出现的“深蓝”…

陶哲轩:张益唐新论文存在一些技术问题,我已请他澄清

来源&#xff1a;梦晨 羿阁 发自 凹非寺量子位 | 公众号 QbitAI张益唐的零点猜想证明&#xff0c;该由谁来检验&#xff1f;不少人把目光投向陶哲轩。最新消息&#xff0c;陶哲轩已经读过张益唐的论文并做出点评&#xff1a;目前论文的基本正确性尚未得到确认。存在一些印刷错误…

MIT提出封闭式连续时间神经网络,解决大脑动力学问题可产生灵活的机器学习模型...

编辑/绿萝去年&#xff0c;麻省理工学院&#xff08;MIT&#xff09;的研究人员开发出了「液体」神经网络&#xff0c;其灵感来自小型物种的大脑&#xff0c;不仅能在训练阶段学习&#xff0c;而且还能持续不断地适应。可用于自动驾驶和飞行、大脑和心脏监测、天气预报和股票定…

自上而下的因果关系:数学结构与观察者

导语复杂性的基础是模块化的分层结构&#xff0c;导致基于较低级别网络的结构和功能的涌现级别。通俗而言&#xff0c;当需要执行复杂的任务时&#xff0c;可以将其分解为子任务&#xff0c;每个子任务都比整个项目更简单&#xff0c;需要更少的数据和更少的计算能力&#xff0…

从大脑中汲取灵感,能效提高了1000倍,新芯片拓展AI的可能性

来源&#xff1a;ScienceAI人工智能算法无法以目前的速度保持增长。像深度神经网络这样的算法——它受到大脑的松散启发&#xff0c;多层人工神经元通过称为权重的数值相互连接——每年都在变大。但如今&#xff0c;硬件改进已无法跟上运行这些海量算法所需的大量内存和处理能力…

5G/6G:构建一个更加互联智能的世界

来源&#xff1a;IEEE电气电子工程师在过去几年中&#xff0c;随着5G网络技术的兴起&#xff0c;5G基础建设与应用也日渐成熟。2023年&#xff0c;通信行业的发展步伐也并未放缓。在《IEEE全球调研&#xff1a;科技在2023年及未来的影响》中显示&#xff0c;当半数的受访者谈及…

Science 撤稿“天使粒子”论文,原始数据受质疑

海归学者发起的公益学术平台分享信息&#xff0c;整合资源交流学术&#xff0c;偶尔风月11月18日&#xff0c; Science 撤下了王康隆、张首晟等科学家完成的著名“天使粒子”论文。2021年3月 Nature 也撤回了代尔夫特理工大学的一篇“天使粒子”相关的论文。两篇重量级论文的倒…