【搜索排序】(ReRank)A Deep Look into Neural Ranking Models for Information Retrieval

文章目录

    • 数据集
  • 3. 同一框架
  • 4. 模型结构-对称与非对称
    • 对称结构:s,t可互换
      • siamese networks
      • Symmetric interaction networks,
    • 非对称结构
      • query split
      • document split
      • Joint split,
      • one-way attention mechanism
  • 基于表示的模型和基于交互的模型
    • representation-focused architecture
    • interaction-focused architecture
      • non-parametric interaction functions
      • parametric interaction functions
    • 混合结构
      • Combined strategy
      • Coupled strategy
  • 模型结构: Single-granularity vs. Multi-granularity Architecture
    • Single-granularity
    • Multi-granularity Architecture
  • 模型学习
    • Pointwise:交叉熵
    • pairwise:margin loss/交叉熵
    • Listwise
    • 多任务学习
  • 模型比较

Neural Ranking Models

  • 优点:避免手工特征
  • 本文仅考虑text
  • 仅考虑dense表示,构建排序函数

排序模型:

  • vector space models [1],
  • probabilistic models [2],
  • learning to rank(LTR) models [3, 4]

神经网络

  • 从原始输入中学习抽象表示
  • 可解决困难问题

以前的LTR模型:

  • 手工特征(耗时、具体)
  • 相关性:定义模糊

稀疏表示/表示学习方法

  • 不使用神经网络构建排序函数
  • 用神经模型[15,16]的文本的低维表示,并在传统的红外模型中使用它们,
  • or,使用一些新的相似性度量来排序任务。

深度-密集表示(2013-)

  • 2014-2015:短文本
    • Deep Structured Semantic Model (DSSM) [13]
      • the ad-hoc retrieval task.
    • Lu and Li[14] proposed DeepMatch,
      • Community-based Question Answering (CQA)
      • micro-blog matching tasks.
    • ARC I and ARC II [17]
    • MatchPyramid [18]
  • 以上用于: short text ranking tasks,such as TREC QA tracks and Microblog tracks [19].
  • 2016:
    • 研究人员开始讨论神经排序模型对不同排序任务[21,22]的实际有效性
    • 任务:
      • ad-hoc retrieval [23, 24]
      • community-based QA [25]
      • conversational search [26]
    • 新的训练范式:
      • neural representations [28]
      • integration of external knowledge [29, 30
      • 其他IR用途: [31, 32].
    • 从0学习:(完全无手工特征)超过手工的效果

数据集

  • ad hoc:short-long
    • Robust [21, 18],
    • ClueWeb [21],
    • GOV2 [33, 34]
    • Microblog[33],
    • the AOL log [27]
    • the Bing Search log [13, 47, 48,23].
    • 大规模: NTCIR WWW Task [49],
  • QA:问题比query长,答案比doc短,相关性定义精确
    • TREC QA [53]
    • WikiQA [37],
    • WebAP [57, 58],
    • InsuranceQA [59],
    • WikiPassageQA [56]
    • MS MARCO [36].
    • 模型 [60, 19, 61, 25, 14]
  • Community Question Answering:短-短(问题间匹配),清晰,对称
    • the Quora Dataset7,
    • Yahoo! Answers Dataset [25]
    • and SemEval-2017 Task3 [64].
    • 最近CQADupStack8[65],
    • ComQA9[66]
    • LinkSO [67].
    • 模型:[68, 18, 69, 70, 25]
  • Automatic Conversation
    • 从问题集合中选择适当响应、生成关于输入对话的适当响应
    • 单轮对话、多轮对话
    • 无词表匹配问题
    • 问题: correspondence/coherence and avoid general trivial responses
    • 数据集:
      • Ubuntu Dialog Corpus (UDC) [75,77, 78],
      • Sina Weibo dataset [74, 26, 79, 80],
      • MSDialog [81, 30, 82]
      • ”campaign” NTCIR STC [83]

3. 同一框架

框架:LTR
在这里插入图片描述

在这里插入图片描述

  • 传统:
    • 函数固定
    • s,t为原始文本
  • 神经网络:
    • 所有的函数ψ、φ、η和g都被编码在网络结构中,因此它们都可以从训练数据中学习到。
    • s,t为原始文本或者word embedding

4. 模型结构-对称与非对称

对称结构:s,t可互换

假设:同质假设
任务:CQA/AC

  • 通过减少异质性用于ad-hoc和QA
    • 仅适用doc标题
    • 短的答案句子

代表:

  • siamese networks
  • symmetric interaction networks

siamese networks

DSSM [13], CLSM [47] and LSTMRNN [48]

  • DSSM:两个一样的处理

    • letter-trigram mapping+ MLP
    • cos
  • CLSM [47]

    • CNN:局部词序信息
  • LSTM-RNN [48]:

    • LSTM:长距离依赖信息

Symmetric interaction networks,

DeepMatch [14], Arc-II [17], MatchPyramid [18] and Match-SRNN [69]

Arc-II [17]:

  • 计算s和t上每个n-gram对之间的相似度
  • score:CNN+max pooling多个获得最终相似度

MatchPyramid:

  • 计算每个词对之间的相似度
  • 细粒度
  • score:2D CNN+dynamic pooling layer
  • 将匹配矩阵视作图像(二维)

PACRR [24]

  • 将匹配矩阵视作图像(二维)

非对称结构

query和doc:异质
如果互换,则输出完全不同
任务:ad-hoc/QA
在这里插入图片描述

query split

假设:query:基于关键字

  • query—>相应的term
  • model:DRMM[21]

DRMM[21]

  • query拆分为term,
  • 交互:query 拆分为多个term,计算每个term和doc的相似度(FFC)
  • socre:相似度聚合函数(gating network)

KNRM[85]

  • kernel pooling函数近似匹配histogram mapping
  • 端到端

document split

假设:长文本的部分与query相关

  • 得到细粒度的交互信号

HiNT [34]

  • 滑动窗口:分割段落
  • 相似度:cos

Joint split,

假设:

  • doc:长文本的部分与query相关
  • query:基于关键字

DeepRank [33]

  • 依据每个query term,将doc划分为以term为中心的上下文

one-way attention mechanism

利用问题表示来获得对候选答案词的关注,以增强答案表示

IARNN [86]

CompAgg [87]

  • 得到由问题句子表示加权的注意答案表示序列。

基于表示的模型和基于交互的模型

  • 表示函数 or 交互函数
    • representation-focused architecture
    • interaction-focused architecture
    • 混合结构
      在这里插入图片描述

representation-focused architecture

假设:相关性取决于输入文本的组成含义( compositional meaning)
表示函数:ffn,cnn,rnn…
交互函数:无
得分函数:g(cos,mlp,…)

MLP:DSSM

CNN:

  • Arc-I [17],
  • CNTN [25]
  • CLSM [47】

RNN:
LSTM-RNN [48] and MV-LSTM [88]

模型:
Arc-I [17],

  • 1D CNN+Max pooling
  • concat:MLP

CNTN:

  • score:neural tensor layer替代MLP

LSTM-RNN:

  • encoder:单向LSTM

MVLSTM

  • encoder:bi-LSTM
  • MLP

通过基于每个输入文本的高级表示来评估相关性,以表示为中心的架构更好地适合于全局匹配需求[21]。

任务:CQA/AC
适用于:在线

  • 表示可以离线学习
  • 优点:
    • 与全局匹配的需求匹配
    • 适合短输入文本,长文本难以获得好的高层表示
    • 在线

interaction-focused architecture

假设:相关性在本质上是输入文本之间的关系,所以从交互中学习更高效
non-parametric interaction functions and parametric interaction functions

这种架构可以更好地适合需要特定匹配模式(例如,精确的单词匹配)和不同匹配需求[21],

适合异质任务

  • ad-hoc
  • QA

适合离线,不适合在线

优点:

  • 估计相似度定义在交互上,可以满足大多IR
  • 通过详细IR,而非单个文本表示,可以更好地适应需要特定匹配和不同匹配需求的任务(exact word matching,ad-hoc)
  • 更好地拟合异构输入任务,因为避开了对长文本的编码
  • 不适合在线

non-parametric interaction functions

反应输入之间的距离或者接近程度
输入:每一对word vectors
binary indicator function [18, 33], cosine similarity function [18, 61, 33],
dot-product function [18, 33, 34] and radial-basis function [18]

其他:
. the
matching histogram mapping in DRMM [21] and the kernel pooling layer
in K-NRM [85].

parametric interaction functions

Arc-II [17]

  • 1D convolutional layer for the interaction bwteen two phrases.

  • Match-SRNN [69]

    • the neural tensor layer to model complex interactions between input words.

混合结构

混合表示和交互

  • 组合策略
  • 耦合策略

Combined strategy

较为松散
将基于表示的和基于交互的输出结合在一起
DUET [23]

  • CLSM-like
  • MatchPyramid-like
  • 两者输出结合得到最终输出

Coupled strategy

IARNN [86] and CompAgg [87],

模型结构: Single-granularity vs. Multi-granularity Architecture

依据相关性估计过程的不同假设划分

Single-granularity

假设:基于φ,ψ和η从单格式文本输入中提取的高层特征来评估相关性
φ,ψ和η:两个表示函数,一个交互函数
输入:words 或 word embeddings

eg:DSSM、MatchPyramid、DRMM、HiNT、ARC-I、MV-LSTM、K-NRM、Match-SRNN等。

Multi-granularity Architecture

在这里插入图片描述
假设:相关性估计需要多粒度的特征

  • 不同级别的特征抽象
  • 不同类型的语言单元

划分

  • 垂直多粒度:利用了深层网络的分层性质,使得评估函数g可以利用特征的不同级别抽象来进行相关性估计。
  • 水平多粒度:通过将输入从单词(words)扩展到短语/n元串(phrases/n-grams)或句子(sentences)来增强输入,在每个输入形式上应用特定的单粒度体系结构,并聚合最终相关性输出的所有粒度。

任务:

  • ad-hoc retrieval
  • QA

模型学习

Pointwise:交叉熵

在这里插入图片描述
优点:

  • 易于扩展:pointwise ranking objectives 基于每个query-document pair (si,ti,j) 分别计算,这使得它很简单且易于扩展。
  • 实际含义与价值:以 pointwise loss function 作为损失函数的 neural model 的输出往往在实际中有真实的含义和价值。

缺点:效率低,达不到全局最小。
一般而言,按点排序目标在排序任务中被认为效率较低。因为逐点损失函数不考虑文档偏好或排序信息,因此它们不能保证在模型损失达到全局最小值时可以生成最佳的排序列表。

pairwise:margin loss/交叉熵

hinge loss:
在这里插入图片描述
交叉熵:
在这里插入图片描述

优点:有效,最优结果列表
理想情况下,当成对排序损失最小化时,文档之间的所有偏好关系都应该得到满足,并且模型将为每个查询生成最优结果列表。这使 pairwise ranking objectives 在根据相关文档的排序来评估性能的许多任务中有效。

缺点:然而,在实践中,由于以下两个原因,在 pairwise 方法中优化文档偏好并不总是导致最终ranking metrics 的改进:

  • 理想只是理想:开发一个在所有情况下都能正确预测文档偏好的排序模型是不可能的。
  • 重要性不一致:在大多数现有排名度量的计算中,并不是所有的文档对都同等重要。

Listwise

在这里插入图片描述
loss:ListMLE、Attention Rank function
优点

  • 有效: 当我们在无偏学习框架下用用户行为数据(例如,点击)训练神经排序模型时,它特别有用。
  • re-rank: 它们适用于对一小部分候选文档的重新排序阶段(re-ranking phase)。由于许多实用的搜索系统现在使用神经模型进行文档重新排序,因此 Listwise Ranking Objective 在神经排序框架中变得越来越流行。

缺点:成本高:虽然列表排序目标通常比成对排序目标更有效,但其高昂的计算成本往往限制了它们的应用。

多任务学习

模型比较

在 ad-hoc retrieval 任务上的比较

概率模型(即QL和BM25)虽然简单,但已经可以达到相当好的性能。具有人为设计特征的传统PRF模型(RM3)和LTR模型(RankSVM和LambdaMart)是强基线,其性能是大多数基于原始文本的神经排序模型难以比拟的。然而,PRF技术也可以用来增强神经排序模型,而人类设计的LRT特征可以集成到神经排序模型中以提高排序性能。
② 随着时间的推移,该任务中的 neural ranking model architecture 似乎从对称到不对称,从以表示为中心到以交互为中心的范式发生转变。的确,不对称和以交互为中心的结构可能更适合表现出异构性的ad-hoc检索任务
③ 在不同数量的查询和标签方面具有更大的数据量的神经模型更有可能获得更大的性能改进。(与非神经模型相比)
④ 观察到,通常情况下,非对称的、关注交互的、多粒度的架构可以在ad-hoc检索任务中工作得更好。

在 QA 任务上的比较

① 可能因为问题和答案之间的同构性的增加,对称(symmetric)结构在 QA 任务中得到了更广泛的采用。
② 表示=交互:在QA任务中,以表示为中心的架构和以交互为中心的架构没有一个明显的胜者。在 short answer sentence retrieval 数据集(即TREC QA和WikiQA)上更多地采用了以表示为中心的架构,而在longer answer passage retrieval 数据集(例如Yahoo!)上更多地采用了以交互为中心的架构。
③ 与ad-hoc检索类似,在较大的数据集上,神经模型比非神经模型更有可能获得更大的性能改进。

一个翻译

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481414.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2022全国市域治理与城市大脑峰会开放报名

来源:中国指挥与控制学会未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术…

新的深度学习方法可能有助于预测大脑认知功能

编辑 | 萝卜皮人类大脑结构与认知功能的关系很复杂,而这种关系在儿童期和成年期之间有何不同却知之甚少。一个强有力的假设表明,流体智能(Gf)的认知功能依赖于前额叶皮层和顶叶皮层。在这项工作中,西北大学&#xff08…

哈佛大学教授详解:深度学习和经典统计学差异?

来源:机器学习研究组订阅深度学习和简单的统计学是一回事吗?很多人可能都有这个疑问,毕竟二者连术语都有很多相似的地方。在这篇文章中,理论计算机科学家、哈佛大学知名教授 Boaz Barak 详细比较了深度学习与经典统计学的差异&…

【CTR优化】威尔逊区间

实际&#xff1a;正态分布 采样得到的&#xff1a;不一样 p^\hat{p}p^​:wilson p: 区间相等原则:&#xff08;假设&#xff09; P1/P2都是P,是实际值 做CTR优化时 p^\hat{p}p^​为计算所得CTR点击率/曝光率 优化后的为w- 疑问&#xff1a;why取w-?因为默认P<p(P1<p) …

数字科技与数字经济的数字大脑模型

本文2022年10月发表于中国科学报社《科学新闻》杂志作者&#xff1a;刘锋21世纪是数字科技和数字经济爆发的时代。从2000年开始&#xff0c;社交网络、web2.0等数字科技不断涌现&#xff0c;由此诞生的谷歌、亚马逊、腾讯、阿里巴巴、京东等科技企业构成了日益壮大的数字经济&a…

【hadoop3.2.1】windows10 docker学习环境创建,windows和容器bridge模式下联网,测试例子

本地机器&#xff1a;windows10 虚拟机&#xff1a;centOS7.9 docker创建hadoop学习环境 1.创建docker镜像&#xff08;hadoop&#xff09; 下载centos镜像: docker pull centos 启动一个容器&#xff1a;docker run -td --name base -i centos bash 进入容器&#xff0c;安装…

工信部专家:中国传感器最大的问题是什么?怎么解决?(最新观点)

来源&#xff1a;中国传感器与应用技术大会、河南省智能传感器行业协会、中国电子报、传感器专家网&#xff08;本文仅做综合整理&#xff09;11月11日-13日&#xff0c;首届中国传感器与应用技术大会在深圳市光明区隆重举行。会上&#xff0c;工信部电子元器件行业发展研究中心…

皮亚杰:数学结构和逻辑结构

来源&#xff1a;人机与认知实验室计算是封闭的事实结构&#xff0c;算计是开放的价值组合&#xff0c;计算计是开放性封闭的事实价值混合体——编者按群的概念如果不从检验数学结构开始&#xff0c;就不可能对结构主义进行批判性的陈述。其所以如此&#xff0c;不仅因为有逻辑…

大模型狂欢背后:AI基础设施的“老化”与改造工程

来源&#xff1a;OneFlow社区作者&#xff1a;River Riddle、Eric Johnson、Abdul Dakak翻译&#xff1a;胡燕君、杨婷机器学习模型逐渐发展成人们口中的“庞然大物”。全球顶尖的科技公司纷纷踏上“军备竞赛”之路&#xff0c;立志训练出规模最大的模型&#xff08;MUM、OPT、…

DeepMind 最新发文:AlphaZero 的黑箱打开了

来源&#xff1a;AI科技评论作者&#xff1a;李梅编辑&#xff1a;陈彩娴AlphaZero 表明神经网络可以学到人类可理解的表征。国际象棋一直是 AI 的试验场。70 年前&#xff0c;艾伦图灵猜想可以制造一台能够自我学习并不断从自身经验中获得改进的下棋机器。上世纪出现的“深蓝”…

陶哲轩:张益唐新论文存在一些技术问题,我已请他澄清

来源&#xff1a;梦晨 羿阁 发自 凹非寺量子位 | 公众号 QbitAI张益唐的零点猜想证明&#xff0c;该由谁来检验&#xff1f;不少人把目光投向陶哲轩。最新消息&#xff0c;陶哲轩已经读过张益唐的论文并做出点评&#xff1a;目前论文的基本正确性尚未得到确认。存在一些印刷错误…

MIT提出封闭式连续时间神经网络,解决大脑动力学问题可产生灵活的机器学习模型...

编辑/绿萝去年&#xff0c;麻省理工学院&#xff08;MIT&#xff09;的研究人员开发出了「液体」神经网络&#xff0c;其灵感来自小型物种的大脑&#xff0c;不仅能在训练阶段学习&#xff0c;而且还能持续不断地适应。可用于自动驾驶和飞行、大脑和心脏监测、天气预报和股票定…

自上而下的因果关系:数学结构与观察者

导语复杂性的基础是模块化的分层结构&#xff0c;导致基于较低级别网络的结构和功能的涌现级别。通俗而言&#xff0c;当需要执行复杂的任务时&#xff0c;可以将其分解为子任务&#xff0c;每个子任务都比整个项目更简单&#xff0c;需要更少的数据和更少的计算能力&#xff0…

从大脑中汲取灵感,能效提高了1000倍,新芯片拓展AI的可能性

来源&#xff1a;ScienceAI人工智能算法无法以目前的速度保持增长。像深度神经网络这样的算法——它受到大脑的松散启发&#xff0c;多层人工神经元通过称为权重的数值相互连接——每年都在变大。但如今&#xff0c;硬件改进已无法跟上运行这些海量算法所需的大量内存和处理能力…

5G/6G:构建一个更加互联智能的世界

来源&#xff1a;IEEE电气电子工程师在过去几年中&#xff0c;随着5G网络技术的兴起&#xff0c;5G基础建设与应用也日渐成熟。2023年&#xff0c;通信行业的发展步伐也并未放缓。在《IEEE全球调研&#xff1a;科技在2023年及未来的影响》中显示&#xff0c;当半数的受访者谈及…

Science 撤稿“天使粒子”论文,原始数据受质疑

海归学者发起的公益学术平台分享信息&#xff0c;整合资源交流学术&#xff0c;偶尔风月11月18日&#xff0c; Science 撤下了王康隆、张首晟等科学家完成的著名“天使粒子”论文。2021年3月 Nature 也撤回了代尔夫特理工大学的一篇“天使粒子”相关的论文。两篇重量级论文的倒…

2022年全球人工智能产业态势分析

来源&#xff1a;学术plus 作者&#xff1a;学术plus观察员 曹文&#xff0c;惠文审核&#xff1a;行业研究顾问 辛鑫&#xff0c;行雁国家战略风向1.1 全球主要国家密集发布政策举措&#xff0c;争夺人工智能领域优势2022年全球主要国家在人工智能领域的竞争仍然激烈。据英国牛…

你与植物人有何区别?意识与复杂性的新研究给你答案

来源&#xff1a;Mindverse Research作者&#xff1a;郭瑞东相比无意识的时间&#xff0c;当你有意识时&#xff0c;你会有怎样的直观感受&#xff1f;是觉得更加不可预测&#xff0c;还是能够用相距更长的事件进行描述&#xff1f;如果将有意识时的大脑活动记录下来&#xff0…

NeuroAI作者,冷泉港主任独家专访:忽视神经科学给我们的启示是愚蠢的

来源&#xff1a;智源社区采访&整理&#xff1a;李梦佳校对&#xff1a;熊宇轩神经科学究竟如何启发AI&#xff1f;不同路径如何殊途同归&#xff1f;智源社区采访了NeuroAI白皮书的第一署名作者&#xff0c;来自冷泉港实验室&#xff08;Cold Spring Harbor Laboratory&am…

AI再卷数学界,DSP新方法将机器证明成功率提高一倍

来源&#xff1a;机器之心编谷歌的吴宇怀 (Yuhuai Tony Wu)等研究者设计了一种叫做「Draft, Sketch, and Prove」 (DSP)的新方法将非形式化的数学证明转化为形式化的证明。实验结果显示&#xff0c;自动证明器在 miniF2F 上解决的问题比例从 20.9% 提高到了 38.9%。自动证明数学…