论文小综 | 文档级关系抽取方法(上)

本文作者:

陈想,浙江大学在读博士,研究方向为自然语言处理

张宁豫,浙江大学助理研究员,研究方向为自然语言处理、知识表示与推理


1. 前言

关系抽取(Relation Extraction, RE)是从纯文本中提取未知关系事实,是自然语言处理领域非常重要的一项任务。过去的关系抽取方法主要将注意力集中于抽取单个实体对在某个句子内反映的关系,然而单句关系抽取在实践中受到不可避免的限制:在真实场景如医疗、金融文档中,有许多关系事实是蕴含在文档中不同句子的实体对中的,且文档中的多个实体之间,往往存在复杂的相互关系。如下图所示:

图中包括了文章中的三个关系事实(从文档标注的诸多关系事实中采样得到),其中涉及这些关系事实的命名实体用彩色着色,其它命名实体用下划线标出。与句子级相比,文档级关系抽取中的文本要长得多,并且包含更多的实体, 这使得文档级关系抽取更加困难。例如,关系事实(Baltimore,country,U.S.)和(Eldersburg,country,U.S.)中的相关实体并没有出现在同一个句子中并且需要长距离依赖,除此之外, 识别这两个关系实例还需要逻辑推理, 由Eldersburg坐落于Maryland,而Maryland属于U.S.,可以推理出Eldersburg属于U.S.。该过程需要对文档中的多个句子进行阅读和推理,这显然超出了句子级关系抽取方法的能力范围。根据从维基百科采样的人工标注数据的统计表明,至少40%的实体关系事实只能从多个句子联合获取。因此,有必要将关系抽取从句子级别推进到文档级别。

文档级关系抽取主要面临以下三个挑战:

1. 相同关系会出现在多个句子。在文档级关系抽取中,单一关系可能出现在多个输入的句子中,因此模型需要依赖多个句子进行关系推断。

2. 相同实体会具有多个指称。在复杂的文档中,同一个实体具有各种各样的指称,因此模型需要聚合不同的指称学习实体表示。

3. 不同的实体之间的关系需要逻辑推理。文档包含多个实体关系三元组,不同的实体关系三元组之间存在逻辑关联,因此模型需要具备一定的逻辑推理能力。

2. 文档级关系抽取数据集

2.1 DocRED

2019年的ACL上清华大学刘知远团队提出了一个关系抽取数据集DocRED[1],为文档级关系抽取的研究提供了一个非常好的标注数据集。DocRED包含对超过5000篇Wikipedia文章的标注,包括96种关系类型、143,375个实体和56,354个关系事实,这在规模上超越了以往的同类精标注数据集。与传统的基于单句的关系抽取数据集相比,DocRED中超过40%的关系事实只能从多个句子中联合抽取,因此需要模型具备较强的获取和综合文章中信息的能力,尤其是抽取跨句关系的能力。DocRED还有一个在线的Leaderboard https://competitions.codalab.org/competitions/20717#results

2.2 CDR

CDR是生物医学领域的人类标注的化学疾病关系抽取数据集,由500份文档组成,该数据集的任务是预测化学和疾病概念之间的二元相互作用关系。

2.3 GDA

GDA是生物医学领域的一个大规模数据集,它包含29192篇文档以供训练,其任务是预测基因和疾病概念之间的二元相互作用。

3. 文档级关系抽取方法

文档级关系抽取总体可以分为两类方法:基于序列的方法和基于文档图的方法。基于序列的方法主要直接使用神经网络学习文档中实体的表征,并对所有候选实体对进行分类,代表论文有[1-13];基于文档图的方法则通过实体及其指称构建文档图,并通过图传播的方式显式学习实体与实体之间的关联,代表的论文有[14-22]。基于序列的方法模型相对简单,便于实际落地应用。基于文档图的方法对需要复杂逻辑推理的样本具有一定的优势。下面,我们介绍5篇文档级关系抽取的代表性论文。

其中基于文档图的方法我们在本次推文中介绍,基于序列的方法我们将在下一次推文介绍。

3.1 基于文档图的方法

基于图的模型主要利用词或者实体等构建图节点,通过学习文档的潜在图结构来构造文档图,并使用图神经网络进行推理。这里我们主要介绍以下3篇代表性的论文。

Connecting the Dots: Document-level Neural Relation Extraction with Edge-oriented Graphs

发表会议:EMNLP 2019

论文链接:

https://www.aclweb.org/anthology/D19-1498/

Motivation

这篇paper[14]提出的模型的动机基于以下几个发现:

1. 之前很多利用图网络的方法,只关注node而没有关心node之间edge的表达, 然而作者发现文档级别的图具有丰富的层次化的edge和node,可以在不同种类node之间,建立不同类型的edge来决定信息流入node的多少,来更好的拟合文档之间异构的交互关系。

2. 每一个target entity的mentions对于entity之间的relation是非常重要的。

Model

EoG模型认为不同的node根据不同的性质生成不同种类的edge,但是采用相同的启发式规则归纳到相同的表达空间当中,从而不断更新node表达。其主要分为四部分:Sentence Encoding Layer、Graph Construction、Inference Layer、Classification Layer。

1. Sentence Encoding Layer:doucment中的每一个sentence的word都被编码为一个vector,实际上,这样得到的是4维的张量[batch_size,nums_seqs,seq_length,embedding_dim],然后将其把每个句子都放入BiLSTM当中生成新的隐表示状态,得到contxtual representation。

2. Graph Construction:分为node construction与edge construction。

  • node construction:在EoG模型中,有以下三种node:

    • mention node:是所有entity的mentions的集合。每一个mention node的representation是此mention的所有word embedding的平均值

    • entity node:是所有entity的集合,每一个entity node的representation是该entity所有的mentions的平均值

    • sentence node: 是所有sentence的集合,每一个sentence node是该sentence中所有word embedding的平均值

  • edge construction:在EoG模型中,有以下五种edge:

    • mention-mention(MM):作者是连接两个在同一个sentence中的两个mention,并且其表示是concat这两个mention本身的representation+context+两个mention的距离

    • mention-entity(ME):连接所有的mention与其对应的entity

    • mention-sentence(MS):将mention与此mention所在的sentence node进行连接

    • entity-sentence(ES):如果一个sentence中至少存在一个entity的mention,那么我们将setence node与entity node进行连接

    • sentence-sentence(SS):将所有的sentence node进行连接,以获得non-local information

基于上述建立的多种类型的edge和node关系,作者将异构的edge统一到相同的表达中,把不同edge的类型根据不同的矩阵转换映射到相同的空间当中来进行后续的推导。

3. Inference Layer:

本文中由于没有直接的EE edge,所以需要得到entity之间的唯一路径的表示来产生EE edge的Representation,这里使用了two-step inference mechanism来实现这一点。

  • The first step:利用中间节点  在两个节点  和    之间产生一条路径,如下:

  • The second step:如果  和  节点之间的原本就存在edge,将原始的edge与所有新产生的edge的信息进行聚合,其信息融合方式如下(   是一个对于远近关系控制的超参数,越大表示越对直接连接注意)

重复上述两步N次,我们就可以得到比较充分混合的EE edge。实际上,这一步就是为了解决logical  reasoning。

4. Classification Layer:

这里使用softmax进行分类,因为实验所使用的两个数据集其实都是每一个entity pair都只有一个Relation,具体公式如下:

Experiment

数据集:CDR、GDA

实验结果:

作者在ablation study部分探索了不同节点之间信息交互方式对信息抽取的影响,其对EoG(full)、EoG(NoInf)、EoG(Sent) 三个变体模型在不同长度的entity pair进行实验:

从这张图我们可以看出:在intra-sentence当中,EoG(full)提供的推理未能达到很好的效果。然而长句子建模的效果,尤其是当entity pair之间相差4句以上时的效果要远好于EoG(Sent),这证明了EoG(Sent)在建模的时候可能忽略了一些重要的节点之间交互信息,那么能否让模型自动选择哪些节点参与交互,以及参与交互的权重是多少呢?(在LSR就是这么做的)。除此之外,作者还对不同的component进行了消融实验,文章利用控制变量法,去除不同的边来观察不同边的产生的影响如下:

从图中结果可以看到,去掉SS对模型的结果影响很大,这这说明对于document-level RE,提取inter-sentence之间的交互信息是非常重要的,另外,尽管在本模型中去掉MM对结果影响最小,共指信息建立的MM之间的关系并没有给模型带来一个significant improvement,但我认为共指信息MM的确对于entity pair的relation identification共指信息的确有非常重要的作用,只是EoG里面构造MM的交互方式不够有效,之后的GAIN模型完善了MM的构建方式并获得了巨大提升。

Reasoning with Latent Structure Refinement for Document-Level Relation Extraction

发表会议:ACL 2020

论文链接:

https://www.aclweb.org/anthology/2020.acl-main.141.pdf

Motivation

LSR[15]模型是EoG模型的改良,针对的问题就是:在EoG模型的消融实验中,发现EoG(full)在句子间距离长度大于4时的效果要比原始的EoG模型要好,那么基于这样一个发现自然会想到在full的情况下,是否可以让模型自动选择哪些边重要,那些不重要呢?

对于document当中复杂的交互方式,对文档中的node全连接会引进大量冗余信息,若是对全连接的edge按照硬规则进行剪枝又可能丢失重要信息,本文不采用硬规则编码node与node之间的连接,而是通过一个邻居节点的隐状态来自动学习知识,在一个全连接的状态下自动进行学习来捕获更多的非邻居的信息。

Model

LSR模型分为三部分:Node Constructor、Dynamic Reasoner、Classifer。

1. Node Constructor:这一部分如下如所示分为两小部分:context encoding与node extraction,主要就是对document中的所有word进行编码,并得到graph所有类型的node的representation。

    • context encoding:对于给定的document,LSR是将doc中的sentence逐条输入到encoder中(BILSTM/BERT etc),然后将每个sentence输出的embedding拼接得到整个doc的contextual representation。

    • node extraction:在LSR中,有三种node:mention node、entity node以及meta dependancy path node。mention node表示的是一个sentence中entity的所有的mention,其表示是该mention中的所有word的representation的平均;entity node指的是entity node,其表示是所有mention node的representation的平均;MDP表示一个句子中所有mention的最短依赖路径集。

LSR与EoG模型不同的地方之一在于:mention node与entity node一样的,但是LSR没有sentence node,并且使用了MDP node来代替,作者认为MDP node能够过滤掉无关信息。

2. Dynamic Reasoner:主要分为两部分:structure induction与multi-hop reasioning。LSR可以重复多次dynamic reasoner模块,从而得到更加丰富的node representation。

    • structure induction:这一部分主要是用来学习上述构建的文档图的结构,根据已知的三种节点信息来寻找节点之间的交互强度,得到文档图的邻接矩阵,从而以便使用GCN来进行aggregate。公式如下

其中表示的是文档图的邻接矩阵,这里使用了structure attention network以及矩阵树原理的思想。

    • multi-hop reasioning:在得到邻接矩阵之后,LSR便根据之前生成的邻接矩阵信息,采用DenseGCN的方式对graph进行aggregate以构造深层次的non-local信息。 

3. Classifier:根据最后生成的表达做一个Bilinear算子直接对entity pair进行关系分类,使用sigmoid函数。

Experiment

数据集:DocRED、CDR、GDA

实验结果:

通过上面结果可以看出LSR 在DocRED数据集上效果提升显著,而从其在CDR与GDA数据集上的结果来看,LSR在没有MDP节点的情况下取得了SOTA,说明MDP的作用不大。

总的来说,LSR模型利用矩阵树原理对异质网络利用attention的交互方式来构建相同的表达形式,并通过structure induce来迭代更新矩阵, 这种思想跟前两年的AGGCN有点相像,其关键在于如何构造一个概率矩阵控制信息转移的情况。

Double Graph Based Reasoning for Document-level Relation Extraction

发表会议:EMNLP 2020

论文链接:

https://www.aclweb.org/anthology/2020.emnlp-main.127/

Motivation

这篇paper[16]也是继承EoG模型,主要应对文档级别的关系抽取提出的三个主要挑战:1. 一个relation的subject与object可能位于不同的sentence,需要考虑多个sentence才能判断一对实体的relation;2. 同一个entity可能会出现在不同的sentence当中,因此需要利用更多的上下文信息,从而更好的表示entity;3. 很多relation需要logical reasoning才能得到。为此提出了GAIN模型。

Model

文章提出了一种具有双图特征的图聚合推理网络(GAIN)。GAIN首先构建了一个异构的提及图(hMG)来建模文档中不同提及(mention)之间的复杂交互。同时还构造了实体级图(EG),并在此基础上提出了一种新的路径推理机制来推断实体之间的关系。在公共数据集DocRED上进行实验,实验结果表明GAIN显著优于之前的技术,比之前的SOTA模型LSR-BERT在F1上高出2.22。

GAIN模型分为四部分:encoding module、ention-level graph aggregation module、entity-level graph aggregation module、classification module。

1. Encoding Module:这一部分主要是将document中的word经过编码,得到contextual representation。给定有n个token的document,然后将word embedding与实体类别embedding以及共指embedding进行拼接,得到final word embedding,然后使用编码器(BISLTM/BERT etc)编码: 得到这一层的输出: 

2. Mention-level Graph Aggregation Module:这个graph的构建主要是对mention之间的关系进行建模。为了建模文档级别的信息和不同句子中指称之间的相互作用,GAIN构建了异构的指称图(hMG),hMG中包含两类节点:

  • Mention node:不同句子中同一个实体的mention应该有不同的表示

  • Document node:是一个虚拟节点,主要是为了建模整个文档的信息hMG中包含三类边:

  • Intra-Entity Edge:连接属于同一个实体的不同mention节点,用来建模同一个实体的不同指称之间的关系

  • Inter-Entity Edge:连接在同一个句子中出现的不同实体的mention节点,用来建模不同实体之间的关系

  • Document Edge:连接文档节点与所有mention节点。任意两个mention节点通过document节点相连,解决了长距离依赖的问题

构建好graph之后,GAIN模型使用图卷积网络(GCN)对节点特征进行提取,公式如下所示:

其中,不同类型节点使用不同的权重矩阵进行计算,最终的节点表示为GCN各层结果的拼接:

3. Entity-level Graph Inference Module:这一步就是进行inference,得到entity-entity的表示,用于最终的分类,所以path reasoning mechanism很重要。在entity-level graph中,我们将同一个entity的所有mention的表示的平均作为此entity的表示,entity node之间的边表示由entity节点计算得到:

对于给定的两个实体节点  ,  ,只考虑长度为2且经过实体  的路径,其中第 

 条路径的表示为: 

上述表示可以很容易扩展到长度为k的路径。entity pair之间的path会有多个并非所有路径都是有效的证据,因此作者加入了注意力机制,显式地对路径进行编码是对推理证据进行建模,从而使模型更好地进行关系推理。 

4. Classification Module:对每个enity pair 

 ,作者使用了丰富的特征对其表示: 

其中,   就是document node,由于同一个实体对可能存在多种关系,因此文档级关系抽取是个多标签分类任务,对每一个关系 

 , 最终的损失函数为二分类交叉熵损失,其后验概率分布和损失函数分别为: 

Experiment

数据集:DocRED

实验结果:

实验结果显示,在不同的词向量初始化设置下,作者提出的GAIN均达到了SOTA,并且相较于GloVe GAIN在使用BERT预训练模型的条件下性能提升更大。为了验证GAIN各个模块的有效性,进行了消融实验。 作者首先去除了hMG,即只使用初始的mention节点表示,发现结果大幅下降。作者认为这说明hMG很好的建模了不同mention之间的关系以及文档级别的特征。

然后作者去除了推理模块,即不使用路径表示而只使用头尾实体的节点表示进行分类,结果也大幅下降。作者认为这说明显式地对推理路径进行建模可以提高文档级关系抽取的性能。

最后作者去除了hMG中的文档节点表示,结果大幅下降。作者认为这说明文档节点很好的汇聚了文档级的信息,并且减少了长距离依赖的负面作用。

基于序列的方法我们将在下一次推文介绍,敬请关注我们的公众号,谢谢!

参考文献

[1] Yao etal., DocRED: A large-scale document-level relation extraction dataset, ACL2019

[2] Zhou etal., Document-Level Relation Extraction with Adaptive Thresholding and Localized Context Pooling, AAAI2021

[3] Xu etal., Entity Structure Within and Throughout: Modeling Mention Dependencies forDocument-Level Relation Extraction, AAAI2021

[4] Qin etal., ERICA: Improving Entity and Relation Understanding for Pre-trained Language Models via Contrastive Learning

[5] Huang etal., Entity and Evidence Guided Relation Extraction for DocRED

[6] Xiao etal., Denoising Relation Extraction from Document-level Distant Supervision, EMNLP2020

[7] Ye etal., Coreferential Reasoning Learning for Language Representation, EMNLP2020

[8] Wang., Fine-tune BERT for DOCRED with Two-step Process

[9] Tang etal., Hin: Hierarchical Inference Network for Document-level Relation Extraction, PAKDD2020

[10] Jia etal., Document-level N-ary Relation Extraction with Multiscale Representation Learning, NAACL2019

[11] Eberts etal., An End-to-end Model for Entity-level Relation Extraction using Multi-instance Learning

[12] Eyal etal., Bootstrapping Relation Extractors using Syntactic Search by Examples

[13] Li etal., Multi-view Inference for Relation Extraction with Uncertain Knowledge, AAAI2021

[14] Christopoulou etal., Connecting the Dots: Document-level Neural Relation Extraction with Edge-oriented Graphs, EMNLP2019

[15] Nan etal., Reasoning with Latent Structure Refinement for Document-Level Relation Extraction, ACL2020

[16] Zeng etal., Double Graph Based Reasoning for Document-level Relation Extraction, EMNLP2020

[17] Xu etal., Document-level Relation Extraction with Reconstruction, AAAI2021

[18] Zhou etal., Global Context-enhanced  Graph  Convolutional  Networks for Document-level Relation Extraction, COLING2020

[19] Zhang etal., Document-level Relation Extraction with Dual-tier Heterogeneous Graph, COLING2020

[20] Wang etal., Global-to-local  Neural  Networks for Document-level  Relation  Extraction, EMNLP2020

[21] Li etal., Graph Enhanced Dual Attention Network for Document-level Relation Extraction, COLING2020

[22] Peng etal., Cross-sentence N-ary Relation Extraction with Graph LSTMs, TACL2017

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478404.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 621. 任务调度器(贪心)

1. 题目 给定一个用字符数组表示的 CPU 需要执行的任务列表。其中包含使用大写的 A - Z 字母表示的26 种不同种类的任务。任务可以以任意顺序执行,并且每个任务都可以在 1 个单位时间内执行完。CPU 在任何一个单位时间内都可以执行一个任务,或者在待命状…

吴恩达发起新型竞赛范式!模型固定,只调数据?!

文 | 小戏打开 Kaggle ,琳琅满目的比赛让人目不暇接,研究的领域更是五花八门,从农林牧渔到衣食住行,似乎只要有数据,不论数据好坏,就可以直接使用各种机器学习的模型在其身上大展拳脚,从逻辑回归…

论文小综 | 文档级关系抽取方法(下)

本文作者:陈想,浙江大学在读博士,研究方向为自然语言处理张宁豫,浙江大学助理研究员,研究方向为自然语言处理、知识表示与推理这篇推文是文档级关系抽取方法的第二部分,前面的部分请移步推文“论文小综 | 文…

LeetCode 128. 最长连续序列(哈希set)

1. 题目 给定一个未排序的整数数组,找出最长连续序列的长度。 要求算法的时间复杂度为 O(n)。 示例:输入: [100, 4, 200, 1, 3, 2] 输出: 4 解释: 最长连续序列是 [1, 2, 3, 4]。它的长度为 4。来源:力扣(LeetCode) 链接&#…

清华姚班教师劝退文:读博,你真的想好了吗?

文 | 张焕晨编 | 琰琰源 | AI科技评论先简单介绍一下我的背景。我本科在University of Wisconsin-Madison,然后去CMU念了个PhD,主要研究数据库方向。目前回国在清华IIIS(姚班)做助理教授,并且 cofound 了Singularity D…

纠删码存储系统中的投机性部分写技术

本文已被USENIX’17年度技术大会录用,此处为中文简译版。 阅读英文论文完整版请点击:Speculative Partial Writes in Erasure-Coded Systems 多副本和纠删码(EC,Erasure Code)是存储系统中常见的两种数据可靠性方法。与…

论文浅尝 - EMNLP | 通过元强化学习实现少样本复杂知识库问答

笔记整理 | 谭亦鸣,东南大学博士生来源:EMNLP 2020链接:https://www.aclweb.org/anthology/2020.emnlp-main.469.pdf本文关注聚合型复杂知识图谱问答任务,这类复杂问题的答案通常需要经过一些集合操作得到,例如&#x…

写了一篇关于 NLP 综述的综述!

文 | 小轶综述,往往是了解一个子领域最为高效的起点。然而,对于AI这样一个日新月异高速发展的行业,时效性也自然地成为了我们选择综述的衡量指标之一。即使一篇 AI 综述具有超高 citation,如果它写于 20 年前,那对今天…

美团点评容器平台HULK的调度系统

本文是美团点评基础架构系列文章之一。这个系列将全面介绍支撑数亿用户、超千万日订单的美团点评平台诸多业务的公共基础架构相关技术。系列已经发布的文章包括: - 《分布式会话跟踪系统架构设计与实践》 - 《Leaf——美团点评分布式ID生成系统》 - 《深度剖析开源分…

论文浅尝 | 利用跨内和跨间信息的预训练实体关系编码器

笔记整理 | 朱珈徵,天津大学硕士链接:https://www.aclweb.org/anthology/2020.emnlp-main.132.pdf动机从自由文本中提取实体和关系是自然语言处理中的一项重要任务。它的目标是识别具有特定类型(实体)和这些实体(关系)之间的语义关系的文本。本文主要研究…

python的环境变量设置

程序和可执行文件可以在许多目录,而这些路径很可能不在操作系统提供可执行文件的搜索路径中。 path(路径)存储在环境变量中,这是由操作系统维护的一个命名的字符串。这些变量包含可用的命令行解释器和其他程序的信息。 Unix 或 Windows 中路径变量为 P…

LeetCode 76. 最小覆盖子串(滑动窗口)

1. 题目 给你一个字符串 S、一个字符串 T,请在字符串 S 里面找出:包含 T 所有字母的最小子串。 示例: 输入: S "ADOBECODEBANC", T "ABC" 输出: "BANC"说明: 如果 S 中不存这样的子串&#xff…

推荐一个可交互的 Attention 可视化工具!我的Transformer可解释性有救啦?

本文首发于微信公众号”夕小瑶的卖萌屋“文 | Sherry源 | 夕小瑶的卖萌屋视觉是人和动物最重要的感觉,至少有80%以上的外界信息是经过视觉获得的。我们看论文的时候,通过图表来确定文章的大致内容往往也是一个更高效的 说到深度神经网络的可视化&#xf…

机器学习中模型优化不得不思考的几个问题

本文根据美团点评算法工程师胡淏4月22日在“携程技术沙龙”上的分享整理而成。文字综合了“携程技术中心”微信公众号的版本和胡淏本人在微博上发表的文章,并有少量编辑加工。 图1 机器学习工程师的知识图谱 图1列出了我认为一个成功的机器学习工程师需要关注和积累…

【美团语音交互部】 NLP/知识图谱/语音识别等算法职位开放招聘!

致力于连接最靠谱的算法岗与最强的求职者招聘贴投放请联系微信xixiaoyao-1部门介绍:语音交互部负责美团语音和智能交互技术及产品研发,面向美团业务和生态伙伴,提供对语音和口语数据的大规模处理及智能响应能力。团队以建设业界一流的语音交互…

LeetCode 289. 生命游戏(位运算)

文章目录1. 题目2. 解题2.1 复制数组解法2.2 原地解法2.3 位运算1. 题目 链接&#xff1a;289. 生命游戏 2. 解题 2.1 复制数组解法 很简单&#xff0c;按照题意模拟即可 class Solution { public:void gameOfLife(vector<vector<int>>& board) {if(board…

论文浅尝 | S3QLRDF: 用于大规模RDF数据分布式SPARQL查询的关系分割架构

笔记整理 | 孙磊&#xff0c;天津大学硕士。动机RDF形式的语义网的繁荣对高效、可伸缩以及分布式的存储和高可用和容错并行策略都有着要求。RDF数据的飞速增长提升了在分布式数据管理系统上高效划分策略的需求来提升SPARQL查询性能。亮点本文提出了新的用于RDF的关系分割架构Pr…

美团DSP广告策略实践

近年来&#xff0c;在线广告在整个广告行业的比重越来越高。在线广告中实时竞价的广告由于其良好的转化效果&#xff0c;占有的比重逐年升高。DSP&#xff08;Demand-Side Platform&#xff09;[1]作为需求方平台&#xff0c;通过广告交易平台&#xff08;AdExchange&#xff0…

推荐几个出论文的好方向

如果你准备发AI方向的论文&#xff0c;或准备从事科研工作或已在企业中担任AI算法岗的工作。那么我真诚的向大家推荐&#xff0c;贪心学院《高阶机器学习研修班》&#xff0c;目前全网上应该找不到类似体系化的课程。课程精选了四大主题进行深入的剖析讲解&#xff0c;四个模块…

LeetCode 414. 第三大的数

1. 题目 给定一个非空数组&#xff0c;返回此数组中第三大的数。如果不存在&#xff0c;则返回数组中最大的数。要求算法时间复杂度必须是O(n)。 示例 1: 输入: [3, 2, 1] 输出: 1 解释: 第三大的数是 1.示例 2: 输入: [1, 2] 输出: 2 解释: 第三大的数不存在, 所以返回最大的…