图谱实战 | 阿里新零售多模态知识图谱AliMe MKG的建设与应用

转载公众号 | DataFunSummit


   b5209d172f976fd710696d1ada1a8004.png

分享嘉宾:陈河宏 阿里巴巴 算法工程师

编辑整理:李开琦 SHEIN

出品平台:DataFunTalk

导读:随着知识图谱技术的发展,其在电商、医疗、金融等领域得到了越来越广泛的应用。在过去的几年间,我们团队一直致力于探索知识图谱在新零售问答和直播场景的应用,提出了阿里小蜜新零售多模态知识图谱AliMe MKG(AliMe指图谱建设时期团队的名称阿里小蜜,MKG是多模态知识图谱的缩写)。本次报告将介绍过去一年多我们在多模态知识图谱方面的探索与实践工作,主要分为以下三个方面:

  • AliMe MKG的业务背景

  • AliMe MKG的建设与应用

  • 多模态知识挖掘技术探索

01

AliMe MKG的业务背景

5188618caac84f6a1aa6489b47cf2b5d.png

众所周知,在电商平台上,直播带货已经是商家重要的卖货和营销手段。在淘宝直播平台上,除了少量的头部主播外,还有很多店播,也就是商家会自己开直播为自家的商品进行直播带货。但是商家自己开直播其实成本不低,例如需要招募主播、培养主播等,并且找主播相当于找代言人,如果主播发生负面事件,那么就存在店铺形象受损的风险。再者,主播也不能做到24小时直播带货。

因此,我们希望引入数字人主播来帮助商家解决以上问题,商家只要“一键开播”,就可以让我们的数字人主播为其进行直播带货。这样一方面帮助商家降低开直播的成本和风险,另一方面也可以实现24小时直播带货。这里右侧展示了我们和某美妆商家合作的数字人主播,该数字人可以自动进行商品的介绍、展示相应的商品图片和视频,这个能力主要通过我们的智能剧本系统来实现。

1. 智能剧本系统

5751efcca4b6b8541ca3a125db0cade3.png

这里展示了我们的智能剧本系统,是如何支持数字人自动进行商品介绍、展示相应商品图片和视频的。最左边是数字人的直播画面,其中红框里展示的是数字人进行商品介绍的文字剧本,蓝框是看板,实时展示与剧本相关的图片和视频。中间是智能剧本系统提供给前台数字人的信息,包括文字剧本和相应的图片、视频,也就是一个多模态的剧本。而创作这个多模态剧本,需要在底层有一个多模态图谱来进行支持。这个背景促使我们去构建一个面向直播的多模态知识图谱。

2. 多模态知识图谱

16cd8d9748b632b098efec0c427905af.png

那么,直播场景下到底需要一个什么样的多模态知识图谱?我们可以先拆解一下主播是如何播报商品的。如右图所示,我们把主播讲解过程进行半结构化,可以看到,他们一般还是会遵循一定的套路。比如会先进行需求引导,也就是说用户一般在什么生活场景下,会遇到什么痛点,进而产生什么诉求,而我们的商品正好可以满足这个诉求。然后会对商品各方面进行详细介绍等。最后会提专属优惠、限时限量来引导下单。从这个流程中,我们就可以梳理出对图谱的结构化需求,如左图所示。概括来说,我们分为三大类:

第一类是三元组类型知识。主要需要“场景-痛点-诉求-商品”这样有逻辑性的知识,来对用户进行需求引导,也就是说他为什么要买这个商品。

第二类是句子类型知识。我们直播时需要对商品各方面进行详细介绍,而这种介绍需要句子粒度的信息,例如使用方法这个要素,需要有一段句子来进行介绍的。

第三类是多模态类型知识。在直播场景下,除了商品介绍,也需要有相应的商品和视频展示,从而提升数字人直播的表现力。

02

AliMe MKG的建设与应用

6acb50565ac8e933dc35a1349baade32.png

基于上文提到的业务背景,我们可以概括出AliMe MKG的建设目标:

主要是在底层建设以内容为中心的多模态商品知识图谱AliMe MKG,进而可以提供多模态的商品素材内容,最终在上层构建出一个多模态商品认知画像,帮助消费者在直播场景下进行消费决策。

1. AliMe MKG的演进过程

37d48e7e670a58d0fb93e6024730bfba.png

我们的多模态知识图谱建设并不是一蹴而就的,首先在2019年,我们在阿里店小蜜导购和问答场景下,率先建设了以三元组知识为基础的领域常识图谱;随后在2020年,团队开启了智能直播赛道,我们把知识图谱逐步扩展到包含句子知识和多模态知识的图谱。

2. AliMe MKG的主要特色

27fbcfbf275b76696bb8200b8732cc75.png

和其他知识图谱相比,AliMe MKG的特色主要可以归纳为三点:

第一是面向直播场景,其属于“种草”的场景,这要求我们能够对用户的需求进行主动引导;第二是需要构建有逻辑的知识链,来进行用户需求引导,例如阐明用户在什么生活场景下,会遇到什么痛点,进而产生什么诉求,而我们的商品正好可以满足这个诉求;最后一点是AliMe MKG不仅需要包含三元组,更需要包含内容,也就是说需要通过内容来连接用户和商品。

3. AliMe MKG的主要结构

869444fc18ed5a62589b51daf0167db2.png

AliMe MKG的核心结构如上图,图谱主要分为模式层和实例层。我们在阿里商品中台提供的「用户」和带「属性值」的「商品」基础上,新增了三类节点。

首先,我们新增了「场景」、「痛点」和「诉求」节点(图中红色节点),通过构建场景化的逻辑三元组知识,将用户与商品连接了起来。拿实例层的例子来说,在冬天的场景下,用户往往会存在皮肤干的痛点,从而产生了补水保湿的诉求,某类成分为玻尿酸的面膜商品能够满足用户的诉求。

另外,我们还新增了「句子」节点(图中蓝色节点),以保存商品要素(e.g.使用方法、品牌故事)和属性值对应的句子知识。例如某面膜商品的使用方法,其对应的句子文本我们也会存储到句子节点中。

最后,我们也新增了「图片/视频」节点(图中绿色节点),通过图片/视频模态知识,对商品的属性值、用户的痛点和诉求等进行更具象化的描述。

接下来依次介绍AliMe MKG三种知识类型:三元组知识、句子知识和多模态知识具体的挖掘技术。

4. 三元组类型知识挖掘

9ecec3fe634b9f80c082108df8a80381.png

三元组类型知识的挖掘,概况起来主要是节点挖掘和关系构建技术。其中,节点挖掘主要通过短语挖掘和实体识别算法来实现,关系构建主要通过关系抽取算法来实现。

d81f81032903975ed26f83e28a1b0bda.png

前面提到的三类算法,即三元组类型知识挖掘使用的核心算法,其主要特色是使用了远程监督方法来降低了人工标注量,同时引入外部知识提升了识别效果。具体算法细节我就不一一赘述了,感兴趣的朋友可以查阅我们的论文。

5. 句子类型知识挖掘

67d4c76dbe5a9a3029e737b255d9c82a.png

句子类型知识的挖掘还是比较复杂的,它需要从不同数据源中进行句子挖掘,以保证挖掘到的句子具有多样性。具体来说,我们主要会从三类数据源中进行句子挖掘:

第一类是阿里内部的商品微淘文章:我们一方面使用摘要算法,提取文章中描述的商品摘要;另一方面,我们也会针对文章中的句子,构建pipeline提取出能够描述商品属性的句子。

第二类是商品评论:我们主要使用极性分类器,提取商品的好评句子。

第三类是商品详情页:这里我详细展开说一下商品详情页的挖掘流程。

085f6ba82e01caf8184660d20d2762b0.png

商品详情页的句子挖掘主要用到文本生成和文本分类算法。

首先,基于商品详情页(图片),我们利用OCR识别技术得到图片的OCR文本;然后,针对小段OCR文本,我们会通过文本改写模型进行OCR改写从而使句子保持连贯;针对大段OCR文本,我们通过内容挖掘pipeline,挖掘出连贯的句子。接着,通过要素分类器将句子进行归类,例如有的句子是「使用方法」,有的是「品牌故事」或描述商品某成分的「属性句子」。最后,通过语言模型对句子进行打分,从而过滤掉通顺流畅有问题的句子。

6. 多模态类型知识挖掘

29d69807485da870ba40ea50a715d2cd.png

多模态知识挖掘,主要指实例层中红框标注的图片知识和视频知识挖掘。其中图片挖掘的数据源主要来自商品详情图,视频挖掘的数据源主要来自淘宝真人直播的视频片段。核心算法主要包括图文匹配技术及Video Grounding技术。

b6fba2e7dec06105a05a27440f1345c3.png

图片挖掘目前使用的是Image-Text Matching技术,图文匹配技术目前是多模态领域比较火热的一个任务,这里介绍我们去年探索的图文匹配模型。我们的模型结构是一个双流图文匹配结构,包括图片流和文本流,其中图片流使用Vit(Vision Transformer)进行图片编码,文本流使用阿里的StructBERT来进行文本编码。相对于单流结构,双流结构可以提供更快的推理速度。与此同时,我们使用图文预训练来提升图文匹配的效果。具体来说,我们的图文预训练任务包括三个任务:

  • 图文匹配对比学习任务(Contrastive Learning, CMR)

  • 图片特征回归任务(Masked Region Feature Regression, MRFR)

  • 文本MLM任务(Masked Language Model, MLM)

为了更好学习图文交互能力,参考LightningDOT模型,文本流和图片流编码器的最后一层会叠加其他模态编码器的[cls]位向量,再进行CMR和MRFR预训练任务。

模型输入主要分为文本输入和图片输入,对于文本输入的处理,学界和工业界都比较统一,和Bert的处理方式基本一致。而对于图片输入的处理,学术界也进行了较多的研究,概况来说主要有三种:

  • 使用目标检测器检测图片的区域,进而编码得到图片区域的特征(region feature)。

  • 使用ResNet,直接提取图片的空间维度特征(grid feature)。

  • 对图片进行patch分块,进而编码得到图片每个patch的特征(patch feature)。

具体在我们的任务中,我们发现使用图片patch特征,在模型性能和推理速度上都能取得较好效果,并且这种处理方式不依赖于额外的目标检测器,因此在行业通用性方面较其他方法也表现得更好。

3cf239437f29b7afc50cb17844fa89c0.png

视频挖掘技术的核心算法是Video Grounding,指的是给定一个长视频片段及标签(e.g. 商品包装),从视频片段中提取出与标签有关的子片段,也就是需要进行clip级别的预测。我们使用真人直播片段及其对应的ASR文本,构成「视频-文本」对进行多模态预训练,来提升Video Grounding的效果。

具体来说,我们将直播片段分成以1秒为单位的若干个clip,并通过预训练过的3DCNN进行每个Clip的特征抽取,得到若干个视频clip的特征向量,然后和对应的ASR文本特征序列拼接起来,一同输入到单流Transformer中,进行多模态预训练。

在下游做Video Grounding任务时,我们会输入视频clip和ASR文本到经过预训练的Multi-Modal Transformer中进行多模态的特征交互,从而得到多模融合之后的视频clip序列特征,接着对这些特征回归出每个clip是否包含给定标签的概率。推理时,我们利用这些clip的概率进行视频片段的筛选。训练时,由于需要进行clip级别的预测,常规的做法需要对训练数据中视频的每一帧进行标注,人工标注成本是很大的。我们注意到对于视频片段中的每个clip,可以将其视为对应视频片段的一个Instance(示例),这样我们可以将Video Grounding任务转化为一个多示例学习(Multiple Instance Learning,MIL)问题。具体做法是对于每一个标签,我们可以将该标签所标记的全部视频作为正样本(Positive Bag),其他标签标记的视频作为负样本(Negative Bag)。然后将每个视频所有clip的概率,聚合成为该视频片段是否含有对应标签的概率,使用BCE损失函数指导模型学习。这样就通过视频级别的标签,学习到clip级别的信息,减少了人工标注成本。

a9c378298424933b7d72d008fe3bdd24.png

eb49c120cbdc02386cfd5bf4533e274a.png

通过前面所述的方法,我们最终可以构建得到商品的多模态知识图谱,进而得到多模态的商品认知画像,包括了商品属性、与属性相对应的句子文本及图片和视频等知识。

7. AliMe MKG的应用

3334753fa9f56ce618ffcd294afb917f.png

AliMe MKG在直播场景下主要有两类落地场景:

  • 数字人主播:即业务背景部分提到的「商品剧本播报」场景。

  • 直播间智能小助理:我们在直播间也开发了一个智能小助理产品,AliMe MKG会在其中的「商品内容推荐」场景进行应用。

7d4c70a95894d6995275531d0dfeb5bf.png

这里展示了AliMe MKG在数字人主播「商品播报」场景下应用的流程,本文主要focus在第一点图谱构建的工作上,第二点「剧本创作」和第三点「视觉展示」就不过多介绍了,感兴趣的朋友可以查阅我们团队在SIGIR和CIKM上发表的相关论文。

6d26ed90b03c7b74e3ad5ad88e5bd790.png

对于商品内容推荐的落地场景,我们主要考虑在直播间中,主播和听众之间是1vN的关系,即同一个主播在同一个时段内面对不同用户只能讲解同一种内容。然而,对于同一个时间段进入直播间的用户,他们的诉求可能是不尽相同,有人希望了解商品的用料材质,有人希望了解商品的使用方法。

因此,基于不同的用户画像,我们会为其推荐多模态图谱中不同的商品多模态内容,从而更好满足不同用户的诉求。

03

多模态知识挖掘技术探索

caec12f73b401ddebc22f7bae6a8a9e2.png

目前我们的多模知识图谱,主要从微淘文章、商品详情页、商品评论中进行知识挖掘,真人直播视频也只挖掘了比较粗粒度的视频片段。但其实真人直播的ASR文本中,也包含了很多有用的商品知识,可供我们进行知识挖掘,以扩充图谱的规模。例如,下面这段ASR文本,可以挖掘出商品的适用年龄和商品类别,一般这类知识,我们需要先进行NER,但是我们发现仅依靠文本的上下文,有时候会把红腰子的实体类型误分为食物而不是护肤品,而如果我们结合当前文本的直播画面,还是比较容易知道他指的是护肤品的,这里我们可以将其形式化成多模态NER任务。

同样,如果将红腰子这个实体链接到某个商品时,有时候也会有链指错误的问题,但是如果借助图片的话,我们也能很好地链接到左边这个商品,这里我们可以将其形式化为多模态Entity Linking的任务。针对这两类任务,我们目前也先行一步,在公开数据集上进行了相应的技术探索,下面我会分别针对这两个任务,介绍我们近期的工作。

1. 多模态NER

5dc1dfe450b14e3a7926446229dd60ba.png

首先是多模态NER的工作,多模态NER主要指利用图片信息,增强文本NER的效果。这个任务的重点在于如何抽取有效的图片信息,以及如何将图片信息有效的融合到NER模型中。

现有工作主要使用两类方法进行图像信息抽取,第一类是使用目标检测器提取图片的Region特征并将其融入到文本中进行实体识别,这类方法的局限性在于受目标检测器标签有限性的影响,提取过程中可能会丢失重要的图片信息;第二类是生成图片Caption并将其融入到文本中进行实体识别,这类方法的局限性在于生成图片Caption过程中,会较易产生与任务无关的冗余的文本噪声。概况来说,现有方法并不能有效的提取图片信息。

057a2f27a87614e30e944b29a1d60ba6.png

为了解决现有方法无法有效提取图片信息的问题,我们提出使用prompt进行图像信息提取,从而提升多模态NER的效果

具体来说,我们首先借助知识库(e.g. WordNet, ConceptNet)半自动的构建和任务实体类型相关的图片object标签,以作为我们的prompt标签(e.g. woman, animal, building),然后构建prompt文本(e.g. An image of animal)输入到预训练的clip中,使用clip判断标签在图像中出现的程度,通过这种方法抽取NER任务相关的图像信息。在prompt标签的设计上,除了离散型prompt,我们也使用了连续型prompt标签。实验结果表明,我们的方法在公开数据集上达到了SOTA的效果。

51a23dd781d1ca56053de5f2f1e5ad71.png

2. 多模态Entity Linking

9a0836efe3131af608433c78a4a51c9e.png

多模态Entity Linking是我们和复旦大学知识工场合作的一个工作,针对学界现有数据集存在的话题、实体类型及歧义现象较有限的情况,我们构建并开源了一个多样化的Entity Linking数据集,希望该数据集能有助于促进学界和工业界对Entity Linking工作的研究。

3aa53fcf8dedf5da3cc3654d97c07a1b.png

基于该数据集,我们提出两阶段的多模态实体链接方案

  • 第一阶段是多模态候选实体检索:使用不同模态的多路召回进行实体检索,最终得到候选实体集。

  • 第二阶段是基于多模态对比学习的实体消歧:使用多模态双塔模型,分别对待检索的Mention和候选实体进行编码,然后基于对比学习进行实体消歧的训练。

该方法在我们的公开数据集上,也取得不错的效果。

60720700e57d437feb35f48d600db101.png

04

问答环节

Q:数字人有量化的业务指标吗?在业务上如何衡量剧本的有效性?

A:当前业务指标是相对于真人主播,数字人主播的成交转化率及转粉率。业务如何衡量剧本的有效性主要通过线上AB测试,观察不同版本剧本线上业务指标的变化来衡量其有效性。

Q:剧本上线前是否有人工审核环节?如何评价?

A:有人工审核的,这个审核主要是店家在审核。在实际应用时,店家开播前可以一键选择待播报的商品,选择后,我们的剧本系统会为每个商品自动生成剧本,然后我们也会提供后台界面,让店家可以检查剧本,如果觉得剧本哪部分不合适,自己便可以做相应的修改。

Q:如果商家对剧本做出修改,模型会因此进行更新或迭代吗?

A:会的。我们会将剧本分成不同的Schema,例如需求引导、产品概况、卖点罗列等,然后会从商家线上修改的行为中了解到哪部分需要重点优化,进而指导剧本优化的方向。

Q:除了业务指标外,剧本的技术指标是什么?

A:最开始做的时候是有离线技术指标的,主要通过人工对剧本进行三个方面的评测:一是剧本可靠性,剧本内的文本表述是否正确,比如说某商品成分是橄榄油,但如果剧本说的成分是薄荷油,那剧本可靠性的打分会变低;其次是剧本的多样性,主要集中在剧本文本表述的多样性;最后是生动性指标,主要指剧本在播报时相应可展示多少种图片及视频,让直播间展示的内容更加生动。但考虑离线评测的人力成本,并且我们在经过前期优化后,剧本质量也已经比较高了,所以目前主要看线上指标。

Q:我们的多模态图谱更新频率如何?在具体业务场景比如推荐场景下的使用是如何衡量图谱价值的?

A:模式层常识类的知识前期是按月更新,目前已经积累了一定的量级,能较好满足业务需求了,所以主要根据具体需求不定时的更新,实例层商品类的知识是每日更新的。在具体业务场景例如推荐场景下,主要看业务在使用图谱数据后,推荐的成交转化率是否能够得到提升,进而衡量图谱的价值。

今天的分享就到这里,谢谢大家。


01/分享嘉宾

7121359894e7e99994a1dafb03543438.png

02/关于DataFun

DataFun:专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章700+,百万+阅读,14万+精准粉丝。



OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

da4ad88a64047f5a5cd1706f263cc4ef.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477605.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 第 16 场双周赛(402/822,前48.9%)

文章目录1. 比赛结果2. 题目LeetCode 1299. 将每个元素替换为右侧最大元素 easyLeetCode 1300. 转变数组后最接近目标值的数组和 mediumLeetCode 1302. 层数最深叶子节点的和 mediumLeetCode 1301. 最大得分的路径数目 hard1. 比赛结果 做出了2道题,第二道题耽搁时…

CS 期刊哪家强?CCF 发布最新期刊分级目录!

文 | python分级目录中国计算机学会(CCF,就是评ABC类会议的那个机构),在2022年2月19日刚刚发布了《计算领域高质量科技期刊分级目录》。该目录包含T1、T2、T3三类期刊,分别为T1类期刊16本,T2类期刊23本&…

Spring Cloud构建微服务架构:分布式服务跟踪(整合logstash)【Dalston版】

通过之前的入门示例,我们已经为trace-1和trace-2引入了Spring Cloud Sleuth的基础模块spring-cloud-starter-sleuth,实现了为各微服务的日志信息中添加跟踪信息的功能。但是,由于日志文件都离散的存储在各个服务实例的文件系统之上&#xff0…

会议交流 | 第十六届全国知识图谱与语义计算大会(8月24-27日)

点击阅读原文,进入 CCKS2022 官方网站。OpenKGOpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

1000层的Transformer,诞生了!

卖萌屋今日学术精选大家好,我是卖萌酱。今天下午卖萌屋作者群里一位MILA实验室的大佬在临睡前(蒙特利尔时间凌晨0点半)甩出来一篇论文:大佬表示太困了,肝不动了,于是卖萌酱左手抄起一罐咖啡,右手…

LeetCode 1305. 两棵二叉搜索树中的所有元素(二叉树迭代器)

1. 题目 给你 root1 和 root2 这两棵二叉搜索树。 请你返回一个列表,其中包含 两棵树 中的所有整数并按 升序 排序。. 提示: 每棵树最多有 5000 个节点。 每个节点的值在 [-105, 105] 之间。 2. 二叉树迭代器 按照中序迭代,比较两个迭代…

Spring Cloud构建微服务架构:分布式服务跟踪(跟踪原理)【Dalston版】

通过上一篇《分布式服务跟踪(入门)》的例子,我们已经通过Spring Cloud Sleuth往微服务应用中添加了实现分布式跟踪具备的基本要素。下面通过本文来详细说说实现分布式服务跟踪的一些要点。 分布式系统中的服务跟踪在理论上并不复杂&#xff0…

竞赛报名 | “未来杯”第二届知识图谱锦标赛火热报名中,最高奖金32000元!...

转载公众号 | AI Timer继2021年“未来杯”系列赛事之AI学术联赛暨首届人工智能知识图谱锦标赛成功举办后,中软国际教育科技集团旗下SteerTech科技创新开源生态平台联手AI TIME,再一次迎来人工智能知识图谱应用在众多领域落地的探索旅程。一、组织机构【…

我在鹅厂,拿到满星绩效!

文 | 山竹小鹅背绩效?就算SP以上也背绩效?互联网寒冬?内卷太严重?卷不动?资本家吃相太难看?……听了太多消极言论,有些是陈述事实,也有很多是贩卖焦虑。吐槽能变得更好吗&#xff1f…

2019年学习总结

总结回顾自己学习的过程,看看自己的学习成果,激励自己在2020继续努力。 2019.3 - 2019.9 学习了王争的《数据结构和算法之美》,github 代码地址 统计了 2018.2 至 2019.12 的cpp代码量:41,721‬行 find . -name "*.cpp&qu…

Spring Cloud构建微服务架构:消息驱动的微服务(消费分区)【Dalston版】

通过上一篇《消息驱动的微服务(消费组)》的学习,我们已经能够在多实例环境下,保证同一消息只被一个消费者实例进行接收和处理。但是,对于一些特殊场景,除了要保证单一实例消费之外,还希望那些具…

图谱实战 | 知识图谱在供应链和运营绩效提升领域的应用

转载公众号 | DataFunSummit分享嘉宾:高欢 (前)博世中国编辑整理:卢鹏澳 桂林电子科技大学出品平台:DataFunTalk导读:公司内部尝试运用AI技术落地了几款基于知识图谱的产品,本文将从实践和应用角…

薪资不逊NLP算法岗,边缘AI火了!

众所周知,深度神经网络模型被广泛应用在图像分类、物体检测,目标跟踪等计算机视觉任务中,并取得了巨大成功。随着不同场景的需求变得更加多样,越来越多的IoT设备和场景需要与数据采集点以最接近的低时延来进行决策和操作&#xff…

LeetCode 735. 行星碰撞(栈)

1. 题目 给定一个整数数组 asteroids,表示在同一行的行星。 对于数组中的每一个元素,其绝对值表示行星的大小,正负表示行星的移动方向(正表示向右移动,负表示向左移动)。每一颗行星以相同的速度移动。 找…

Spring Cloud构建微服务架构:消息驱动的微服务(消费组)【Dalston版】

通过之前的《消息驱动的微服务(入门)》一文,相信很多朋友已经对Spring Cloud Stream有了一个初步的认识。但是,对于《消息驱动的微服务(核心概念)》一文中提到的一些核心概念可能还有些迷糊,下面…

论文浅尝 | C3KG:中文常识对话知识图谱

笔记整理:张廉臣,东南大学硕士,研究方向为自然语言处理。Citation: Li, D., Li, Y., Zhang, J., Li, K., Wei, C., Cui, J., & Wang, B. (2022). C3KG: A Chinese Commonsense Conversation Knowledge Graph. arXiv preprint arXiv:2204.…

Spring Cloud构建微服务架构:消息驱动的微服务(核心概念)【Dalston版】

通过《Spring Cloud构建微服务架构:消息驱动的微服务(入门)》一文,相信大家对Spring Cloud Stream的工作模式已经有了一些基础概念,比如:输入、输出通道的绑定,通道消息事件的监听等。下面在本文…

大模型时代,我们真的不再需要分词了吗?

文 | 付奶茶编 | 小轶分词是NLP的基础任务,将句子、段落分解为字词单位,方便后续的处理的分析。不知道NLPer有没有思考过这个问题:我们在各项研究工作中想要建模的文本单位究竟是什么?What are the units of text that we want to model?在这篇论文中,…

LeetCode 1190. 反转每对括号间的子串(栈)

1. 题目 给出一个字符串 s(仅含有小写英文字母和括号)。 请你按照从括号内到外的顺序,逐层反转每对匹配括号中的字符串,并返回最终的结果。 注意,您的结果中 不应 包含任何括号。 示例 1: 输入&#xf…

论文浅尝 | 探索用于归纳型知识图谱补全的关系语义

笔记整理:徐雅静,浙江大学在读硕士,研究方向为知识图谱的表示学习,零样本学习。KGC指的是在不完整的KG中推理出缺失的实体。以前的多数工作仅仅考虑到直推式场景(实体都存在KG中),不能有效地解决…