图谱实战 | 面向C端场景的概念图谱构成、建设与应用索引

转载公众号 | 老刘说NLP


C端是知识图谱应用的一个重要领域,这个领域有大量的用户行为数据,存在着包括搜索、推荐、广告投放等业务。

当前,主流的互联网公司,如美团、阿里、腾讯都在尝试相关落地,在此当中,概念图谱的建设和应用受到关注。

概念图谱可以用于特征的补充,实体的召回等数据增强等实际工作当中。

本文主要从工业界的角度,对已有开放的大厂工作进行汇总、介绍,并对C端场景的概念图谱构成、构建与应用进行总结。

最近也在做这个方面的工作,写出来,与大家一起思考,对于进一步的扩展阅读,大家可以从延伸阅读的链接中查询。

一、美团常识性概念图谱

《常识性概念图谱建设以及在美团场景中的应用》 一文中提出了常识性概念图谱,常识性概念图谱就是建立概念与概念之间的关系,帮助自然语言文本的理解。特别的,常识性概念图谱侧重美团场景,帮助提升美团场景中的搜索、推荐、Feeds流等的效果。

1、图谱构成

常识性概念图谱涵盖“是什么”的概念Taxonomy体系结构,“什么样”的概念属性关系,“给什么”的概念承接关系。

d5fe3d6c3543b49298303c6660dadfa1.png

同时POI(Point of Interesting)、SPU(Standard Product Unit)、团单作为美团场景中的实例,需要和图谱中的概念建立连接。

从构成上看,该图谱包括Taxonomy节点、原子概念节点、复合概念节点、同义/上下位关系、概念属性关系、概念承接关系、POI/SPU-概念关系等信息。

2、图谱构建

如下图所示,在构建流程上,该图谱包括基础数据抽取,从UGC,用户搜索日志中展开,并进行概念挖掘,包括原子概念、复合概念,随后进行上下文,同义关系抽取等一系列流程。

989c200e76699e25c6bbd962580b8aef.png

3、图谱应用

基于美团的业务,常识性概念图谱可以支持以下场景。

8baebb93add29b2fdf6689b5a3200ed7.png76ccfa2835bfb1446caa34b1ebecb0c4.png

1、到综品类词图谱建设。 借助常识性图谱,补充欠缺的品类词数据,构建合理的品类词图谱,帮助通过搜索改写,POI打标等方式提升搜索召回。目前在教育领域,图谱规模从起初的1000+节点扩展到2000+,同时同义词从千级别扩展到2万+,取得了不错的效果。

2、点评搜索引导。 点评搜索SUG推荐,在引导用户认知的同时帮助减少用户完成搜索的时间,提升搜索效率。所以在SUG推荐上需要聚焦两个方面的目标:帮助丰富用户的认知,从对点评的POI、类目搜索增加自然文本搜索的认知;精细化用户搜索需求,当用户在搜索一些比较泛的品类词时,帮助细化用户的搜索需求。

在常识性概念图谱中,建立了很丰富的概念以及对应属性及其属性值的关系,通过一个相对比较泛的Query,可以生成对应细化的Query。例如蛋糕,可以通过口味这个属性,产出草莓蛋糕、芝士蛋糕,通过规格这个属性,产出6寸蛋糕、袖珍蛋糕等等。

3、到综医美内容打标。 在医美内容展示上,用户通常会对某一特定的医美服务内容感兴趣,所以在产品形态上会提供一些不同的服务标签,帮助用户筛选精确的医美内容,精准触达用户需求。但是在标签和医美内容进行关联时,关联错误较多,用户筛选后经常看到不符合自己需求的内容。提升打标的准确率能够帮助用户更聚焦自己的需求。借助图谱的概念-POI打标能力和概念-UGC的打标关系,提升标签-内容的准确率。通过图谱能力打标,在准确率和召回率上均有明显提升。

延伸阅读:

https://zhuanlan.zhihu.com/p/384740848

二、阿里巴巴概念图谱AliCG

《机器知道哪吒是部电影吗?解读阿里巴巴概念图谱AliCG》 一文中介绍了阿里巴巴的概念图谱 AliCG。

该图谱由海量的概念核心实例、数万的细粒度概念和概念-实例三元组组成,这些数据包括了常见的人物、地点等通用实例。相较于传统的知识图谱,AliCG 包含大量中文细粒度概念,且具备自动更新、自动扩充的能力。

比如对于“刘德华”这一实例,AliCG 不仅包含“香港歌手”、“演员”等传统概念,还具有“华语歌坛不老男歌手”、“娱乐圈绝世好男人”等细粒度标签。

1、图谱构成

7f593d05734da189012f7c35472e10d3.pngAliCG 分为四个级别的层次结构,其中,

Level1 层由表示这些实例所属的领域概念组成;

Level2 层由实例类型或子类的概念组成;

Level3 层由基础概念组成,这些概念是实例的细粒度概念化;

Instance 层包括实体和非实体短语等所有实例。

2、图谱构建

该工作主要聚焦于细粒度概念挖掘、长尾概念挖掘以及自动概念更新三个部分,如下图所示。

ab9230c70c4022c30f9253c4cb4d36b5.png

其中,

细粒度概念获取。不同于粗粒度概念,细粒度的概念有助于提升搜索的召回率。

在实现上,定义了一组精准的模板来从高置信度的匹配查询中利用 Bootstrapping 方法提取概念短语。例如,“十大XXX”是一种可用于提取种子概念的模式。基于这种模式,可以抽取出“十大手机游戏”等概念。

长尾概念挖掘。传统的概念抽取方法通常是基于 Hearst 模板提取概念。该系统首先基于短语挖掘算法,并利用外部领域知识图谱中的术语进行长尾的概念挖掘。

具体来说,首先过滤停用词,然后使用现成的短语挖掘工具 AutoPhrase 在无监督的情况下对语料库进行短语挖掘。同时采用了一种基于自训练的序列标注算法,用于长尾概念的挖掘,进一步提取一些分散的概念。

自动概念更新。传统的方法无法随着时间的推移更新概念的信息。例如,“哪吒”在不同的时期有着不同的含义,可以指神话作品人物或者上映影片。因此,必须将时间演化纳入概念分类体系构建中。

在实现上,首先将部分概念与预定义的同义词词典对齐。然后,通过通过每天的用户搜索实例热度计算置信度得分,并根据用户的点击行为来估计概念置信度分布。最后,将两个不同粒度的置信度得分联合构建实例-概念分类。

3、图谱应用

AliCG 在四种不同场景下的潜在应用案例:8af241f751fbff7fed86d8518f3bfb3e.png

(1)交互式搜索系统。 例如,“哪吒”链接到概念层 level3 的浅层概念,可引导用户依据列出的概念进行实时交互,实现实体消歧,精准定位搜索内容,最终索引到“哪吒之魔童降世”内容,高层级的概念有助于帮助定位目的实例;

(2)开放式对话系统。 可根据用户给定的实例联系概念知识图谱,实例-概念、概念-概念之间的链接通路使对话更有信息量,提高交互能力;

(3)阅读理解系统。 可根据文本内容对链接到“李白”这一实例的概念进行置信度排序,向用户展示最有可能的理解输出,在这里系统根据上下文可以准确判断“李白”并不是指代高频概念“盛唐时期的诗人”,这说明了细粒度的概念知识图谱对于识别精度有很大帮助;

(4)广告推荐系统。 根据用户历史购物信息,向中文概念图谱中索引高层次概念实例,多个概念之间进行组合推断,识别到“运动装备”、“工业产品”、“用具”,可以有效向用户推送户外相关产品,并给出推荐理由。

延伸阅读:https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw%3D%3D&idx=1&mid=2247530031&scene=21&sn=8628218cbf4386a2ff667305d3d8d3cd#wechat_redirect

三、腾讯兴趣点概念图谱

《腾讯信息流内容理解技术实践》一文介绍了兴趣图谱的概念。

其应用场景在于推荐系统需要积累用户模型,因此需要保留完整的上下文,语义粒度要完整;不同的人消费同一篇文章背后原因可能不同,因此需要有一定的推理能力。因此,推出了兴趣点图谱。

1、图谱构成

8360977a3195b36c606a5e4e97e6e376.png

如上图所示,兴趣点图谱由四层组成:分别为分类层、概念层、实体词和事件层。

其中,分类层一般是由 PM 建设,是一个严格树状的结构,一般在1000左右个节点,主要解决人工运营的需求;

概念层指的是有相同属性的一类实体称之为概念,例如老年人专用手机、省油耐用车等,用于推理用户消费的真实意图,负责一般兴趣点的召回;

实体层指的是知识图谱中的实体,如:刘德华,华为 P10 等;

事件层:用来刻画某一个事件,例如:王宝强离婚、三星手机爆炸等。

在关系刻画上,兴趣点图包括三种关系:

上下位关系,例如“红米note2”的上位词是“性价比高的智能手机”;

关联关系;

参与关系,比如在“凯美瑞召回”事件中,“凯美瑞”是“凯美瑞召回”的一个参与实体。

2、图谱构建

图谱构建包括概念挖掘、 热门事件挖掘、关联关系挖掘等步骤。2dfc62f4b4cdab906f7d798ee06c4af7.png

其中,例挖掘概念使用的是搜索数据,每一个概念都有多个点击的网页,对网页进行实体抽取,然后统计实体和概念的共现频次就可以获得较为准确的上下位关系。进一步的,文章 《腾讯提出概念挖掘系统ConcepT》 一文中对该部分的实现做了更为细致的分析。

事件指的是热门事件。如果一个事件比较热门,网友就会有了解需求,会通过搜索引擎来查询事件,因此使用 query 作为热门事件挖掘的来源。

945dddc8513da5d6515e174a553c54bf.png

在关联关系的挖掘上,利用实体之间的共现数据进行训练,可以作为正例,负样本采用同类实体随机负采样,通过 pair wise 的 loss 进行训练,得到每个实体的 embedding,然后计算任意两个实体的关联度。

3、图谱应用

作为拥有微信等强流量的腾讯,主要应用于信息流等内容理解场景。例如,下面介绍了对于每一篇文章,希望能预测出适合描述该文章的兴趣点的需求,兴趣图谱主要用于召回。e9c2fe26e31d8a33e903ea4bc0c30b21.png

在整个兴趣点的理解上,可以拆解成两步,第一步是召回,第二步是匹配。召回又可以分为基于关系的召回和基于语义的召回。基于关系的召回主要是利用图谱中的上下位关系。例如一篇文章中出现了“雷凌”这个实体,它的上位概念是“省油家用车”,就可以把“省油家用车”作为候选的兴趣点召回。

延伸阅读:https://zhuanlan.zhihu.com/p/94706925?from_voters_page=true

总结

C端是知识图谱应用的一个重要领域,这个领域有大量的用户行为数据,存在着包括搜索、推荐、广告投放等业务。

建立概念图谱,百科图谱,甚至是事件图谱、事理图谱作为基础底库,对于特征扩充,召回扩展有重要意义。

当然,我们很明显的能够看到,这些工作很费人力,很脏,是一个基础设施建设的范畴,也必须去做。

概念图谱的工作之前也有做过,深有体会,大家可以一起加入进来去建设。

关于老刘

老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

就职于360人工智能研究院、曾就职于中国科学院软件研究所。

老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

b12640213fe4fb1f012ff9a65f4a83a9.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477831.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

11 个好用的科研工具推荐!工作效率提升 max!

文 | 炼丹学徒编 | 小轶前阵子,卖萌屋团队群里大家互相分享了一波自己收藏已久的 好用科研工具 。小伙伴们纷纷都有一种相见恨晚的感觉!这么多好东西,当然也要分享与各位读者小伙伴啦~也希望大家能把自己用过好用的工具留言在评论区&#xff…

搜索引擎关键字智能提示的一种实现

背景 搜索关键字智能提示是一个搜索应用的标配,主要作用是避免用户输入错误的搜索词,并将用户引导到相应的关键词上,以提升用户搜索体验。 美团CRM系统中存在数以百万计的商家,为了让用户快速查找到目标商家,我们基于s…

会议交流 | DataFunSummit 知识图谱在线峰会——链接知识图谱最前沿技术和最落地产业化应用的桥梁!...

随着人工智能技术的发展与应用,知识图谱作为AI进步的阶梯越来越受到学术界和产业界的重视,并且已经在很多领域、场景中体现出自身的价值。从最初的互联网搜索、推荐、问答等ToC场景,逐渐进入到垂直行业ToB的应用当中。然而,场景的…

LeetCode 1209. 删除字符串中的所有相邻重复项 II(栈)

1. 题目 给你一个字符串 s,「k 倍重复项删除操作」将会从 s 中选择 k 个相邻且相等的字母,并删除它们,使被删去的字符串的左侧和右侧连在一起。 你需要对 s 重复进行无限次这样的删除操作,直到无法继续为止。 在执行完所有删除…

YUI经验谈 - 自定义事件默认行为

纵观主流JS库和框架,YUI在自定义事件方面做的尤为出色。如果需要挑出一个代表性的feature,那么非事件默认行为莫属。 是什么 YUI自定义事件在总体上模仿了DOM事件的设计思想。DOM中的一些事件是有默认行为的,详细见DOM3 Event - Default acti…

美团NLP中心算法实习生招聘

致力于连接最靠谱的算法岗与最强的求职者招聘贴投放请联系微信xixiaoyao-1岗位职责:NLP算法研发,例如文本挖掘、知识预训练、知识&多模态预训练等知识图谱构建核心技术相关论文撰写岗位要求:北京高校在校大学生。(2023年毕业优…

论文浅尝 | 改善多语言KGQA的 Zero-shot 跨语言转换

笔记整理:谭亦鸣, 东南大学博士生来源:NAACL21链接:https://aclanthology.org/2021.naacl-main.465/概述为了扩展多语言知识图谱问答的应用,Zero-shot方法成为一个研究趋势。在Zero-shot的设定下,通过高资源语言的训练…

LeetCode 1172. 餐盘栈(栈 + set)

1. 题目 我们把无限数量 ∞ 的栈排成一行,按从左到右的次序从 0 开始编号。每个栈的的最大容量 capacity 都相同。 实现一个叫「餐盘」的类 DinnerPlates: DinnerPlates(int capacity) - 给出栈的最大容量 capacity。void push(int val) - 将给出的正…

Hive SQL的编译过程

Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。 在几次升级Hive的过程中&…

Prompt tuning新工作,五个参数解决下游任务 fine-tuning

文 | 小伟编 | 小轶前言自从Google石破天惊地发布Bert以来,NLP就进入了预训练语言模型的时代。众所周知,我们可以用预训练语言模型来学习各种各样的任务,即使它们的特征空间有比较大的差异。那么预训练语言模型为什么会有这种泛化能力呢&…

会议交流 | 如何将图谱实体与关系更好的向量化,并基于推理扩充知识边界?——DataFun Summit2022知识图谱在线峰会...

背景介绍知识图谱是对人类先验知识的概括,具有重要的学术价值和广泛的应用前景。在深度学习广泛应用环境下,知识图谱的表示学习通过将图谱实体和关系向量化,便于利用深度学习技术实现异质信息融合;同时,基于这种图谱表…

真正的高阶特征交叉:xDeepFM与DCN-V2

文 | 水哥源 | 知乎Saying1. xDeepFM和DCN-V2是真正的高阶交叉,和前面讲的High Order Factorization Machine(HOFM)又有着千丝万缕的联系。某种简化下,都能退化为HOFM的形式2. 如图3. 推荐模型迭代的时候要平衡涨点和复杂度的关系…

学术会议 | 中国杭州举办——第21届国际语义网大会​ISWC2022 Call for Papers

中国杭州举办!ISWC2022 Call for Papers.ISWC(International Semantic Web Conference)是语义网和知识图谱领域的国际顶级学术会议,2022年10月23-27日,ISWC将在中国杭州举行,通过线上线下结合的方式,汇聚全世界相关的科…

LeetCode 82. 删除排序链表中的重复元素 II(链表)

1. 题目 给定一个排序链表,删除所有含有重复数字的节点,只保留原始链表中 没有重复出现 的数字。 示例 1: 输入: 1->2->3->3->4->4->5 输出: 1->2->5示例 2: 输入: 1->1->1->2->3 输出: 2->3来源:力…

从 ACL’22 投稿情况,速览当下 NLP 研究热点!

文 | Yimin_饭煲编 | 小轶卖萌屋的作者们,最近可真是忙秃了头~,不仅要苦哈哈地赶 ACL 2022 提前了两个月的Deadline,还要尽心尽力为读者们提供高质量的内容。如果大家心疼卖萌屋的作者们的话,还请多多一键三连:)ACL2022 全部转向了…

开源开放 | DeepKE发布新版本:支持低资源、长篇章、多任务的图谱抽取开源框架(浙江大学)...

OpenKG地址:http://openkg.cn/tool/deepkeGitHub地址:https://github.com/zjunlp/deepkeGitee地址:https://gitee.com/openkg/deepkeDeepKE网站:http://deepke.zjukg.org/CN/index.html开放许可协议:GPL 3.0贡献者&…

LeetCode 478. 在圆内随机生成点(概率)

1. 题目 给定圆的半径和圆心的 x、y 坐标,写一个在圆中产生均匀随机点的函数 randPoint 。 说明: 输入值和输出值都将是浮点数。圆的半径和圆心的 x、y 坐标将作为参数传递给类的构造函数。圆周上的点也认为是在圆中。randPoint 返回一个包含随机点的x坐标和y坐标…

11月AI大事件回顾:GPT3开放使用/女娲视觉大模型/AE文艺复兴/...

编 | iven感谢提供本期内容的 ZenMoore、 jxyxiangyu、付瑶大家好~ 11月的新闻速报来啦!上个月不知道大家有没有忙着写文章,反正小编是这样的:好啦,让我们快来回顾上个月的 AI 大新闻吧!学术进展何恺明 Mas…

开源开放 | 开源立体化漏洞情报知识图谱(四维创智)

OpenKG地址:http://openkg.cn/dataset/vuln-sprocket开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者:四维创智(李德斌,孙基栩,鲍晨阳)1. 前言随着时间的推移&#xff0…

LeetCode 515. 在每个树行中找最大值(层序遍历)

1. 题目 您需要在二叉树的每一行中找到最大的值。 示例: 输入: 1/ \3 2/ \ \ 5 3 9 输出: [1, 3, 9]来源:力扣(LeetCode) 链接:https://leetcode-cn.com/problems/find-largest-value-in-each-tree-row 著作…