领域应用 | 机器知道哪吒是部电影吗?解读阿里巴巴概念图谱AliCG

转载公众号 | PaperWeekly


概念是人类认知世界的基石。比如对于“哪吒好看吗?”,“哪吒铭文搭配建议”两句话,人可以结合概念知识理解第一个哪吒是一部电影,第二个哪吒是王者荣耀的英雄。然而机器能理解吗?

针对这一问题,浙江大学和阿里巴巴的算法工程师们一起提出了一种全新的自动化概念图谱构建方法,其能够自动的从海量文本及半结构化数据中构建细粒度的中文概念层次结构,相关技术的论文已经被国际顶会 KDD 2021 录用。

论文标题:

AliCG: Fine-grained and Evolvable Conceptual Graph Construction for Semantic Search at Alibaba

收录会议:

KDD 2021

论文链接:

https://arxiv.org/abs/2106.01686

提出的相关技术同时支持了阿里巴巴商品知识图谱的建设,应用于细粒度商品标签的获取、挖掘和更新等任务。阿里巴巴商品知识图谱拥有千亿级别的实体和关系,为不同业务商品数据的组织和管理起到了重要作用,并获得了 2020 年度钱伟长中文信息处理科学技术奖和 2020 年度 ECR 中国零售供应协会创新项目奖。

背景

概念是人类认知从具体进入抽象的第一步,也是人类认知世界的基石。概念知识图谱是一种特殊的知识图谱,在语义搜索、自动问答等场景具有广泛的应用价值。例如,微软开发了 Microsoft Concept Graph [1] 可以帮助机器更好地理解人类语言进而提升语义理解效果。网络搜索引擎(如谷歌和必应)利用概念分类来更好地理解用户查询并提高搜索质量。

此外许多电商平台(如阿里巴巴 [2] 和亚马逊)将产品分为不同粒度的层次结构,以便客户可以轻松地搜索和导航不同分类,找到他们想要购买的商品。然而,以往的概念图谱构造方法 [3] 通常只从文本中抽取高频率、粗粒度和静态的概念实例。在实际应用中,其较难覆盖长尾和细粒度概念信息,且存在更新困难的问题。

具体的说,以往的方法面临以下三个挑战:

细粒度概念获取。不同于粗粒度概念,细粒度的概念有助于提升搜索的召回率。例如,“围巾”是一件“服饰”,我们较难获取“围巾”的细粒度上级概念“保暖服饰”,这些细粒度概念很少被现有的概念图谱所覆盖。

长尾概念挖掘。传统的概念抽取方法通常是基于 Hearst 模板提取概念。然而,这些方法较难从带噪声的开放语料中提取长尾概念。

自动概念更新。传统的方法无法随着时间的推移更新概念的信息。例如,“哪吒”在不同的时期有着不同的含义,可以指神话作品人物或者上映影片。因此,必须将时间演化纳入概念分类体系构建中。随着时间的变化,我们需要对齐概念图谱中具有相同含义的节点,并估计给定实例中概念的置信度分布。

AliCG

阿里巴巴的概念图谱 AliCG 由海量的概念核心实例、数万的细粒度概念和概念-实例三元组组成,这些数据包括了常见的人物、地点等通用实例。

相较于传统的知识图谱,AliCG 包含大量中文细粒度概念,且具备自动更新、自动扩充的能力。比如对于“刘德华”这一实例,AliCG 不仅包含“香港歌手”、“演员”等传统概念,还具有“华语歌坛不老男歌手”、“娱乐圈绝世好男人”等细粒度标签。

如图所示,AliCG 分为四个级别的层次结构:Level1 层由表示这些实例所属的领域概念组成;Level2 层由实例类型或子类的概念组成;Level3 层由基础概念组成,这些概念是实例的细粒度概念化;Instance 层包括实体和非实体短语等所有实例。

构建算法


3.1 细粒度概念获取

这一模块的目的是从包含噪声的海量开放语料中提取常见的细粒度概念,然后获取候选概念和实例,并通过概率推理和概念匹配将候选概念和实例与相应的概念联系起来。我们定义了一组精准的模板来从高置信度的匹配查询中利用 Bootstrapping 方法提取概念短语。例如,“十大XXX”是一种可用于提取种子概念的模式。基于这种模式,我们可以抽取出“十大手机游戏”等概念。

3.2 长尾概念挖掘

这一模块的目的是通过短语挖掘和自训练从有带噪的搜索日志中提取长尾概念。我们首先基于短语挖掘算法,并利用外部领域知识图谱中的术语进行长尾的概念挖掘。具体来说,我们首先过滤停止词,然后使用现成的短语挖掘工具 AutoPhrase 在无监督的情况下对语料库进行短语挖掘。我们同时采用了一种基于自训练的序列标注算法,用于长尾概念的挖掘,进一步提取一些分散的概念。

3.3 自动概念更新

这一模块的目的是随时间变化更新概念信息。我们首先将部分概念与预定义的同义词词典对齐。然后,我们通过通过每天的用户搜索实例热度计算置信度得分,并根据用户的点击行为来估计概念置信度分布。最后,我们将两个不同粒度的置信度得分联合构建实例-概念分类如下图所示。关于构建方法的细节可以参阅我们的论文原文。

实验与应用

我们对概念图谱构建系统和应用做了丰富的实验。如下图所示,实验结果表明,相比于传统的概念挖掘算法,我们能够获得更加细粒度的概念实例三元组,且具备对长尾概念的挖掘能力。

此外,我们在还展示了 AliCG 在四种不同场景下的潜在应用案例:

(1)交互式搜索系统,“哪吒”链接到概念层 level3 的浅层概念,可引导用户依据列出的概念进行实时交互,实现实体消歧,精准定位搜索内容,最终索引到“哪吒之魔童降世”内容,高层级的概念有助于帮助定位目的实例;

(2)开放式对话系统,可根据用户给定的实例联系概念知识图谱,实例-概念、概念-概念之间的链接通路使对话更有信息量,提高交互能力;

(3)阅读理解系统,可根据文本内容对链接到“李白”这一实例的概念进行置信度排序,向用户展示最有可能的理解输出,在这里系统根据上下文可以准确判断“李白”并不是指代高频概念“盛唐时期的诗人”,这说明了细粒度的概念知识图谱对于识别精度有很大帮助;

(4)广告推荐系统,根据用户历史购物信息,向中文概念图谱中索引高层次概念实例,多个概念之间进行组合推断,识别到“运动装备”、“工业产品”、“用具”,可以有效向用户推送户外相关产品,并给出推荐理由。

(5)在商品知识图谱中的应用,商品知识图谱包含大量商品标签用于描述商品,标签基于命名实体识别和新词发现两条链路生产。商品标签本质上也是概念,存在不同粒度的分层结构,同时也面临着长尾标签和更新的问题。文章提出的算法重点解决这几个问题,我们把对应的算法模块融到了商品知识图谱标签生产的流程之中。

总结与展望

在本文中,我们介绍了阿里巴巴概念图谱的构建及应用,并提出了一种并提出一种全新的自动化概念图谱构建方法,其能够自动的从海量文本及半结构化数据中构建细粒度的中文概念层次结构,并把相关技术应用在了阿里巴巴商品知识图谱中。

随着人工神经网络技术的不断发展,数据驱动渐入天花板。尽管超大规模的预训练语言模型如 GPT-3 取得了令人惊艳的效果,它仍然经常闹笑话。数据+知识是驱动未来认知 AI 的重要路线之一。我们的方法能够自动挖掘概念知识,并在真实场景中起到了较好的效果。

浙江大学-慕课-《知识图谱》:

欢迎选修浙江大学《知识图谱》开放共享慕课

参考文献

[1] Microsoft concept graph: Mining semantic concepts for short text understanding

[2] AliCoCo: Alibaba e-commerce cognitive concept net

[3] CN-Probase: a data-driven approach for large-scale Chinese taxonomy construction


 

OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478265.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 605. 种花问题

1. 题目 假设你有一个很长的花坛,一部分地块种植了花,另一部分却没有。可是,花卉不能种植在相邻的地块上,它们会争夺水源,两者都会死去。 给定一个花坛(表示为一个数组包含0和1,其中0表示没种…

美团点评业务风控系统构建经验

本文根据“第八届中国系统架构师大会”演讲内容整理而成。 美团最初以团购的形式出现,到现在有了很大的业务形态转变。尤其是经过与大众点评的业务融合,从单一业务发展成了覆盖到店餐饮、到店综合、猫眼、外卖、酒店、旅游等多个垂直领域的综合性电商&am…

95后程序员晒出工资单:狠补了这个,真香…

作为AI 初学者来说,最大的问题就是:资料太多!!!看不完!!!不知道如何取舍!!!人的精力有限!!!大部分想转行AI算法…

领域应用 | 小米在知识表示学习的探索与实践

转载公众号 | DataFunTalk导读:知识表示是知识获取与应用的基础,贯穿了小米知识图谱的构建与应用。本文将结合小米知识图谱的构建及小爱问答场景,介绍融合文本和知识图谱的知识表示学习方法,以及知识表示在知识图谱补全、实体链接…

LeetCode 563. 二叉树的坡度(DFS)

1. 题目 给定一个二叉树,计算整个树的坡度。 一个树的节点的坡度定义即为,该节点左子树的结点之和和右子树结点之和的差的绝对值。空结点的的坡度是0。 整个树的坡度就是其所有节点的坡度之和。 示例:输入: 1/ \2 3输出: 1 解释: 结点的坡度 …

多模态为什么比单模态好?第一份严谨证明来了!

文 | 橙橙子面试官: 听说你对多模态感兴趣,请问为什么多模态学习要比单模态学习效果好?候选人: 直观地,多模态学习可以聚合多源数据的信息,使得模型学习到的表示更加完备。以视频分类为例,同时使用字幕标题等文本信息、…

推荐:26种NLP练手项目(代码+数据)

1.分词 Word Segmentation chqiwang/convseg ,基于CNN做中文分词,提供数据和代码。 对应的论文Convolutional Neural Network with Word Embeddings for Chinese Word Segmentation IJCNLP2017. 2.词预测 Word Prediction Kyubyong/word_prediction &…

会议交流 | 最新NLP核心技术与前沿实践分享!

2021年7月10日,09:00-18:10,DataFunSummit:自然语言处理峰会将如约而至,本次峰会由3位主席和6位出品人精心策划而来,邀请来自业界的40余位嘉宾从NLP基础技术、语义表示与计算、多模理解与生成、信息抽取与检索、人机对…

LeetCode 504. 七进制数(进制转换)

1. 题目 给定一个整数,将其转化为7进制,并以字符串形式输出。 示例 1: 输入: 100 输出: "202"示例 2: 输入: -7 输出: "-10" 注意: 输入范围是 [-1e7, 1e7] 。来源:力扣(LeetCode) 链接&#xf…

领域应用 | 常识性概念图谱建设以及在美团场景中的应用

转载公众号 | 美团技术团队常识性概念图谱,是围绕常识性概念建立的实体以及实体之间的关系,同时侧重美团的场景构建的一类知识图谱。本文介绍了美团常识性概念图谱构建的Schema,图谱建设中遇到的挑战以及建设过程中的算法实践,最后…

美团数据库中间件DBProxy开源

随着数据量的不断增大,传统的直连数据库对数据进行访问的方式已经无法满足一般公司的需求。通过数据库中间件,可以对数据库进行水平扩展,由原来单台数据库扩展到多台数据库,数据库中间件通过路由规则将数据的访问请求路由到其中一…

不卷学术了,这次卷一波NLP实战落地经验

作为最典型的 AI 领域之一,NLP 这些年也是越来越热门,基本上是各大厂必备了。随着 OpenAI 等技术的诞生、迁移学习等技术的成功应用,使得 NLP 技术在搜索、推荐、信息流、互联网金融、社交网络等领域不断发展壮大。与此同时,NLP 工…

docker挂载文件躺过的坑

Docker 实现挂载的三种方式 docker: Error response from daemon: OCI runtime create failed: container_linux.go:348: starting container process caused “exec: “-v”: executable file not found in $PATH”: unknown. 看着启动成功了,但查日志启动失败 日…

美团团购订单系统优化记

团购订单系统简介 美团团购订单系统主要作用是支撑美团的团购业务,为上亿美团用户购买、消费提供服务保障。2015年初时,日订单量约400万~500万,同年七夕订单量达到800万。 目标 作为线上S级服务,稳定性的提升是我们不断的追求。尤…

论文浅尝 | emrKBQA: 一个面向临床医疗问答的KBQA数据集

笔记整理 | 谭亦鸣,东南大学博士生来源:BioNLP ’21 workshop, ACL ‘21链接:https://www.aclweb.org/anthology/2021.bionlp-1.7.pdf论文主要包含两个部分的核心工作:emrKBQA数据集,对应的benchmark。基于MIMIC-III …

Fine-tune之后的NLP新范式:Prompt越来越火,CMU华人博士后出了篇综述文章

文 | 刘鹏飞源 | 机器之心CMU 博士后研究员刘鹏飞:近代自然语言处理技术发展的第四范式可能是预训练语言模型加持下的 Prompt Learning。近几年,NLP 技术发展迅猛,特别是 BERT 的出现,开启了 NLP 领域新一轮的发展。从 BERT 开始&…

会议交流 | 世界人工智能大会“大数据关联”论坛举行

转载公众号 | 创邻科技2021年7月8日,由世界人工智能大会组委会与浙江创邻科技有限公司共同筹办的“大数据关联时代下的图数据库技术与应用论坛”在上海世博中心圆满落幕。论坛邀请了清华大学、北京大学、复旦大学、浙江大学、天津大学等多位学术届的思想领袖和工商银…

LeetCode 994. 腐烂的橘子(图的BFS)

1. 题目 在给定的网格中,每个单元格可以有以下三个值之一: 值 0 代表空单元格; 值 1 代表新鲜橘子; 值 2 代表腐烂的橘子。 每分钟,任何与腐烂的橘子(在 4 个正方向上)相邻的新鲜橘子都会腐烂…

美团酒店直连产品数据一致性演进

美团酒店直连项目自2013年末开始,通过业务上的不断完善和技术上的不断改进,至今已经接入200多家供应商,其中在线酒店3万以上,在线SPU30万以上。经过两年的成长,美团酒店直连平台终于在2015年末发展为国内最大的酒店直连…

直击行业痛点!端侧模型部署的成熟解决方案有了!

深度学习经过多年发展,AI已经深入人心,事实上,在图像、文本领域,AI在多个产业已经落地了诸多应用,我们熟知的自动驾驶、语音助手,背后就大量运用了AI技术。当下,飞桨PaddlePaddle、TensorFlow、…