领域应用 | 为电商而生的知识图谱,如何感应用户需求?

本文转载自公众号:阿里技术(ali_tech)    


                                                                      

640?wx_fmt=jpeg

阿里妹导读:本文从需求分析和体系化构建的角度出发,阐述在电商这一特殊领域的知识图谱构建过程中,形成的一整套概念体系,还有在此过程中,通过算法、工程、产品、运营和外包团队投入大量精力,通过不断磨合逐渐完善的平台架构和审核流程。



作者:玉昆、喜阕、远尚、弘朗、子尹、久越


1、背景


电商认知图谱从17年6月启动以来,通过不断从实践到体系化的摸索,逐渐形成了一套较为完善的电商数据认知体系


在当前集团不断拓展业务边界的背景下,数据互联的需求越来越强烈,因为这是跨领域的搜索发现、导购和交互的基础,也是真正能让用户“逛起来”要具备的基础条件。但在此之前,我们需要对当前的问题做一个分析。 


 1.1 问题


更复杂的数据应用场景不仅是传统的电商,现在我们面临的是新零售、多语言、线上线下结合的复杂购物场景,所用到的数据也往往超出了以往的文本范围,这些数据往往都具有一些特点:


非结构化互联网的大量数据都是分散在各个来源而且基本是非结构化文本方式来表示,目前的类目体系从商品管理角度出发,做了长期而大量的工作,仍然只是覆盖了大量数据的冰山一角,这对于认知真正的用户需求当然是远远不够的。


充满噪声:不同于传统的文本分析,目前集团内的数据大部分是query、title、评论、攻略等,这些数据由于用户习惯和商家诉求,会存在非常不同于普通文本的语法结构,也会由于利益原因存在大量噪声和脏数据,这也为真正发现用户需求并结构化带来了极大的困难。


多模态、多源:随着集团的业务扩展,目前的搜索推荐不仅容纳了商品中的文本信息、大量视频、图片也作为内容被使用、如何融合各个来源的数据、如何在关联多模态数据也是数据建设的一个难点。


数据分散,无法互联:从目前的商品体系建设来说,各个部门由于业务快速发展,往往需要维护自己的一套cpv体系,这也是后期做商品管理和搜索的非常关键的一环,但是由于应用场景的行业属性不一样,比如闲鱼的"包配饰"由于业务场景高频会是一个需要再细分的类目,但在淘系由于交易搜索低频,"鞋包配饰"仅仅是二手闲置下的一个小类目,这造成各个部门需要费力地维护在自己的cpv体系上的查询和搜索,每次都要重建自己的类目体系,重新支持存储查询,重新关联商品,重新做类目预测等。 如何建设一个比较通用的面向应用的概念体系,支持根据业务需求提供查询服务,已经迫在眉睫。


缺少数据的深度认知:数据的深度认知不是认知商品,而是认知用户需求之间的关联,如何能在用户搜索"叶酸”的时候认知到她有备孕需求,如何能在用户大量点击烧烤调料和工具的时候认知到他需要进行野外烧烤,是目前全集团都缺少的。


1.2 需求分析


通过如下的背景介绍,我们可以明确到,为了构建一个全局统一的知识表示和查询框架,我们需要如下的关键工作。


640?wx_fmt=png


复杂场景的数据结构化:在复杂的场景下,我们首先要做的是数据清洗,通过频次过滤、规则和统计分析把脏数据去掉,然后通过短语挖掘,信息抽取等方法把高可用的数据抓取出来,进行数据的结构化和层次划分。


分散数据的统一表示框架:对于管理分散数据,我们首先是需要定义一个全局的schema表示和存储方法,然后基于schema进行概念数据的融合,属性的挖掘和发现,在数据关联上有可能要通过各种表示学习的方法来完成。


数据深度认知:深度认知包含两个方面,一个是数据本身的认知,一个是数据关联的认知,通过行为和商品本身的信息我们可以认知到用户购买商品的意图,通过外部数据的输入和摘要我们会得到常识类和商品体系之外的用户需求的关联。


1.3 电商认知图谱


为了解决上面的问题,我们提出了电商认知图谱(E-commerce ConceptNet), 目标是建立电商领域的知识体系,通过深度认知用户需求,实现电商场景下关联人-货-场的联动,赋能业务方和行业。


1.3.1 模块划分


从整体划分上来说,认知图谱分为四块比较重要的工作,通过将不同类型的concept(user,scene,virtual category和item)构建为一个异构图,来实现用户-场景-商品的关联:


640?wx_fmt=png


用户图谱构建 用户图谱除了通用的用户画像信息(年龄、性别、购买力),也会有“老人”,“小孩”等人群数据,和用户的品类属性偏好数据。


1.3.2 场景图谱构建


场景可以看做是对用户需求的概念化,从现有的query和title中识别出用户需求,泛化为一个通用的场景(scene concept),并建立诸如"户外烧烤","度假穿搭"之类的概念是场景图谱的主要工作。通过不断细化的场景需求,我们将跨类目和品类,代表了一类用户需求的概念抽象为购物场景(sc)。


640?wx_fmt=png

 

挖掘了概念相当于我们得到了图上的节点,在概念挖掘之上,我们又着手建立概念与类目和品类,概念和概念之间的关系,相当于建立了图上的有向边,并计算边的强度,具体流程如下:


640?wx_fmt=png


 截止目前,我们已经产出10w+概念和10倍的品类类目关联。


1.3.3 品类细化


品类细化的来源是由于目前的类目体系会过粗或者过细,从构建上包括两个层面: 


品类聚合:比如"连衣裙“从认知层面上来说都是一个品类,但是由于分行业管理的原因会同时存在"女装”,"男装"和"童装"等不同类目中,这时候就会存在于两个一级类目下,所以就需要有一个偏常识的体系来维护对真正"连衣裙"的认知。


品类拆分:品类细化是源于我们发现现有的类目体系不足以聚合一类用户需求,比如有一个“西藏旅游”的场景,在“纱巾”类目下我们需要更多的细节,这时候就需要一个叫做“防风纱巾"的虚拟类目。 这个过程同样是存在entity/concept extraction和relation classification的,当前我们主要针对类目和品类品类上下位建立关系。


640?wx_fmt=png


截止目前,我们已经有融合了cpv类目树,品类类目关联,和外网数据的 pair对68.9w+对。


1.3.4 商品图谱构建


短语挖掘:商品图谱端我们需要的是做更多的商品属性认知,我们知道,完善的cpv体系的前提是phrase的认知,针对此我们建立了一个bootstrap框架下的cpv挖掘闭环,目标是能够长期有效积累cpv数据,扩大query和商品的认知(这也是商品打标的数据来源之一)。


640?wx_fmt=png


举例来说: 


640?wx_fmt=png


截止至目前,我们已经完成了pv top70的类目审核,增加了12W+的cpv对,term能够全量被识别的query占比已经从30%提升到60%(由于目前采用中粒度分词进行挖掘,前期分析70%已经是极限,后续会在增加phrase mining流程后持续扩大挖掘覆盖),目前数据已经作为类目预测,智能交互的基础数据每日产出。


商品打标:商品打标是我们得以将知识和商品建立关联的关键技术,上述三点产生的数据最后都会通过打标建立与item的联系,在商品打标完成后我们就可以实现从query到商品的整个语义认知闭环。 


640?wx_fmt=png


预计到三月底我们可以实现第一版的商品打标。


2、知识体系


在知识构建的过程中,我们渐渐发现需要一套全局统一的schema表示体系,于是我们调研了wordnet和conceptnet的体系构建历程,逐渐形成了自己的一套概念表示体系,也就是现有的认知图谱的核心(E-commerce ConceptNet),它的目标是从语义层面去理解电商领域的用户需求并将其概念化(conceptulization),映射到一个语义本体(ontology),通过词汇层面的关系逐渐把本体之间的关系形式化(specific),通过本体之间的层级去表示概念之间的层级,通过概念之间的关系去抽象实体类别和关系。 


640?wx_fmt=png


从数据层面上来看,我们要描述一个事物(entity),首先需要把它定义为一种类别(instance-of-class)的实例,这种类别通常又可以通过一个概念(concept)来表示,不同的概念会有自己不同的属性(proeprty),一类概念的具有的属性集合可以称为概念的schema,有同一类schema的概念一般会属于不同的领域(domain),领域内有自己的语义本体(ontoloty),通过本体的层次(比如“英国"-is-part-of-”英国"),我们可以形式化概念的层级和表示。 那么由细到粗的,我们定义了一套电商概念体系的表示方法,通过不断细化ontology和concept,以及他们之间的关系,来关联起用户和商品,甚至外部的实体。


3、技术框架


3.1 平台模块

640?wx_fmt=png


总体来说,我们是以一个数据服务中台支撑起上面的图引擎,再通过阡陌数据管理平台,和图灵业务对接平台来实现知识的生产和使用的。


3.2 模块细节


阡陌:数据标注和展示


阡陌作为电商知识图谱的基本平台,目前集成了所有知识标注和审核流程,并且提供了数据查询和可视化,后期算法的概念挖掘服务和商品打标服务也会通过阡陌对外提供。


  • 数据审核在不断试错过程中我们已经建立了一套比较完善的从初审到终审的流程,具体见阡陌审核工具。


640?wx_fmt=png


  • 可视化:除了审核平台,阡陌还提供了更加具体的数据可视化形式,通过良好的交互方便查询知识阡陌可视化


3.3 图灵:业务全选和投放


由于目前我们的知识大部分以卡片形式提供,图灵提供了一整套经由云主题透出的业务服务工具:


概念选择 :


640?wx_fmt=png


用户可以通过全选自己的主题进行分渠道投放


3.4 图引擎:数据存储和查询


从存储介质来说,我们使用mysql进行灵活标注,图数据库进行全量查询,odps做持久化数据版本管理。 


640?wx_fmt=png


在数据录入到igraph和biggraph之前会被拆分为点表和边表导入,在线通过gremlin进行查询。


640?wx_fmt=png


在图数据库上层我们封装了一个图引擎模块,提供不同trigger的场景和商品多路多跳召回功能。目前提供user,item_list和query召回,已经在喵小秘使用,并且和搜索发现进行联调中,可以使用查询接口进行查询和测试。


3.5 技术落地


云主题(认知图谱) 目前在云主题已经通过知识卡片的形式上线近1w个场景,比较首猜商品来说,点击和发散性较商品均有大幅提升,现在正在做数据发散性的探索。


640?wx_fmt=png


锦囊(全量)/底纹(bts) 


640?wx_fmt=png


搜索 


640?wx_fmt=png


穹顶


640?wx_fmt=png


四、后期规划


目前认知图谱刚刚发展近一年,还有很多工作需要细化,后续的工作重点会放在:


  1. 关系挖掘和本体构建

  2. 通过文本增强图谱和外部数据的关联

  3. 常识类推理规则的挖掘

  4. 图推理的符号逻辑表示


阿里巴巴搜索事业部NLP&知识图谱团队欢迎自然语言处理、数据挖掘、知识图谱方向的优秀人才加入,共建阿里电商生态,有兴趣的同学可发简历至xique.llx@alibaba-inc.com。


640?wx_fmt=gif



OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480456.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

史上最全阿里Java面试题目大汇总!强烈建议收藏~

阿里面试题目目录 技术一面(基础面试题目) 技术二面(技术深度、技术原理) 项目实战(项目模拟面试) JAVA开发技术常问的问题 阿里必会知识 阿里面试范畴 阿里面试总结 一:阿里技术一面&…

数据结构与算---重点复习知识

版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/sakurakider/article/details/82924371 </div><link rel"stylesheet" href"https://csdnimg.cn/release/phoeni…

GPT-3诞生,Finetune也不再必要了,NLP领域又一核弹

本文转载自公众号“夕小瑶的卖萌屋”&#xff0c;专业带逛互联网算法圈的神操作 -----》我是传送门 关注后&#xff0c;回复以下口令&#xff1a; 回复【789】 &#xff1a;领取深度学习全栈手册&#xff08;含NLP、CV海量综述、必刷论文解读&#xff09; 回复【入群】&…

POJ 1363 火车厢排队问题(栈)

题目链接&#xff1a;http://poj.org/problem?id1363 题目大意&#xff1a; A站有编号为1到N&#xff0c;N最大1000&#xff0c;的车厢&#xff0c;车厢进入中转station了就不能回到A&#xff0c;只能停在station内或者进入B站&#xff0c;问能不能按照给定的顺序排成那样的车…

徐阿衡 | 知识抽取-实体及关系抽取(一)

本文转载自公众号&#xff1a;徐阿衡。 这一篇是关于知识抽取&#xff0c;整理并补充了上学时的两篇笔记 NLP笔记 - Information Extraction 和 NLP笔记 - Relation Extraction&#xff0c;梳理了知识抽取的基本方法&#xff0c;包括传统机器学习及经典的深度学习方法。知识抽取…

非常全面的阿里的Java面试题目,涵盖Java基础+高级+架构

阿里技术一面 自我介绍 Java中多态是怎么实现的 Java中的几种锁 数据库隔离级别 脏读 幻读 ACID mysql的隔离级别 mysql索引实现&#xff0c;如何解决慢查询 数据库锁是怎么实现的 死锁的条件&#xff0c;进程和线程区别 tcp/ip模型&#xff0c;tcp和udp区别 Linux查看…

常见数据结构与算法整理总结(上)

原文链接&#xff1a;https://www.jianshu.com/p/230e6fde9c75 常见数据结构与算法整理总结&#xff08;上&#xff09; 最后编辑于 2017.12.04 03:29">2016.09.22 10:51*</span>数据结构是以某种形式将数据组织在一起的集合&#xff0c;它不仅存储数据&#xff…

卖萌屋原创专辑首发,算法镇魂三部曲!

一只小狐狸带你解锁炼丹术&NLP秘籍震惊&#xff01;乐坛新人夕小瑶的卖萌屋今日重磅发布三张原创专辑&#xff01;&#xff01;????点击试听????点击试听????点击试听虽然卖萌屋常常被大家戏称为“仙女屋”、“神仙屋”、“宝藏屋”等&#xff0c;但卖萌屋更希…

POJ 1028 浏览器前进后退(双栈)

题目链接&#xff1a;http://poj.org/problem?id1028 我的相同博文参考&#xff1a;https://blog.csdn.net/qq_21201267/article/details/88938360 LeetCode 5430. 设计浏览器历史记录&#xff08;双栈&#xff09; 解题思路参考上面博文。直接贴出代码&#xff1a; #inclu…

自然语言处理中的中文词性、标记规范及其应用

分词和词性标注是自然语言处理领域的重要组成部分&#xff0c;尤其对于中文而言&#xff0c;作为整条自然语言处理pipeline的源头&#xff0c;分词和词性标注更是起到了关键的作用。我整理这篇文章&#xff0c;主要来源于这几个问题&#xff1a; 一、理解中文词性是否有意义&am…

白雪 | NLP加持知识图谱在金融事件挖掘中的应用

本文转载自公众号&#xff1a;阡寻科技。9月15日讯&#xff0c;涵盖金融科技、人工智能及区块链领域的2018恒生技术开放日于今日开幕&#xff0c;阡寻科技联席CEO、复旦大学人工智能方向博士白雪受邀出席本次大会&#xff0c;分享了金融领域事件特点分析、常用的事件抽取方法以…

2020年,中国AI创业公司将走向何方

前言如果说2012年深度学习的崛起是点燃AI浪潮的星星之火&#xff0c;那么2016年的AlphaGo的成功则是一阵东风&#xff0c;AI之火已成燎原之势。那么&#xff0c;走向21世纪的新的十年&#xff08;2020年&#xff09;&#xff0c;中国AI创业公司将走向何方呢&#xff1f;作者是一…

常见数据结构与算法整理总结(下)

原文链接&#xff1a;https://www.jianshu.com/p/42f81846c0fb 这篇文章是常见数据结构与算法整理总结的下篇&#xff0c;上一篇主要是对常见的数据结构进行集中总结&#xff0c;这篇主要是总结一些常见的算法相关内容&#xff0c;文章中如有错误&#xff0c;欢迎指出。 一、概…

2019蚂蚁金服 Java面试题目!涵盖现场3面真题

蚂蚁Java一面 二叉搜索树和平衡二叉树有什么关系&#xff0c;强平衡二叉树&#xff08;AVL树&#xff09;和弱平衡二叉树&#xff08;红黑树&#xff09;有什么区别 B树和B树的区别&#xff0c;为什么MySQL要使用B树 HashMap如何解决Hash冲突 epoll和poll的区别&#xff0c;…

数据结构--队列Queue--打印杨辉三角

杨辉三角大家很熟悉&#xff0c;不做介绍了&#xff0c;第n行的首末两元素均为1&#xff0c;中间n-2个元素由n-1行相邻两元素相加得到。 将第1行数据入队&#xff08;1&#xff09; -------队列表示&#xff08;队头&#xff0c;… 队尾&#xff09;------- 第2行数据1入队&am…

论文浅尝 | 基于常识知识图谱感知和图注意力机制的对话生成

OpenKG 祝各位读者中秋快乐!链接&#xff1a;http://coai.cs.tsinghua.edu.cn/hml/media/files/2018_commonsense_ZhouHao_3_TYVQ7Iq.pdf动机在以前的工作中&#xff0c;对话生成的信息源是文本与对话记录。但是这样一来&#xff0c;如果遇到 OOV 的词&#xff0c;模型往往难以…

7款优秀Vim插件帮你打造完美IDE

本文转载自公众号“夕小瑶的卖萌屋”&#xff0c;专业带逛互联网算法圈的神操作 -----》我是传送门 关注后&#xff0c;回复以下口令&#xff1a; 回复【789】 &#xff1a;领取深度学习全栈手册&#xff08;含NLP、CV海量综述、必刷论文解读&#xff09; 回复【入群】&#xf…

POJ 2259 team queue团队排队问题

题目链接&#xff1a; http://poj.org/problem?id2259 题目大意&#xff1a; 告诉你一堆人&#xff08;m个人是一组的&#xff0c;n个人是一组的。。。。&#xff09;&#xff1b;然后一个人来排队了&#xff0c;先看下有自己组的熟人吗&#xff1f;有的话直接排在自己组的人…

中文句法分析、标记规范及其应用

一、 Why句法分析 句法分析是比词高一个层级的语言单位&#xff0c;单个词之间通过中文语法规则进行组织&#xff0c;形成一个具有连贯语义的词语序列。为了揭示这种组织结构和规则&#xff0c;揭示出词语以及词语的成分&#xff0c;往往需要对其进行句法分析。就中文而言&…

蚂蚁三面题目(java开发岗):Java锁机制+JVM+线程池+事务+中间件

一面 1、HashMap底层原理&#xff1f;HashTable和ConcurrentHashMap他们之间的相同点和不同点&#xff1f; 2、由上题提到锁的问题 3、MySQL的表锁&行锁&乐观锁&悲观锁,各自的使用场景 4、Java线程锁有哪些&#xff0c;各自的优劣势 5、事务四大特性 6、事务的…