领域应用 | 推荐算法不够精准?让知识图谱来解决

本文转载自公众号:微软研究院AI头条


                           



编者按:我们几乎每天都会接收到各种各样的推荐信息,从新闻、购物到吃饭、娱乐。个性化推荐系统作为一种信息过滤的重要手段,可以依据我们的习惯和爱好推荐合适的服务。但传统的推荐系统容易出现稀疏性和冷启动的问题,而知识图谱作为一种新兴类型的辅助信息,近几年逐渐引起了研究人员的关注,本文将向大家介绍知识图谱的相关知识以及知识图谱在推荐系统中可能的应用价值。一起来学习一下吧!


 

小王是一名程序员。早上八点,他被闹铃叫醒,拿起手机开始浏览手机上的新闻APP推荐的最新消息:


640?wx_fmt=jpeg


随后,小王想起昨晚放在购物车里的鞋还没有下单。于是,他打开了某购物APP,查看了一下自己的购物车:


640?wx_fmt=jpeg


但是他觉得下面推荐的板鞋似乎更适合自己,于是他买了一双。


吃完早饭,小王坐地铁去上班。地铁上无聊的小王打开了某音乐APP,系统已经为他选好了推荐的歌曲:


640?wx_fmt=jpeg

 

到了公司后,小王开始继续写没有完成的代码,但是始终无法把参数调到满意的水平。有些烦躁的小王想歇一歇,于是打开了某资讯APP,看了几个为他推荐的话题:


640?wx_fmt=jpeg


就在他认真阅读的时候,经理注意到了他不在干活,很生气,于是严肃地批评了小王。小王感到很委屈,这时手机里的某求职类APP给他发来了推送:


640?wx_fmt=jpeg


小王觉得这几个职位都挺适合自己的,于是心里有了跳槽的打算。到了午饭时间,小王打开了某外卖APP,查看了一下系统推荐的附近餐厅:


640?wx_fmt=jpeg


小王一边吃着刚刚送来的外卖,一边浏览着某娱乐类APP,查看适合晚上和女朋友一起观看的演出推荐:


640?wx_fmt=jpeg


晚上看完演出,小王和女朋友都非常满意,觉得这个APP的系统推荐很棒。



推荐系统



跟小王一样,我们几乎每个人每天都会使用多个APP中的推荐功能,这些功能的背后都是个性化推荐系统(personalized recommender systems)。随着互联网技术和产业的迅速发展,接入互联网的服务器数量和网页数量也呈指数级上升。用户面临着海量的信息,传统的搜索算法只能呈现给用户(user)相同的物品(item)排序结果,无法针对不同用户的兴趣爱好提供相应的服务。信息爆炸使得信息的利用率反而降低,这种现象被称为信息超载(information overload)。


推荐问题从本质上说就是代替用户评估其从未看过、接触过和使用过的物品,包括书籍、电影、新闻、音乐、餐馆、旅游景点等。推荐系统作为一种信息过滤的重要手段,是当前解决信息超载问题的最有效的方法之一,是面向用户的互联网产品的核心技术。



推荐系统的任务和难点



按照预测对象的不同,推荐系统一般可以分成两类:一类是评分预测(rating prediction),例如在电影类应用中,系统需要预测用户对电影的评分,并以此为根据推送其可能喜欢的电影。这种场景下的用户反馈信息表达了用户的喜好程度,因此这种信息也叫显式反馈(explicit feedback);另一类是点击率预测(click-through rateprediction),例如在新闻类应用中,系统需要预测用户点击某新闻的概率来优化推荐方案。这种场景下的用户反馈信息只能表达用户的行为特征(点击/未点击),而不能反映用户的喜爱程度,因此这种信息也叫隐式反馈(implicit feedback)。


640?wx_fmt=png

 

传统的推荐系统只使用用户和物品的历史交互信息(显式或隐式反馈)作为输入,这会带来两个问题:一,在实际场景中,用户和物品的交互信息往往是非常稀疏(sparse的。例如,一个电影类APP可能包含了上万部电影,然而一个用户打过分的电影可能平均只有几十部。使用如此少量的已观测数据来预测大量的未知信息,会极大地增加算法的过拟合overfitting)风险;二,对于新加入的用户或者物品,由于系统没有其历史交互信息,因此无法进行准确地建模和推荐,这种情况也叫做冷启动问题cold start problem)。


解决稀疏性和冷启动问题的一个常见思路是在推荐算法中额外引入一些辅助信息(side information)作为输入。辅助信息可以丰富对用户和物品的描述、增强推荐算法的挖掘能力,从而有效地弥补交互信息的稀疏或缺失。常见的辅助信息包括:


  • 社交网络social networks):一个用户对某个物品感兴趣,他的朋友可能也会对该物品感兴趣;


  • 用户/物品属性attributes):拥有同种属性的用户可能会对同一类物品感兴趣;


  • 图像/视频/音频/文本等多媒体信息multimedia):例如商品图片、电影预告片、音乐、新闻标题等;


  • 上下文context):用户-物品交互的时间、地点、当前会话信息等。

  • ……


640?wx_fmt=png

 

如何根据具体推荐场景的特点将各种辅助信息有效地融入推荐算法一直是推荐系统研究领域的热点和难点,如何从各种辅助信息中提取有效的特征也是推荐系统工程领域的核心问题。



知识图谱




640?wx_fmt=jpeg


在各种辅助信息中,知识图谱作为一种新兴类型的辅助信息近几年逐渐引起了研究人员的关注。知识图谱(knowledge graph)是一种语义网络,其结点node)代表实体entity)或者概念concept),edge)代表实体/概念之间的各种语义关系relation)。一个知识图谱由若干个三元组(hrt)组成,其中ht代表一条关系的头结点和尾节点,r代表关系。


640?wx_fmt=png


上图展示的三元组表达了“陈凯歌导演了霸王别姬”这样一条事实,其中h=陈凯歌、t=霸王别姬、r=导演。


知识图谱包含了实体之间丰富的语义关联,为推荐系统提供了潜在的辅助信息来源。知识图谱在诸多推荐场景中都有应用的潜力,例如电影、新闻、景点、餐馆、购物等。和其它种类的辅助信息相比,知识图谱的引入可以让推荐结果更加具有以下特征


  • 精确性precision)。知识图谱为物品引入了更多的语义关系,可以深层次地发现用户兴趣;


640?wx_fmt=png

 

  • 多样性diversity)。知识图谱提供了不同的关系连接种类,有利于推荐结果的发散,避免推荐结果局限于单一类型;


640?wx_fmt=png

 

  • 可解释性explainability)。知识图谱可以连接用户的历史记录和推荐结果,从而提高用户对推荐结果的满意度和接受度,增强用户对推荐系统的信任。


640?wx_fmt=png

 

这里值得一提的是知识图谱和物品属性的区别物品属性可以看成是在知识图谱中和某物品直接相连的一跳(1-hop)的节点,即一个弱化版本的知识图谱。事实上,一个完整的知识图谱可以提供物品之间更深层次和更长范围内的关联,例如,“《霸王别姬》-张国荣-香港-梁朝伟-《无间道》”。正因为知识图谱的维度更高,语义关系更丰富,它的处理也因此比物品属性要更加复杂和困难。


一般来说,现有的可以将知识图谱引入推荐系统的工作分为两类:

 

  • LibFM[1]为代表的通用的基于特征的推荐方法generic feature-based methods)。这类方法统一地把用户和物品的属性作为推荐算法的输入。例如,LibFM将某个用户和某个物品的所有属性记为x,然后令该用户和物品之间的交互强度y(x)依赖于属性中所有的一次项和二次项:

640?wx_fmt=png

基于该类方法的通用性,我们可以将知识图谱弱化为物品属性,然后应用该类方法即可。当然,这种做法的缺点也显而易见:它并非专门针对知识图谱设计,因此无法高效地利用知识图谱的全部信息。例如,该类方法难以利用多跳的知识,也难以引入关系(relation)的信息。


  • PER [2]MetaGraph[3]为代表的基于路径的推荐方法path-based methods)。该类方法将知识图谱视为一个异构信息网络heterogeneous information network),然后构造物品之间的基于meta-pathmeta-graph的特征。简单地说,meta-path是连接两个实体的一条特定的路径,比如“演员->电影->导演->电影->演员”这条meta-path可以连接两个演员,因此可以视为一种挖掘演员之间的潜在关系的方式。这类方法的优点是充分且直观地利用了知识图谱的网络结构,缺点是需要手动设计meta-pathmeta-graph,这在实践中难以到达最优;同时,该类方法无法在实体不属于同一个领域的场景(例如新闻推荐)中应用,因为我们无法为这样的场景预定义meta-pathmeta-graph


640?wx_fmt=png



知识图谱特征学习



知识图谱特征学习(Knowledge Graph Embedding)为知识图谱中的每个实体和关系学习得到一个低维向量,同时保持图中原有的结构或语义信息。事实上,知识图谱特征学习是网络特征学习(network embedding)的一个子领域,因为知识图谱包含特有的语义信息,所以知识图谱特征学习比通用的网络特征学习需要更细心和针对性的模型设计。一般而言,知识图谱特征学习的模型分类两类:


  • 基于距离的翻译模型distance-based translational models)。这类模型使用基于距离的评分函数评估三元组的概率,将尾节点视为头结点和关系翻译得到的结果。这类方法的代表有TransETransHTransR等;

 

640?wx_fmt=png


  • 基于语义的匹配模型semantic-based matching models)。这类模型使用基于相似度的评分函数评估三元组的概率,将实体和关系映射到隐语义空间中进行相似度度量。这类方法的代表有SMENTNMLPNAM等。

 

640?wx_fmt=png


由于知识图谱特征学习为每个实体和特征学习得到了一个低维向量,而且在向量中保持了原图的结构和语义信息,所以一组好的实体向量可以充分且完全地表示实体之间的相互关系,因为绝大部分机器学习算法都可以很方便地处理低维向量输入。因此,利用知识图谱特征学习,我们可以很方便地将知识图谱引入各种推荐系统算法中。概括地说,知识图谱特征学习可以:


  • 降低知识图谱的高维性和异构性;

  • 增强知识图谱应用的灵活性;

  • 减轻特征工程的工作量;

  • 减少由于引入知识图谱带来的额外计算负担。


在本篇中,我们分别介绍了推荐系统、知识图谱、以及知识图谱在推荐系统中的应用价值。作为推荐算法的辅助信息,知识图谱的引入可以极大地提高推荐系统的精准性、多样性和可解释性。在下周的文章中,我们将详述将知识图谱引入推荐系统的各种思路与实现,敬请期待!


参考文献


[1] Factorization machines with libfm

[2] Personalized entity recommendation: A heterogeneous information network approach

[3] Meta-graph based recommendation fusion over heterogeneous information networks

[4] Knowledge graph embedding: A survey of approaches and applications


作者简介


640?wx_fmt=jpeg


王鸿伟,本科毕业于上海交通大学计算机科学与技术专业ACM试点班,目前为上海交通大学在读四年级博士,在微软亚洲研究院社会计算组实习。研究兴趣为网络特征学习、推荐系统、文本和社交数据挖掘,并在WWWAAAIWSDMCIKMTPDS上发表了十余篇论文。

 

640?wx_fmt=jpeg


张富峥,微软亚洲研究院研究员,从事人工智能和数据挖掘方面的研究。研究兴趣包括推荐系统、用户画像、自然语言处理等领域,在这些领域的顶级会议和期刊上发表了近30余篇论文,如KDDWWWUbicompTIST等,曾获ICDM 2013最佳论文大奖。


640.jpeg?


谢幸,微软亚洲研究院资深研究员,中国科技大学兼职博士生导师。他的团队在数据挖掘、社会计算和普适计算等领域展开创新性的研究。他在国际会议和学术期刊上发表了200余篇学术论文,共被引用18000余次,多次在KDDICDM等顶级会议上获最佳论文奖。他是ACMIEEE高级会员和计算机学会杰出会员,曾担任ACM UbiComp 2011PCC 2012IEEE UIC 2015、以及SMP 2017等大会程序委员会共同主席。




OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

 

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480653.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

BERT重计算:用22.5%的训练时间节省5倍的显存开销(附代码)

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者:夕小瑶、rumor酱前言虽然TPU的显存令人羡慕,但是由于众所周知的原因,绝大部分人还是很难日常化使用的。英伟达又一直在挤牙膏,至今单卡的最大显存也仅仅到32G(参考V100、D…

去腾讯等BAT面试完的Mysql面试55题总结,含答案大赠送!

【BAT面试:mysql 面试55题】 1、一张表里面有ID自增主键,当insert了17条记录之后,删除了第15,16,17条记录,再把mysql重启,再insert一条记录,这条记录的ID是18还是15 ? 2、mysql的技术特点是什…

这十套练习,教你如何使用Pandas做数据分析

这十套练习,教你如何用Pandas做数据分析Pandas是入门Python做数据分析所必须要掌握的一个库。本文内容由科赛网翻译整理自Github,建议读者完成科赛网 从零上手Python关键代码 和 Pandas基础命令速查表 教程学习的之后,点击本篇Notebook右上角…

预训练模型超全知识点梳理与面试必备高频FAQ

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者:JayLou娄杰来源:https://zhuanlan.zhihu.com/p/115014536预训练模型(Pre-trained Models,PTMs)的出现将NLP带入了一个全新时代。2020年3月18日,邱锡鹏老师发表了关于NLP预训练模型的综述《Pre-tr…

阿里P8架构师谈:MySQL数据库的索引原理、与慢SQL优化的5大原则

MySQL凭借着出色的性能、低廉的成本、丰富的资源,已经成为绝大多数互联网公司的首选关系型数据库。虽然性能出色,但所谓“好马配好鞍”,如何能够更好的使用它,已经成为开发工程师的必修课,我们经常会从职位描述上看到诸…

论文浅尝 | 利用类比推理优化知识图谱向量表示

链接:https://arxiv.org/pdf/1705.02426.pdf本文的主要创新点就是把类比推理应用到 KG embedding 中,通过对模型的 score function 添加某些约束来捕获 KG 中类比结构的信息,进而优化 KG 中实体和关系的 embedding 表示,并在 FB15…

推荐 10 个饱受好评且功能独特的开源人工智能项目

来自:开源中国链接:https://my.oschina.net/editorial-story/blog/1592254推荐 10 个饱受好评且功能独特的开源人工智能项目关于人工智能的项目,相信大家都看过或者用过不少了,但它们的大多数看上去都十分“高大上”,让…

如何以初学者角度写好一篇国际学术论文?

一只小狐狸带你解锁 炼丹术&NLP 秘籍人工智能顶会论文之争越来越激烈了,CVPR、AAAI、ICLR等各大会议虽然录取率逐年降低,但是投稿论文数量却在逐年增加。虽说发论文不是衡量一位学者的学术能力的唯一标准,但确是极为重要的标准。一篇好的…

领域应用 | 如何将知识图谱特征学习应用到推荐系统?

本文转载自公众号:微软研究院AI头条。 编者按:在上周发表的“推荐算法不够精准?让知识图谱来解决”一文中,我们为大家介绍了日常生活中几乎每天都会用到的推荐系统,以及用来提高推荐系统精准性、多样性和可解释性的推荐…

阿里P8架构师谈:MySQL行锁、表锁、悲观锁、乐观锁的特点与应用

我们在操作数据库的时候,可能会由于并发问题而引起的数据的不一致性(数据冲突)。如何保证数据并发访问的一致性、有效性,是所有数据库必须解决的一个问题,锁的冲突也是影响数据库并发访问性能的一个重要因素&#xff0…

谷歌、微软、OpenAI等巨头七大机器学习开源项目 看这篇就够了

在人工智能行业,2015-2016 出现了一个不同寻常的趋势:许多重量级机器学习项目纷纷走向开源,与全世界的开发者共享。加入这开源大潮的,不仅有学界师生,更有国内外的互联网巨头们:国内有百度和腾讯&#xff0…

推荐系统的发展与简单回顾

“本文结合百度和支付宝两段推荐系统相关的实习经历,针对工业界的模型发展做了简单梳理与回顾,涵盖表示学习,深度学习,强化学习知识图谱以及多任务学习”表示学习和深度学习在推荐系统中的应用是目前工业界比较成熟的,但是与强化学…

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析...

MaY, Peng H, Cambria E. Targeted aspect-based sentiment analysis via embedding commonsense knowledge into an attentive LSTM[C]//AAAI. 2018.任务简介特定目标的基于侧面的情感分析,在原来基于侧面的情感分析的基础上,进一步挖掘细粒度的信息&am…

阿里P8架构师谈:MySQL有哪些存储引擎,各自的优缺点,应用场景

经常面试都会问到MYSQL有哪些存储引擎,以及各自的优缺点。今天主要分享常见的存储引擎:MyISAM、InnoDB、MERGE、MEMORY(HEAP)、BDB(BerkeleyDB)等,以及最常用的MyISAM与InnoDB两个引擎 &#xf…

TensorFlow 全网最全学习资料汇总之TensorFlow的技术应用

谷歌于2015年11月发布了全新人工智能系统TensorFlow。该系统可被用于语音识别或照片识别等多项机器深度学习领域,主要针对2011年开发的深度学习基础架构DistBelief进行了各方面的改进,它可在小到一部智能手机、大到数千台数据中心服务器的各种设备上运行…

13个offer,8家SSP,谈谈我的秋招经验

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

领域应用 | 知识图谱的技术与应用

本文转载自公众号:贪心科技。作者 | 李文哲,人工智能、知识图谱领域专家导读:从一开始的Google搜索,到现在的聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统,无一不跟知识图谱相关。它在技术领域的…

阿里P8架构师谈:MySQL慢查询优化、索引优化、以及表等优化总结

MySQL优化概述 MySQL数据库常见的两个瓶颈是:CPU和I/O的瓶颈。 CPU在饱和的时候一般发生在数据装入内存或从磁盘上读取数据时候。 磁盘I/O瓶颈发生在装入数据远大于内存容量的时候,如果应用分布在网络上,那么查询量相当大的时候那么平瓶颈就…

医药领域知识图谱快速及医药问答项目

QABasedOnMedicaKnowledgeGraph self-implement of disease centered Medical graph from zero to full and sever as question answering base. 从无到有搭建一个以疾病为中心的一定规模医药领域知识图谱,并以该知识图谱完成自动问答与分析服务。 项目介绍 本项…

一文详解深度学习在命名实体识别(NER)中的应用

近几年来,基于神经网络的深度学习方法在计算机视觉、语音识别等领域取得了巨大成功,另外在自然语言处理领域也取得了不少进展。在NLP的关键性基础任务—命名实体识别(Named Entity Recognition,NER)的研究中&#xff0…