Peacock:大规模主题模型及其在腾讯业务中的应用
作者:赵学敏 王莉峰 王流斌 孙振龙 严浩 靳志辉 王益
摘要
如果用户最近搜索了“红酒木瓜汤”,那么应该展示什么样的广告呢?从字面上理解,可能应该返回酒水或者水果类广告。可是你知道吗?“红酒木瓜汤”其实是一个民间丰胸秘方。如果机器能理解这个隐含语义,就能展示丰胸或者美容广告——这样点击率一定很高。在广告、搜索和推荐中,最重要的问题之一就是理解用户兴趣以及页面、广告、商品等的隐含语义。
让机器能自动学习和理解人类语言中近百万种语义,以及从海量用户行为数据中归纳用户兴趣,是一个已经持续了20年的研究方向,称为主题建模(Latent Topic Modeling)。目前业界的各种系统中最为突出的是Google Rephil,在Google AdSense广告系统中发挥了重要作用。
追随Google的脚步,腾讯SNG效果广告平台部(广点通)的同学们成功的研发了Peacock大规模主题模型机器学习系统,通过并行计算可以高效地对10亿x1亿级别的大规模矩阵进行分解,从而从海量样本数据中学习10万到100万量级的隐含语义。我们把Peacock系统应用到了腾讯业务中,包括文本语义理解、QQ群的推荐、用户商业兴趣挖掘、相似用户扩展、广告点击率转化率预估等,均取得了不错的效果。
一、为什么我们要开发大规模主题模型训练系统Peacock?
1.1 短文本相关性
在自然语言处理和信息检索中,我们常常会遇到如下问题:给定查询词,计算查询词和文档之间的相关性。比如表1给出了2个具体例子,此时我们需要计算短文本之间的相关性。常用的计算方法就是不考虑词的相对顺序,使用BOW(Bag-Of-Words)模型把文档表示为词向量,然后计算文本之间的相似度。如果直接采用文档中词的TF-IDF构建文档特征向量,通过计算查询词特征向量和文档特征向量的余弦夹角,我们会发现Q1与D1、D2都相关,而Q2与D1、D2都不相关。显然,这与人对自然语言的理解并不相符:Q1和D2比较相关,都关于“苹果”这种水果;而Q2和D1比较相关,都关于“苹果”公司。
之所以会出现这种差异,是因为上述文档特征向量构建方法没有“理解”文档的具体语义信息,单纯的将文档中的词表示为一个ID而已。通过主题模型,文档可以表示为一个隐含语义空间上的概率分布向量(主题向量),文档主题向量之间的余弦夹角就可以一定程度上反映文档间的语义相似度了。
1.2 推荐系统
图1 用户-物品矩阵
主题模型的另一个主要应用场景是推荐系统。不管是电商网站的商品推荐,还是各大视频网站的视频推荐等,都可以简化为如下问题:给定用户-物品矩阵(图1,矩阵中用户u和物品i对应的值表示u对i的偏好,根据用户行为数据,矩阵会得到部分“初始”值),如何“填满”矩阵中没有值的部分。
在各种眼花缭乱的推荐算法中,直接利用用户-物品矩阵进行推荐是最有效的方式(没有长年的用户、物品内容分析技术积累也一样可以快速做出效果),而这其中的两类主要算法都与主题模型有关系:
- 协同过滤[1]。以基于用户的协同过滤为例,就是要向用户推荐与之相似的用户喜欢的物品,包含两个主要步骤:计算用户相似度和向用户推荐与自己最相似的用户喜欢的物品,难点在于计算用户相似度。如果不引入外部数据,最简单的计算用户u和v相似度的方法可以直接利用用户-物品矩阵的u行和v行,比如计算它们的余弦夹角。然而,真实的互联网数据中,用户-物品矩阵通常都非常稀疏,直接计算不能得到准确的结果。此时,常见的做法是对用户(或物品)进行聚类或者将矩阵投影到更低维的隐空间(图2、3),在隐空间计算用户相似度可以更加准确。主题模型可以用来将用户-物品矩阵投影到隐空间。
- 隐含语义模型 (Latent Factor Model, LFM)[2]。该类方法本质上和主题模型是一致的,直观的理解是将用户-物品矩阵分解为用户-隐含语义(主题)矩阵和隐含语义(主题)-物品矩阵(图3),通过更低维度的上述两个矩阵,来重构原始用户-物品矩阵,重构得到的矩阵将不再稀疏,可以直接用于推荐。具体例子可以参看“QQ群推荐”应用。
图3 用户-物品矩阵分解
实际上,从以上的讨论中我们容易发现,当使用BOW模型处理文本,把文档数据表示成文档-词(Doc-Word)矩阵的时候,其表示结构和用户-物品(User-Item)矩阵结构是完全一致的。因此这两类数据可以使用同样的算法进行处理。使用隐含主题模型处理文档-词矩阵的时候,可以理解为把词聚类为主题,并计算各个文档和词聚类之间的权重。类似地,处理用户-物品矩阵的时候,可以理解为把物品聚类为主题,然后计算每个用户和各个聚类之间的权重。图2是这个过程的一个形象描述,而这个过程如图3所示,可以理解为把原始矩阵分解为两个较小的矩阵:左下的Topic-Item矩阵描述了物品聚类,每行一个主题(Topic)表示一个聚类;而右侧的User-Topic矩阵每一行为主题权重向量,表示每个用户和每个主题的紧密关系。
1.3 Peacock是什么?
从上面两个小节我们已经看到,主题模型在互联网产业中具有非常重要的应用。而Peacock系统着手开发时(2012年11月),一些开源以及学术界的主题模型训练系统[5,6,7,8],要么只能处理小规模的训练语料得到“小模型”,要么模型质量不佳。基于这种状况,我们设计并开发了Peacock系统(更多有关Peacock系统的设计哲学和开发进程,可以参考王益的博客[3]和图灵访谈文章[4])。Peacock是一个大规模主题模型训练系统,它既可以从数十亿的网络语料中学习出百万级别的隐含语义(主题),也可以对数十亿乘以几亿规模的矩阵进行“分解”。我们的工作总结成论文“Peacock: Learning Long-Tail Topic Features for Industrial Applications”发表在ACM Transaction on Intelligent System and Technology (2015)[15]。
图4 Peacock文档语义推断系统Demo
图5 Peacock文档语义推断示例1:“苹果”
图6 Peacock文档语义推断示例2:“苹果 梨子”
图7 Peacock文档语义推断示例3:“苹果大尺度”
下面我们分别给定一些具体的例子,让大家对Peacock有一些直观上的认识:
- 自然语言处理的例子。图4给出了Peacock在线推断系统Demo的主要界面,手动输入文档以后,点击“submit”就可以看到Peacock对输入文档的理解。这个例子中,我们利用训练好的Peacock模型,在线推断给定的输入文档的主题分布P(topic|doc)。每一行打印出一个语义主题,并给出主题的权重。具体的主题由一组相关的词组成,每个词都有权重。而第二部分 P(word|doc) 则给出了和该文档相关的权重最高的词。在Demo的例子中,我们可以看到 Peacock 对“红酒木瓜汤”这个检索串最重要的语义理解是“丰胸、产品、减肥、木瓜、效果”,非常符合人的语义理解。图5、6、7演示了典型的多义词“苹果”在不同语境下Peacock对其的不同理解,可以看到“苹果”这个检索串在 Peacock 中被处理成了如下三种语义:“苹果公司及其产品”、“水果”、“范冰冰《苹果》电影”。而“苹果、梨子”主要语义被理解为“水果”,“苹果大尺度”的主要语义被理解为“范冰冰《苹果》电影”。可以看到Peacock可以比较准确的理解不同文档的具体含义,这将有助于我们完成一系列自然语言处理和信息检索的任务。
- 用户-物品矩阵分解的例子。这个例子中,“用户”(相当于“文档”)为QQ,“物品”(相当于“词”)为这部分用户加入的QQ兴趣群(在数据预处理中,我们会将QQ群分为关系群、兴趣群等,兴趣群可以比较好的反映用户的兴趣)。取非常活跃的5亿用户和非常活跃的1亿QQ兴趣群,得到一个5亿x1亿的矩阵,使用Peacock分解该矩阵后获得Topic-Item矩阵(即主题-QQ群矩阵),图8、9、10分别给出了该矩阵中的三个主题(只显示权重最高的主要QQ群)。为了方便理解,同时将QQ群的描述信息显示在群ID之后。可以看到,Peacock学习得到的主题含义比较明确,一定程度上可以反映出Peacock在处理用户-物品矩阵上的有效性。
图8 基于QQ-QQ群Peacock矩阵分解示例:炒股类主题
图9 基于QQ-QQ群Peacock矩阵分解示例:塔防三国游戏类主题
图10 基于QQ-QQ群Peacock矩阵分解示例:济南母婴类主题
通过一些具体的例子直观的介绍了主题模型之后,接下来第二章将主要从算法的角度来回答“什么是主题模型”这个问题,第三章介绍对主题模型并行化的一些思考以及Peacock的具体做法,最后第四章介绍主题模型在腾讯业务中的具体应用。
二、什么是主题模型?
下面以文档建模为例,简单介绍一下主题模型。
2.1 主题模型的“三个过程”
主题模型一般包含了三个重要的过程:生成过程、训练过程以及在线推断。生成过程定义了模型的假设以及具体的物理含义,训练过程定义了怎样由训练数据学习得出模型,在线推断定义了怎样应用模型。下面分别进行简要介绍。
一般来说,主题模型是一种生成模型(生成模型可以直观的理解为给定模型,可以生成训练样本)。给定模型,其生成过程如图11:
- 模型有2个主题,主题1关于银行(主要的词为loan、bank、money等),主题2关于河流(主要的词为river、stream、bank等)。
- 文档1内容100%关于主题1,主题向量为<1.0, 0.0>,文档中每一个词的生成过程如下:以100%的概率选择主题1,再从主题1中以一定的概率挑选词。
- 文档2内容50%关于主题1,50%关于主题2,主题向量为<0.5, 0.5>,文档中每一个词的生成过程如下:以均等的概率选择主题1和2,再从选中的主题中以一定的概率挑选词。
- 文档3内容100%关于主题2,主题向量为<0.0, 1.0>,文档中每一个词的生成过程如下:以100%的概率选择主题2,再从主题2中以一定的概率挑选词。
图11 主题模型的生成过程[9]
现实的情况是我们没有模型,只有海量的互联网文档数据,此时我们希望有机器学习算法可以自动的从训练文档数据中归纳出主题模型(如图12),即得到每个主题在词表上的具体分布。通常来说,训练过程还会得到一个副产品——每篇训练文档的主题向量。
图12 主题模型的训练过程[9]
有了主题模型,给定新的文档,通过在线推断,我们就可以得到文档的主题向量(如图13)。图5、6、7给出了一些具体的例子。
图13 主题模型的在线推断
三个过程中,训练过程是难点,后文将进行重点介绍。
2.2 LDA模型及其训练算法
LDA(Latent Dirichlet Allocation)[10]作为一种重要的主题模型,自发表以来就引起了学术界和产业界的极大关注,相关论文层出不穷。LDA的训练算法也多种多样,下面以吉布斯采样[11,12]为例,进行简要介绍。
图14 LDA训练过程
跳过复杂的数学推导,基于吉布斯采样的LDA训练过程如图14所示(每个词用w表示,每个词对应的主题用z表示,图中节点z的不同颜色表示不同的主题):
- Step1: 初始时,随机的给训练语料中的每一个词w赋值一个主题z,并统计两个频率计数矩阵:Doc-Topic计数矩阵Ntd