神经网络与推荐系统初步简介

作者:一人

1.深度神经网络对于任何领域都是适用的

这里写图片描述
深度神经网络(Deep Neural Networks,
DNN)在过去的数年已经在图像分类、语音识别、自然语言处理中取得了突破性的进展。在实践中的应用已经证明了它可以作为对于一种十分有效的技术手段应用在大数据相关领域中。深度神经网络通过众多的简单线性变换层次性的进行非线性变换对于数据中的复杂关系能够很好的进行拟合,即对数据特征进行的深层次的挖掘。因此作为一种技术手段,深度神经网络对于任何领域都是适用的。


2.推荐系统简介

推荐系统的功能是帮助用户主动的找到满足偏好的个性化物品并推荐给用户。在本质上可以当做一个个性化的搜索引擎,输入的数据为用户行为信息、偏好信息等,返回的结果为最符合查询条件的物品列表。数学化的表示:

=f()1

我们的推荐引擎就扮演者这里的函数的角色,它主要需要完成两部分的工作:

A > 针对查询条件对物品的相关性进行估计。

B > 晒选出topN个最相关的物品。

因此,推荐系统的关键就是对上面函数的一种求解

实际应用中的物品数量很大,因此在满足业务需要的前提下,对于所有物品使用评估函数进行评估是不实际的。因此为了实现性能与效果的平衡,大多的推荐系统将以上的计算过程分为两个部分:

  • 推荐召回

  • 推荐排序

推荐召回指在所有物品集合中检索到符合用户兴趣的候选集,大约筛选出几百个候选的列表。排序的目的是要利用展示、点击(或转化)数据,然后加入更多的用户、物品特征,对推荐候选进行更精细的修正、打分。这种模式另一个好处是能够利用多种候选集。

这里写图片描述

因此,推荐系统需要完成两步计算:候选集生成和排序,这两阶段的估计函数分别表示为g和h,即有:

f=g(h(x))2


3.使用神经网络近似求解函数参考1

对于函数的求解大多分为以下几种途径:

  • 确定性求解:通过对数据的规律进行建模直接求解。

  • 确定性近似求解:通过变分推断的相关方法进行求解,EM。

  • 随机性近似求解: 通过采样的方法对函数进行求解,蒙特卡洛方法。

  • 非结构化求解

不管这个函数是什么样的,总会有一个神经网络能够对任何可能的输入 x网络可以得到对应的值 f(x)(或者某个足够准确的近似)

即使函数有很多输入或者多个输出,这个结果都是成立的,f=f(x1,...,xm) 。例如,这里有一个输入为 m=3 和输出为 n=2 的网络:
这里写图片描述

综上,神经网络作为一种近似化求解方法可以用来对于公式(2)两个函数g, h进行近似。


4.推荐召回

  • Google利用DNN来做YouTube的视频推荐其模型图如下图所示。通过对用户观看的视频,搜索的关键字做embedding,然后在串联上用户的side
    information等信息,作为DNN的输入,利用一个多层的DNN学习出用户的隐向量,然后在其上面加上一层softmax学习出Item的隐向量,进而即可为用户做Top-N的推荐。
    这里写图片描述

  • Autoencoder(AE)是一个无监督学习模型(类似矩阵分解),它利用反向传播算法,让模型的输出等于输入。利用AE来预测用户对物品missing的评分值,该模型的输入为评分矩阵中的一行(User-based)或者一列(Item-based),其目标函数通过计算输入与输出的损失来优化模型,而评分矩阵中missing的评分值通过模型的输出来预测,进而为用户做推荐,其模型如下图所示。后续,Denoising Autoencoder(DAE)是在AE的基础之上,对输入的训练数据加入噪声。所以DAE必须学习去除这些噪声而获得真正的没有被噪声污染过的输入数据。因此,这就迫使编码器去学习输入数据的更加鲁棒的表达,通常DAE的泛化能力比一般的AE强。Stacked
    Denoising
    Autoencoder(SDAE)是一个多层的AE组成的神经网络,其前一层自编码器的输出作为其后一层自编码器的输入。还有Bayesian
    SDAE等等众多方法均同源于此。
    这里写图片描述


5.推荐排序

  • Wide & Deep 模型,Google利用DNN和传统广义线性模型结合的方式实现对于Google Play
    中的应用进行推荐。
    DNN具有很好的泛化性而广义的线性模型具有很好的记忆性,通过将二者结合,在实现很好的泛化性基础上对于不相干的物品规则进行了抑制。在输入层将类别特征通过embedding和连续值进行连接形成输入的嵌入向量并通过三层的网络形成输入的隐向量,并在输入层将app相关的特征进行交叉相乘,连同隐向量输入一个逻辑输出单元中,最终输出对于特定app的评分。
    这里写图片描述

6.神经网络其他应用

  • 词向量表示,使用浅层神经网络方法进行学习。利用序列数据中蕴含的信息,将物品的表示由高维稀疏表示映射到低维密集表示。典型的模型方法有:word2vec
    [无监督]和GloVe[无监督] (Global Vectors for Word Representation)。
    ——————————————————————————————————–
    下图展示的是基于CBOW层次网络结构的word2vec,输入层是若干个词的词向量,通过映射层进行累加,输出层中黄色节点是非叶子节点代表一个类别,而叶子节点代表一个词向量,整个输出层是一个霍夫曼树。假设对于特定的上下文,特定的中间词的预测概率最大,进行训练得到词的低维密集表示。
    ——————————————————————————————————–
    例如:语句“直接修改此文件”,分词后有“直接”,“修改”,“此文件”。那么对于词“修改”进行训练,那么输入的上下文就是“直接”、“此文件”,我们期望“修改”的概率最大。通过使用大量样本训练后,可以在叶子节点训练得到对应词的向量表示。之后,可以计算词向量之间的相似性来代表词之间的相似性,诸如此类对进一步的分析提供方便。
    ——————————————————————————————————–
    这里写图片描述

7.神经网络的难点

由于神经网络用多层结构拟合复杂的非线性关系,具有庞大的参数,并且随着网络的深入进行训练愈发困难。因此对于实际中的应用具有以下难点:

  • 需要大量的训练数据

  • 调参不存在合理的选择方法

  • 对于具体应用不存在标准的网络结构

8.当前数据应用深度模型面临的挑战

  • 用户行为稀疏,因此数据中存在大量的噪音

  • 媒体库数据可用字段较少

  • 用户画像杂乱,用户属性信息采集不明确


总结

以前,计算资源宝贵,并且计算能力偏弱,因此为了实现智能化功能,需要研发人员将功能规则通过人为的方式间接的融入进算法当中,以此来减少计算量。但是由于用户的应用场景繁杂,因此往往存在着众多研发人员无法预估的情况。而且由于很多的近似求解方法需要得到精确地结果需要大量的计算而迫使多数应用场景无法实现和采用,因此在过去的数年间,应用层面的智能化发展停滞不前。而随着计算能力的迅速发展,利用大量计算实现智能化的功能已经成为可行策略。而深层神经网络算法以其强大的拟合能力就是适应了这种发展趋势,迅速的在图像、语音、自然语言等领域取得了巨大的成就。

个性化推荐作为众多智能场景中的一员,已经吸引了众多的研发人员投入其中,不同于图像、语音等具有丰富的特征且算法结果和真实样本不会产生互相影响,由于推荐中特征数据的繁杂,且推荐的结果影响着采集到的数据,目前推荐当中并不存在一种通用型的结构和方法。也有很多人将神经网络的方法应用在整体推荐的子领域当中已经取得了不错的效果。可以预见随着更多的人员参与进来,个性化推荐必将被神经网络的方法所侵占。

在工业中,在有限的资源投入的情况下,紧跟技术前沿的发展,将先进的方法在系统当中进行验证。或者对于行业取得稳定效果的方法进行验证并进行系统集成,产品将会获得巨大的收益。

附:

Word2vec 效果【节目vec之间的相似度】:

  1. 碟中谍5:神秘国度

【 # 危机13小时,# 碟中谍4,# 死亡飞车,# 极限特工2,# 虎胆龙威5,#
星际穿越,# 丛林奇兵, # 刺客联盟, # 谍影重重2, # 非常人贩】

  1. 86版西游记

【# 西游记动画片,# 西游记之锁妖封魔塔,# 西游记之大闹天宫(3D),#
西游记之大闹天宫,# 西游记之孙悟空三打白骨精, # 嘻游记, #
西游记之大圣归来, # 西洋镜, # 电哪咤, # 孙悟空七打九尾狐 】

  1. 射雕英雄传

【# 射雕英雄传 第3集,# 射雕英雄传 李亚鹏版,# 神雕侠侣,#
神雕侠侣[粤语版],# 天龙八部, # 方世玉与胡惠乾, # 倚天屠龙记大结局, #
新神雕侠侣, # 神雕侠侣黄晓明版, # 天涯明月刀】


转载于:https://www.cnblogs.com/wangyaning/p/7853862.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/487266.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

18个顶级人工智能平台

来源:机器人小妹很多时候企业拥有重复,乏味且困难的工作流程,这些流程往往会减慢生产速度并增加运营成本。为了降低生产成本,企业别无选择,只能自动化某些功能以降低生产成本。通过数字化重复性任务,企业可…

计算机内部程序代码,计算机为什么能够读懂程序代码?

01 引子上一回,我们的主人公小A初次亮相,凭借基础的前后端理解,从技术实现的层面为我们剖析了微信扫码登录的原理和机制。可能很多人因此会好奇,小A到底是做什么的呢?为什么能够弄懂这些原理呢?其实&#x…

符号主义对深度学习的意义浅谈

来源:混沌巡洋舰符号主义人工智能经历过古典时期的专家系统阶段, 中期的知识图谱阶段, 和近期深度学习和符号主义的再次联姻。那么一个很重要的问题是符号主义为什么会复兴,它对当下的机器学习又有何意义?参考阅读&…

400多家单位、30余万科研人员,10多年奋斗!北斗卫星核心器件实现100%国产!(附:北斗研发建设历程​)...

来源:EETOP国务院新闻办公室8月3日上午10时举行新闻发布会,中国卫星导航系统管理办公室主任、北斗卫星导航系统新闻发言人冉承其介绍,工程建设提前半年完成,彰显中国速度。“北斗三号2009年11月启动建设。10余年来,工程…

深度学习败于“捷径”

来源:AI科技评论深度学习的未来在哪里?这一话题已经有过了无数讨论,大部分讨论都承认当前的深度学习还不是真正的智能,必须转向理解、常识。但是只看当前AI成功的案例,似乎还无法窥探理解。近日,来自多伦多…

互联网是由多个计算机相互连接而成,计算机网络

第一章:三类网络:电信网络有线电视网络计算机网络互联网基本特点:连通性共享计算机网络的组成:若干结点和连接这些结点的链路组成结点分类:计算机集线器交换机或路由器等互联网internet:泛指由多个计算机网…

ftp服务器PDF文件在线查看

曾做过电厂的项目,有一些功能需要和甲方的厂家对接,其中就有需要实现甲方ftp服务器上的PDF、JPG等文件的查看功能。就PDF文件为例,这里使用的是pdf插件,需要将参数通过链接发给ftp,获取到PDF文件,并在后端处…

从MEMS专利数量分析我国MEMS传感器产业现状

来源:传感器专家网MEMS传感器是采用微机械加工技术制造的新型传感器,是MEMS系统的重要分支。MEMS传感器以其优异的性能,如体积小、重量轻、成本低、功耗低、灵敏度高、可批量化生产、易于集成和实现智能化等特点,逐步取代传统机械…

配置手工模式链路聚合示例(交换机之间直连)

组网图形 图1 配置手工模式链路聚合组网图 手工模式链路聚合简介配置注意事项组网需求配置思路操作步骤配置文件 手工模式链路聚合简介 以太网链路聚合是指将多条以太网物理链路捆绑在一起成为一条逻辑链路,从而实现增加链路带宽的目的。链路聚合分为手工模式和LA…

知乎热议:科学网发布文章称「我国数学家证明 NP=P」,会带来怎样的影响?

来源:运筹OR帷幄2020年7月出版的《计算机科学》(中国计算机学会会刊)发表了国防科技大学教授、湘潭大学计算机学院特聘教授姜新文题为《哈密顿图判定问题的多项式时间算法》的论文,这标志着在数学和计算机科学领域中最为重要的难题…

2008r2服务器频繁自动重启,解决windows server 2008 更新后不断重启现象

今天遇到一台服务器提示windows2008r2系统更新失败,进入启动界面时提示:“未正确配置更新,正在还原更改,请勿关闭计算机!”,不久就再次重新启动,然后不断自动重复这个过程。从保护数据安全的角度…

【代码笔记】iOS-自定义loading(IanAlert)

一&#xff0c;效果图。 二&#xff0c;工程图。 三&#xff0c;代码。 ViewController.h #import <UIKit/UIKit.h>interface ViewController : UIViewController {//loading UIView *backViewLoad; } end ViewController.m #import "ViewController.h" //load…

专业|尧德中:脑器交互学,一个发展中的新学科

来源&#xff1a;人工智能人物尧德中专家简介&#xff1a;电子科技大学信息医学研究中心主任&#xff0c;生命科学与技术学院首任院长&#xff08;2001-2017&#xff09;&#xff1b;四川省脑科学与类脑智能研究院院长&#xff0c;神经信息科技部国际联合研究中心主任/教育部重…

服务器的创意工坊文件,Steam 创意工坊实现指南

简介Steam 创意工坊系统使用后端存储、前端网页的形式&#xff0c;便于存储、整理、排序、评分及下载游戏或应用程序。本文提供了为产品实现 Steam 创意工坊的技术细节。 在开始将 Steam 创意工坊与您的游戏整合前&#xff0c;请参见 Steam 创意工坊概览&#xff0c;了解更多您…

CCF-GAIR 2020 全球人工智能和机器人峰会今日开幕

于 2020 年 8 月 7 日-9 日召开的 2020 全球人工智能和机器人峰会&#xff08;CCF-GAIR 2020&#xff09;今日正式开幕。CCF-GAIR 2020 峰会由中国计算机学会&#xff08;CCF&#xff09;主办&#xff0c;香港中文大学&#xff08;深圳&#xff09;、雷锋网联合承办&#xff0c…

ajax获取返回随机数,AJAX

AJAXAJAX&#xff1a;即“Asynchronous Javascript And XML”(异步的JavaScript和XML)&#xff0c;是指一种创建交互式网页应用的网页开发技术&#xff0c;尤其是在一种在无需重新加载整个网页的情况下&#xff0c;能够更新部分网页的技术。传统Web开发World Wide Web(简称Web)…

Neuron:迄今为止最大的颗粒细胞数据,发现海马齿状回神经元可过滤并放大空间信息...

来源&#xff1a;brainnews小柯生命 报道北京时间2020年8月6日晚&#xff0c;奥地利科学与技术研究所 &#xff08;IST, Austria&#xff09;的科研团队在《神经元》上发表论文&#xff0c;发现海马齿状回的神经元可以过滤并且放大空间信息。 出租车司机如何在错综复杂的大街小…

u盘服务器安装win7系统安装教程,最简单的u盘装win7系统详细教程及步骤

随着技术的进步&#xff0c;越来越多的安装电脑系统的方法&#xff0c;有硬盘方式安装&#xff0c;有一键重装系统软件&#xff0c;有U盘重装系统&#xff0c;有光盘安装方法&#xff0c;那么哪种方式最安全呢&#xff1f;答案肯定是U盘安装电脑系统方式最安全&#xff0c;因为…

周志华:“数据、算法、算力”人工智能三要素,在未来要加上“知识”| CCF-GAIR 2020...

来源&#xff1a;雷锋网作者 | 李雨晨如何将“机器学习“与“逻辑推理”相结合&#xff0c;是人工智能领域的“圣杯问题””编者按&#xff1a;2020 年 8 月 7 日&#xff0c;全球人工智能和机器人峰会&#xff08;CCF-GAIR 2020&#xff09;正式开幕。CCF-GAIR 2020 峰会由中国…

ISC 2020周鸿祎:以云端大脑为核心打造国家安全反导系统

来源&#xff1a;秦安战略“进入数字孪生时代&#xff0c;网络攻击影响力更甚核弹。”在第八届互联网安全大会&#xff08;ISC 2020&#xff09;上&#xff0c;360董事长兼CEO周鸿祎说道。360董事长兼CEO周鸿祎2020伊始&#xff0c;伴随一系列新基建政策的落地&#xff0c;各行…