阿里巴巴年度技术总结:人工智能在搜索的应用和实践


来源:雷锋网

概要:本文梳理了过去一年多搜索在深度学习方向上的探索,概要的介绍了我们在深度学习系统、深度学习算法和搜索应用落地的进展和思考。


以深度学习为代表的人工智能在图像、语音和 NLP 领域带来了突破性的进展,在信息检索和个性化领域近几年也有不少公开文献,比如 wide & deep 实现了深度模型和浅层模型的结合,dssm 用于计算语义相关性,deepfm 增加了特征组合的能力,deep CF 用深度学习实现协同过滤,rnn recommender 采用行为序列预估实现个性化推荐等。工业级的信息检索或个性化系统是一个复杂的系统工程,深度学习的工业级应用需要具备三个条件:强大的系统计算能力,优秀的模型设计能力和合适的应用场景,我们梳理了过去一年多搜索在深度学习方向上的探索,概要的介绍了我们在深度学习系统、深度学习算法和搜索应用落地的进展和思考,希望对大家有所启发。


深度学习在搜索的应用概括起来包括 4 个方面:


  • 首先是系统,强大的深度学习训练平台和在线预测系统是深度学习应用的必要条件,目前我们的离线深度学习框架、在线深度学习框架和在线预测框架统一到 tf,并实现了日志处理,特征抽取,模型训练和在线服务部署端到端的流程,极大提升了算法迭代效率;


  • 其次是搜索应用,包括智能交互,语义搜索,智能匹配和智能决策四个技术方向,这四个方向的协同创新实现了搜索全链路的深度学习技术升级,并具备从传统的单场景单目标优化到多场景多目标联合优化的能力;


  • 再次是在性能优化上做的工作,包括模型压缩、量化、低秩分解再到二值网络,大量的技术调研和论证,为未来提高深度模型预测性能和软硬件协同优化做了很好的技术铺垫;


  • 最后是排序平台化,实现了 PC 商品搜索、无线商品搜索、店铺内搜索搜索和店铺搜索的搜索服务统一,通过特征和模型复用,实现了多条业务线技术的快速升级。下面我会简要的概括下在四个方向上取得的主要进展和背后的思考。


下面是搜索系统和算法的简图。系统包括: 


a. 离线数据平台 ODPS,负责离线日志 join、特征抽取和离线模型预估产出排序特征,时效性不强的特征都是通过离线数据平台产出的,比如用户性别标签,商品关键字等; 


b. 离线机器学习平台 PAI,底层是主流的 parameter server 和 TF 深度学习框架,平台实现了大部分机器学习算法模型的并行训练和预测,在搜索应用中主要作用是离线模型训练产出离线排序特征模型;


c. 流式计算和在线学习平台 Porsche,流式计算是基于 blink 负责实时日志解析和特征 join 生成实时排序特征,在线学习和离线学习底层框架可以相同,差别主要是依赖数据源和部分优化方法不同,由于用户行为和市场环境变化快,流式计算和在线学习在搜索应用非常广泛,并积累了不少在线学习和强化学习算法;


d. 在线服务平台,包括引擎、排序服务和搜索平台组成,负责在线的服务分发、索引查询、排序服务和结果合并等功能,搜索的排序策略、相关性、个性化等模型主要通过在线预测服务生效。经过多年发展我们已经具备了非常完善的商品搜索排序算法体系,包括知识图谱、分词、tagging、类目预测、意图预测、拼写纠错、query 推荐、query 语义改写、相关性、商品标签、商品质量、店铺分层、用户 profile、用户偏好、用户感知、召回策略、个性化模型、多样性策略、异构服务混排策略、多目标联合优化策略、多场景联合排序策略等,并平台化的方式赋能相关业务团队。


搜索系统和算法简图


系统进展包括机器学习平台和在线预测平台


机器学习平台。搜索训练样本主要来自用户行为,由于用户行为是流式数据,适合做在线深度学习,但当模型参数非常庞大需要海量的样本时在线学习需要很长的时间才能收敛,这时一般是先做离线预训练再结合增量或在线学习,另外有些模型离线预训练后在线只需要对接近输出层的网络做 fine-tuning。搜索在实际应用的有离线机器学习平台 PAI 和在线机器学习平台 Porsche,两个平台深度学习框架目前都统一到了 tf-pai,tf-pai 对原生 tf 做了一些优化,比如底层通讯,稀疏参数存储、优化方法、GPU 显存优化等,比原生 tf 训练深度有较大的提升,训练上千亿样本和上百亿参数的深度模型毫无压力。虽然 Porsche 和 PAI 都支持 GPU,但在搜索应用中 CPU 依然是主流,GPU 应用比较少,原因主要是个性化相对图像或语音简单,特征抽取网络比较浅,维度相对较低,GPU 的稠密矩阵计算能力得不到充分发挥,同时离在线混布后流量低谷期间腾出了大量的在线服务闲置 CPU,把临时闲置的 CPU 利用起来做深度学习训练是一个非常好的思路。 


在线预估 RTP,搜索排序算分服务。由于每次搜索请求有上千个商品需要计算排序分数,深度模型应用对 RTP 服务的压力是非常大的,RTP 通过采用异构计算,计算算子化和模型分片等方式解决了深度模型 inference 计算和存储问题,深度模型用 GPU,浅层模型用 CPU,今年双 11 期间搜索 RTP 服务用到了 550 张 GPU 卡。另外,RTP 还实现了离线/在线训练模型/数据和在线预测服务部署的无缝衔接,算法训练好的模型或数据可以很轻松的部署都在线服务,提升了算法迭代效率。


算法包括智能交互、语义搜索、智能匹配和搜索策略四个方向


智能交互。商品搜索就是带交互的商品推荐,用户通过关键字输入搜索意图,引擎返回和搜索意图匹配的个性化推荐结果,好的交互技术能够帮助到用户更好的使用搜索引擎,目前搜索的交互主要是主动关键字输入和关键字推荐,比如搜索框中的默认查询词和搜索结果中的文字链等,推荐引擎根据用户搜索历史、上下文、行为和状态推荐关键字。


和商品推荐的区别是,关键字推荐是搜索链路的中间环节,关键字推荐的收益除了关键字的点击行为外,还需要考虑对整个购物链路的影响,包括在推荐关键字的后续行为中是否有商品点击、加购和成交或跳转到另外一个关键字的后继行为,这是一个典型的强化学习问题,action 是推荐的关键字候选集合,状态是用户当前搜索关键词、上下文等,收益是搜索引导的成交。除了被动的关键字推荐,我们也在思考搜索中更加主动的交互方式,能够做到像导购员一样的双向互动,主动询问用户需求,挑选个性化的商品和给出个性化的推荐理由,目前阿里搜索团队已经在做智能导购和智能内容方向的技术原型及论证,智能导购在技术上主要是借鉴对话系统,通过引导用户和引擎对话与关键字推荐方式互为补充,包括自然语言理解,对话策略,对话生成,知识推理、知识问答和商品搜索等模块,功能主要包括:


a. 根据用户搜索上下文生成引导用户主动交互的文本,比如搜索「奶粉」时,会生成「您宝宝多大?0~6 个月,6 个月到 1 岁….」引导文案,提示用户细化搜索意图,如果用户输入「3 个月」后,会召回相应段位的奶粉,并在后续的搜索中会记住对话状态「3 个月」宝宝和提示用户「以下是适合 3 个月宝宝的奶粉」。


b. 知识导购,包含提高售前知识问答或知识提示,比如「3 个月宝宝吃什么奶粉」回答「1 段」。目前对话技术正在提高中,尤其是在多轮对话状态跟踪、知识问答和自动评价几个方面,但随着深度学习、强化学习和生成对抗学习等技术在 NLP、对话策略、阅读理解等领域的应用,越来越多的训练数据和应用场景,domain specific 的对话技术未来几年应该会突飞猛进。智能内容生成,包括生成或辅助人工生成商品和清单的「卖点」,短标题和文本摘要等,让淘宝商品表达更加个性化和多元化。


语义搜索。语义搜索主要是解决关键字和商品内容之间的语义鸿沟,比如搜索「2~3 周岁宝宝外套」,如果按照关键字匹配召回结果会远小于实际语义匹配的商品。


多智能体协同学习实现智能决策


搜索中个性化产品都是成交最大化,导致的问题是搜索结果趋同,浪费曝光,今年做的一个重要工作是利用多智能体协同学习技术,实现了搜索多个异构场景间的环境感知、场景通信、单独决策和联合学习,实现联合收益最大化,而不是此消彼长,在今年双 11 中联合优化版本带来的店铺内和无线搜索综合指标提升 12% (AB-Test),比非联合优化版本高 3% (AB-Test)。


性能优化。在深度学习刚起步的时候,我们意识到深度模型 inference 性能会是一个瓶颈,所以在这方面做了大量的调研和实验,包括模型压缩 (剪枝),低秩分解,量化和二值网络。


通过以上技术,今年双 11 期间在手淘默认搜索、店铺内搜索、店铺搜索等均取得了 10% (AB-Test) 以上的搜索指标提升。


阿里巴巴人工智能搜索应用的未来计划


 通用用户表征学习。前面介绍的 DUPN 是一个非常不错的用户表征学习模型,但基于 query 的 attention 只适合搜索,同时缺少基于日志来源的 attention,难以推广到其他业务,在思考做一个能够适合多个业务场景的用户表征模型,非搜索业务做些简单 fine tuning 就能取得比较好的效果;同时用户购物偏好受季节和周期等影响,时间跨度非常大,最近 K 个行为序列假设太简单,我们在思考能够做 life-long learning 的模型,能够学习用户过去几年的行为序列;


搜索链路联合优化。从用户进入搜索到离开搜索链路中的整体优化,比如 搜索前的 query 引导(底纹),搜索中的商品和内容排序,搜索后的 query 推荐(锦囊)等场景;


 跨场景联合优化。今年搜索内部主搜索和店铺内搜索联合优化取得了很好的结果,未来希望能够拓展在更多大流量场景,提高手淘的整体购物体验;


多目标联合优化。搜索除了成交外,还需要承担卖家多样性,流量公平性,流量商业化等居多平台和卖家的诉求,搜索产品中除了商品搜索外还有「穹顶」,「主题搜索」,「锦囊」,「内容搜索」等非商品搜索内容,不同搜索目标和不同内容(物种)之间的联合优化未来很值得深挖。


智能交互。「搜索排序做的再好搜索也只是一个工具」,如何把搜索从工具做成私人导购助手,能够听懂你的语言,了解你的情绪,能够对话和多轮交互,解决售前售后困惑,推荐更加个性化的商品应该是搜索未来的另外一个主要发展方向。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。由互联网进化论作者,计算机博士刘锋与中国科学院虚拟经济与数据科学研究中心石勇、刘颖教授创建。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/497688.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2018 年最值得期待的学术进展——致人工智能研究者们的年终总结

来源:AI科技评论概要:这里,我们为大家奉上机器学习学者 Alex Honcha 所展望的 2018 年最可能产生突破的 AI 领域。2017年马上就要过去了,而 AI 也在2017年中得到了快速发展。研究人员们提出了很多有趣而又富有开创性的工作。而作为…

DARPA盘点2017年最受关注的十大科技新闻

来源:国防科技要闻2017年,DARPA国防颠覆性技术与能力方面的重大投资覆盖了从量子超材料、机器学习、神经技术到无人系统自主性的数十个领域约250个项目。DARPA官网全年共收获3500万次访问量。根据访问量排序,DARPA整理出最受关注的十大技术新…

观点 | 别忽视深度学习的种种问题,Gary Marcus 泼冷水义不容辞

来源:AI科技评论纽约大学心理学教授 Gary Marcus 曾是 Uber 人工智能实验室的负责人,他自己创立的人工智能创业公司 Geometric Intelligence 2016 年 12 月被 Uber 收购,自己也就加入 Uber 帮助他们建立人工智能实验室。Gary Marcus 也曾号召…

spring框架做全局异常捕获_@ControllerAdvice注解(全局异常捕获)

背景ControllerAdvice 注解 通常用于定义ExceptionHandler, InitBinder和ModelAttribute 适用于所有RequestMapping方法的方法。ExceptionHandler异常处理器作用:可以拦截程序抛出来的指定异常。使用场景:主要使用与项目统一异常处理,对于rest风格的返回…

DeepMind推出「控制套件」:为「强化学习智能体」提供性能基准

来源:arxiv作者:Yuval Tassa, Yotam Doron, Alistair Muldal, Tom Erez,Yazhe Li, Diego de Las Casas, David Budden, Abbas Abdolmaleki, Josh Merel,Andrew Lefrancq, Timothy Lillicrap, Martin Riedmiller「雷克世界」编译:嗯~阿童木呀、…

pytorch统计矩阵非0的个数_矩阵的三种存储方式---三元组法 行逻辑链接法 十字链表法...

在介绍矩阵的压缩存储前,我们需要明确一个概念:对于特殊矩阵,比如对称矩阵,稀疏矩阵,上(下)三角矩阵,在数据结构中相同的数据元素只存储一个。 [TOC] 三元组顺序表 稀疏矩阵由于其自…

【视频】2017,50个令人屏息的科技瞬间

来源:甲子光年概要:整个世界的巨变,肇始于一颗微尘的颤动。「甲子光年」挑选了属于2017年的50个科技瞬间。十年后再回望时,它们可能正是那个撼动世界的历史性时刻。即将过去的2017年,一定有这样的一瞬:整个…

机加工程序工时程序_准终工时、人工工时、机器工时,十个工程师九个会弄错...

​上一篇文章种蚂蚁先生跟大家详细分析了产品成本的组成,其主要分为材料成本和制造成本两个部分。 然而要得到制造成本,则必须有标准工时数据。那么标准工时究竟是什么呢?​标准工时制: 标准工时是在标准工作环境下,进…

互联网大脑的云反射弧路径选择问题,兼谈ET大脑模糊认知反演理论

互联网大脑的云反射弧路径选择问题研究2008年以来,我们在互联网大脑架构和互联网进化的研究中提到,“互联网大脑架构,就是互联网向与人类大脑高度相似的方向进化过程中,形成的类脑巨系统架构。互联网云脑架构具备不断成熟的类脑视…

如何传入比较器_typescript专题(五) 装饰器

欢迎来到我专题文章【typescript】,更多干货内容持续分享中,敬请关注!本章目标基于webpack4.x从0开始搭建ts的开发环境ts中的装饰器的基本使用基于webpack4.x从0开始搭建ts的开发环境webpack4.x已经问世好久了,0配置是一大亮点&am…

『报告』IDC:2018年物联网产业10大预测

来源:T客汇编译概要:根据市场研究公司IDC的报告,2018年全球物联网支出总额将达到7720亿美元。新年新气象,2017年被称作物联网(IoT)元年,而2018年还将续写IoT的高歌猛进。根据市场研究公司IDC的报…

hbase获取表信息_HBase的读写和javaAPI的使用

一、hbase系统管理表hbase:namespace,记录了hbase中所有namespace的信息 ,当前系统下有哪些namespace信息scan hbase:namespacehbase:meta,记录了region信息scan hbase:meta二、读写思想client(get、scan)rowkey条件(1)由于rowkey是存储在region上的(2)判…

机器学习必知的15大框架

作者 | Devendra Desale译者 | Mags来源 | 云栖社区不管你是一个研究人员,还是开发者,亦或是管理者,想要使用机器学习,需要使用正确的工具来实现。本文介绍了当前最流行15个机器学习框架。机器学习工程师是开发产品和构建算法团队…

区分大小屏幕_第一个Python程序——在屏幕上输出文本

本节我将给大家介绍最简单、最常用的 Python 程序——在屏幕上输出一段文本,包括字符串和数字。Python 使用 print 函数在屏幕上输出一段文本,输出结束后会自动换行。在屏幕上输出字符串字符串就是多个字符的集合,由双引号" "或者单…

2018 年物联网发展五大趋势预测

来源:腾股创投作者 :Pramod Chandrayan物联网已经开始在所有行业的企业中走向主流。 到 2018 年底,物联网支出预计将增长 15%,达到 7725 亿美元,毫无疑问,未来一年连接设备和企业物联网项目数量…

js中立即执行函数会预编译吗_JavaScript预编译过程

什么是预编译?当js代码执行时有三个步骤:1.语法分析,这个过程检查出基本的语法错误。2,预编译,为对象分配空间。3,解释执行,解释一行执行一行,一旦出错立即停止执行。预编译发生在代…

知识图谱火了,但你知道它的发展历史吗?|赠书5本

作者:尼克 编辑|Emily版式由AI前线整理知识图谱火了,但你知道它的发展历史吗?本文节选自《人工智能简史》第 3 章,从第一个专家系统 DENDRAL 到语义网再到谷歌的开源知识图谱,对知识图谱的发展历程进行了…

英特尔爆发史诗级芯片漏洞,Linux之父痛斥英特尔公司

来源:CEO来信概要:1月4日消息,英特尔处理器存在芯片级漏洞的消息仍在发酵,恐怕将会成为计算机行业发展史上最大的安全漏洞之一。1月4日消息,英特尔处理器存在芯片级漏洞的消息仍在发酵,恐怕将会成为计算机行…

曲线均匀分布_曲线篇:深刻理解B 样条曲线(下)

前两篇中讲解了贝塞尔曲线和B样条基础。FrancisZhao:曲线篇: 贝塞尔曲线​zhuanlan.zhihu.comFrancisZhao:曲线篇:深刻理解B 样条曲线(上)​zhuanlan.zhihu.com本文讲一下B样条的进阶clamped B样条由于我们常用的B样条…

JSON.parse()解析单引号错误的问题

1、当用JSON.parse()方法,解析从后台传来的json字符串,而且字符串中含有单引号(如Iam ....),页面将出现如下异常 2、页面引起报错部分 3、解决办法:在后台将特殊字符转义 bookBlockVoListJSONString BaseStringUtils.getJsonFor…