阿里搜索推荐系统又双叒叕升级了?!

搜索导购产品作为搜索的流量入口,承载了为用户导购推荐、搜索流量分流的重要功能。主要产品包括:首页底纹、下拉推荐、搜索发现、导航、历史搜索等。经过几年的探索和积累,各个产品越发地成熟,机器学习算法广泛地应用于导购产品中,取得了显著的效果。在支撑好手淘搜索业务的基础上,搜索导购也积极地拓展边界,支持了集团内大量的产品线。因此对搜索导购产品线提出了更高的要求:不仅需要提升本身产品的效率,更好地支持手淘搜索业务,同时也需要有一套灵活的框架,支持更多更广的业务。

一、系统框架

导购升级的优化思路从三个方向着手:1.策略升级。利用深度学习及异构网络的思想,对用户个性化进行更深的理解和建模;同时对因马太效应引起的独立query数下降等问题进行优化。 2.导购外投。在包括会场激活页、猜你喜欢等渠道进行搜索导购赋能,为用户打通搜索通路。 3.产品创新。一方面对现有的产品进行创新升级,如激活页、下拉推荐等;另一方面积极尝试新产品形态,如首页热词、搜索动态卡片等。

搜索导购核心解决对消费者关键词推荐的问题,因此虽然产品众多,形态各异,但是在底层架构上有很多共性,因此我们设计了一套通用灵活的框架进行支持。

在召回阶段,我们丰富了召回方式;并根据不同的渠道、场景以及产品形态,选择不同的召回策略得到候选query词candidates。

在排序阶段,我们不仅将深度学习引入导购算法框架中,而且创新的加入了异构网络的思想,将用户不同路径的序列信息结合lstm等模型进行有效融合,对消费者进行更深入的理解。

在业务策略阶段,我们利用 jaccard 系数、编辑距离等进行了对语义重复问题进行了优化,同时结合E&E机制对马太效应较为严重的场景进行了升级,并增加了效率轮播机制使得效率进一步的得到提升。

接下来以几个具体的产品来进行详细的介绍。

二、详细方案

2.1 底纹推荐优化

在底纹推荐的算法优化中,我们创新性地提出了基于异构网络(Heterogeneous Information Network,后面简称HIN)的推荐方法,推荐框架如下图所示:

user,item 和 query 是手淘中三种基本类型的节点,这三种类型节点之间又有不同的交互关系,比如,user 直接点击 item,user 通过查询 query 进入搜索,并在搜索里发生 item 的点击等。

但是,大多数传统推荐方法只关注特征工程,忽略了这些不同节点之间的关联关系。同时电商领域的大规模数据体量(一亿query,数十亿user和item)也是需要考虑的问题。因此我们设计提出了一种基于元路径embedding 表示的大规模 query 推荐方法,MetaPath-guided Embedding for Large-scale Query Recommendation(MELQR),它采用异构网络对 query推荐进行建模,并利用元路径通过聚合局部邻居信息来指导 user 和 query 的表示学习,此外,我们对异构网络中所有节点用term embedding的某种融合方法来进行表示,从而避免了网络学习中的大规模参数问题。

该模型结合扩召回、动态展示等策略,对线上底纹使用uv提升10%+,引导成交金额提升10%+。值得一提的是,该模型目前也同步使用到了导购的其它产品例如搜索发现、首页热词等,效果的提升同样非常明显。

2.2 首页热词优化

首页热词是今年搜索在手淘首页的一个创新性产品,可以帮助用户通过关键词找到感兴趣的商品,增强用户的搜索心智。

2.3 下拉推荐优化

下拉推荐上一个版本的优化目标在于提升下拉引导pv在搜索pv中的占比,即下拉使用率。上个版本试图拟合的是用户对下拉所展示的 query 的偏好程度。但是在其使用的统计类特征中,使用的特征均都是下拉引导的数据。这就带来了一个比较严重的问题,在目前的产品形态下,每次用户输入,只能展示10个候选的 query。因此一开始展示相对较多的 query 会具有相对较高的统计值,而较高的统计值会促进该query 在排序中排到更靠前的位置。因此形成循环,久而久之,在某些特定的 query下,下拉推荐候选词的统计值特征会有非常大的差异。由此形成马太效应。马太效应一个最严重的问题就是会导致下拉展示的 query 会过度收敛到一个较小的集合中,导致引导的独立 query 数下降。

针对这些问题,我们对下拉推荐模型进行了系统的重构,框架如下:

核心思路一方面增加用户主动输入的特征以及样本,修正下拉本身的马太,另一方面强化用户个性化特征,加入用户行为序列等。优化模型上线后,对下拉本身的使用pv提升10%+。

2.4 动态卡片优化

当用户的搜索词比较宽泛时,并不能较好地表征用户的搜索意图,用户在搜索结果页的实时点击行为,能更加实时地反应用户当前的意图,此时给用户推荐符合其搜索意图的搜索词,可以提升用户体验。对通过给用户推荐相关搜索词,提升人均 query,进而提升人均pv,提升用户在搜索的停留时长。产品示例如下:

通过持续的优化,动态卡片的展示ctr已经高于商品、内容等卡片,说明用户有很强的意愿点击;同时用户人均 query 提升4%+,人均pv提升1%+,用户体验提升。

2.5 其它工作

除上述几个工作,我们还支持了搜索发现、会场搜索、推荐风向标、搜索激活页改版等项目优化。

三、双十一效果

导购产品线从多个方面进行优化升级,在双十一也取得了非常不错的效果:一方面基于异构网络与深度学习进行了算法策略升级,增强了个性化表达降低了马太效应,提升了用户使用率,例如首页底纹;另一方面将导购能力赋能于各个渠道,增强了用户搜索的心智、粘性,提升了各渠道效率,例如首页热词;并对现有的产品进行了交互形态上的创新,丰富产品活力,例如下拉推荐。双十一当天导购导流产品(底纹+热词+会场搜索+风向标)去重使用uv同比去年增速70%+,远高于搜索大盘uv增速。

四、未来工作

  1. Graphembedding 的挖掘。我们已经基于计算平台 Graph mind 搭建了第一版的异构网络 metapath2vec 算法,对比 deep walk 效果已经有明显提升,接下来会继续尝试,更灵活方便的获取不同路径上节点的信息,结合gcn算法进行效果调优。
  2. item2query 挖掘。i2q的数据是导购的一份基础数据,很大程度会影响导购效果。目前的逻辑核心通过用户行为生成,因此存在覆盖较低,冷启动商品无数据等问题。我们期望能结合智能生成的方法,为商品生成候选query。
  3. query到图的挖掘。query以图文展示的形式可以对消费者有更直观的感受,因此我们期望能结合图像处理的算法,充分挖掘出能代表query的高质量图片。
  4. 激活&下拉新形态探索。在移动互联网时代,用户的生活习惯、使用方式等一直都在发生变化,我们期望通过创新的产品形态能捕捉用户的需求,增加用户的访问时间、停留时长等。


原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/518991.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

处理网络超时问题的最佳实践

对于云上的用户来说,业务日志里面报超时问题处理起来往往比价棘手,因为1) 问题点可能在云基础设施层,也有可能在业务软件层,需要排查的范围非常广;2) 这类问题往往是不可复现问题,抓到现场比较难。在本文里…

BZip2Codec压缩、Map端压缩控制、Reduce端压缩控制……都在这份Hadoop整合压缩知识点里了!...

作者 | Tai_Park责编 | Carol来源 | CSDN 博客封图 | CSDN付费下载于东方 IC今天来聊聊 Hadoop 的压缩。压缩:原始数据通过压缩手段产生目标数据,要求输入和输出的内容是一样的(大部分),但体积是不一样的。对于单机用户…

WAF+SLB负载不均衡案例分享

问题演变过程 时间点1:高防WAFSLB2台ECS 时间点2:高防WAFSLB4台ECS 问题描述 在时间点1时,没有发现明显的负载不均衡的情况。在时间点2时,出现大部分请求都打到了其中一台ECS上。需要定位问题原因 问题梳理 问题链路 是SLB后…

架构整洁之道, 看这一篇就够了!

程序的世界飞速发展,今天所掌握的技能可能明年就过时了,但有些知识历久弥新,掌握了它们,你在程序的海洋中就不会迷路,架构思想就是这样的知识。 本文是《架构整洁之道》的读书心得,作者将书中内容拆解后再组…

2019年度CSDN博客之星TOP10榜单揭晓,你上榜了吗?

培根说,『读书造成充实的人,会议造成未能觉悟的人,写作造成正确的人』。在短信短视频快速迭代的快时代,更深度的思考、更正确的实践,更成体系的写作与分享,尤显可贵。这里,每一篇博文都是开发者…

(进阶篇_01)Oracle数据同步3种场景

文章目录一、场景分析二、实战2.1. 创建原表表结构初始化数据2.2. 创建目标表表结构2.3. 同步前效果图2.4. 连接串2.5. 执行同步2.6.执行后效果图2.7.操作记录三、实战场景2(第1种)3.1. 原表表结构初始化数据3.2. 目标表表结构3.3. 连接字符串3.4. 数据同…

html背景图片横屏,CSS背景颜色 背景图片 居中 重复 固定样式background经验篇

我们使用CSS Background样式属性,可以设置网页背景单一颜色、网页背景为图片、网页背景图片居中于网页、网页背景图片网页固定位置、网页背景图片中网页中重复平铺等css背景样式介绍与案例讲解。扩展阅读:CSS背景Background基础:http://www.d…

借助混沌工程工具 ChaosBlade 构建高可用的分布式系统

在分布式架构环境下,服务间的依赖日益复杂,可能没有人能说清单个故障对整个系统的影响,构建一个高可用的分布式系统面临着很大挑战。在可控范围或环境下,使用 ChaosBlade 工具,对系统注入各种故障,持续提升…

etcd 在超大规模数据场景下的性能优化

概述 etcd是一个开源的分布式的kv存储系统, 最近刚被cncf列为沙箱孵化项目。etcd的应用场景很广,很多地方都用到了它,例如kubernetes就用它作为集群内部存储元信息的账本。本篇文章首先介绍我们优化的背景,为什么我们要进行优化, 之后介绍et…

时间复杂度的表示、分析、计算方法……一文带你看懂时间复杂度!

作者 | OverRedMaple责编 | Carol来源 | CSDN 博客封图 | CSDN付费下载于东方 IC如果你还在发愁究竟怎么计算时间复杂度和空间复杂度,那你是来对地方了!名词解释:在计算机科学中,时间复杂性,又称时间复杂度&#xff0c…

ThreadPoolExecutor中的keepAliveTime详解

文章目录一、keepAliveTime的概念二、keepAliveTime的设置方法2.1. 通过构造函数设置2.2. 通过setKeepAliveTime方法动态设置三、线程是如何根据keepAliveTime进行销毁的阅读这篇文章,你将会知道: keepAliveTime的概念。 keepAliveTime是如何设置的。 线…

OPPO数据中台之基石:基于Flink SQL构建实数据仓库

本文整理自 2019 年 4 月 13 日在深圳举行的 Flink Meetup 会议,分享嘉宾张俊,目前担任 OPPO 大数据平台研发负责人,也是 Apache Flink contributor。本文主要内容如下: OPPO 实时数仓的演进思路;基于 Flink SQL 的扩…

如何实现7*24小时灵活发布?阿里技术团队这么做

研发效能分为两块,一是用技术的更新来提升效率;二是提高整个技术生态中的协同效率,激发技术活力。阿里巴巴技术团队在此基础上要实现的终极目标是打造7*24小时灵活发布的通道,以及提供更快的业务代码迭代能力。今天,阿…

不看就亏系列!这里有完整的 Hadoop 集群搭建教程,和最易懂的 Hadoop 概念!| 附代码...

作者 | chen_01_c责编 | Carol来源 | CSDN 博客封图 | CSDN付费下载于视觉中国hadoop介绍Hadoop 是 Lucene 创始人 Doug Cutting,根据 Google 的相关内容山寨出来的分布式文件系统和对海量数据进行分析计算的基础框架系统,其中包含 MapReduce 程序&#…

数据科学家是个性感的工作?我信你个鬼!

数据科学家40%是个吸尘器,40%是个清洁工,剩下20%是个算命的。作者 | Jingles译者 | 香槟超新星,责编 | 夕颜出品 | CSDN(ID:CSDNnews)根据《哈佛商业评论》的说法,数据科学家是21世纪最性感的工作。在现在这…

深入搜索引擎原理

之前几段工作经历都与搜索有关,现在也有业务在用搜索,对搜索引擎做一个原理性的分享,包括搜索的一系列核心数据结构和算法,尽量覆盖搜索引擎的核心原理,但不涉及数据挖掘、NLP等。文章有点长,多多指点~~ 一…

印度版的“大众点评”如何将 Food Feed 业务从 Redis 迁移到 Cassandra

Zomato 是一家食品订购、外卖及餐馆发现平台,被称为印度版的“大众点评”。目前,该公司的业务覆盖全球24个国家(主要是印度,东南亚和中东市场)。本文将介绍该公司的 Food Feed 业务是如何从 Redis 迁移到 Cassandra 的…

利用Packer自定义镜像创建容器集群

阿里云容器服务Kubernetes集群支持CentOS操作系统,在绝大多数情况下可以满足客户的要求。但是有些客户由于业务系统对操作系统依赖比较高,希望定制化一些操作系统参数,则可以用自定义镜像来创建Kubernetes集群。 创建自定义操作系统镜像有两…

“远程”、“协作”风靡之际,你对TA知晓多少?

作者|晶少 转载|CSDN博客 2.4亿人在线使用文档协作无延宕…… 6万名武汉中小学生实力打造“远程课堂”活学高效…… 疫情以来,“远程”、“协作”持续大热,此局毋庸置疑。 根据QuestMobile最新发布的《2020中国移动互联网“战役”专题报告》显示&am…

蚂蚁金服OceanBase性价比是传统数据库的十倍

200名数据库领域从业三年以上的会员投票和专业的评委评选,在如此严苛的条件之下,蚂蚁金服金融级分布式关系数据库OceanBase 2.0依然获得了专家评审团的一致青睐,荣获2019中国数据库技术大会的“年度最佳创新产品”奖。 蚂蚁金服资深总监韩鸿源…