闲鱼直播三周内实现点击率翻倍,我们是这么做到的...

作者:闲鱼技术-莫癫

 

1. 业务背景

闲鱼直播业务上线后面临的最大问题是增长问题。闲鱼BI同学分析发现,对比短时观看和长时观看人群,发现两部分人群有较明显的兴趣阶段性差异。
业务希望在理解直播、主播和用户的基础根据兴趣对头部优质直播精准投放, 放大头部主播马太效应实现直播转化和观看时间的增长。

2. 目标

简单概括需要达成两个结果:

  • 在三周内实现精准投放平台,沉淀基础运营平台的基础设施;
  • 业务上保证头部直播间场均转化uv达成一定目标,转换率得到明显提升;

那么单纯借助算法模型实现优质直播推荐,是否也可以达成业务上的目标?然后现实却是,巧妇难为无米之炊。 直播上线时间短, 播放和观看场次有限, 使得模型的训练没有足够的样本直接去理解用户对直播的兴趣, 平台也未对主播直播内容做强控实现内容的结构化。那么就需要将运营对直播领域经验与BI分析、算法结合, 在理解用户、直播和直播间的基础上,实现对直播间到兴趣人群的投放,并沉淀平台化能力。

 

3. 实现方案

给兴趣人群投放实时直播间的第一步是要实现对人的理解,包括C端用户以及主播的理解,其次是直播的理解。理解的结果最终会以兴趣人群、主播人群的方式与页面资源位关联,形成人(用户)货(直播)场(资源位)的初步匹配。


用户的理解依赖于用户的特征数据,包括闲鱼用户基础特征,搜索、浏览、发布、交易等商品相关行为记录,互动行为特征和用户兴趣标签特征等。这些特征对实时性要求不高,大部分特征通过离线计算产出,后续通过离线计算方式对不同数据来源的特征归一化。


用户所有特征会同步到人群圈选平台,通过交并差的方式实现人群圈选,进行人群预览和导出。
直播投放整体设计.png
平台整体设计


圈选的人群数据是以userId和人群Id的映射表方式保存离线,与投放的配置进行联合后得到<用户, 资源位, 主播>的关联关系,而后关系数据会同步到图数据库Igraph,提供给算法在线推荐时查询关联直播实现按兴趣推荐和曝光。受限的是整体的曝光流量有额度的,算法会基于模型,在有限PV额度内对在线直播间实现较优的选择。


下面详细阐述是怎么实现用户理解直播间投放的。

 

用户理解

对用户理解的常规特征生产不是个难事, 而用户的兴趣标签需要针对闲鱼用户从零开始, 弥补这方面能力的缺失。 兴趣标签主要是通过分析用户历史行为产生的行为文本,找出其与领域标签涉及到词组的关联性。 包含如图商品和帖子的各类行为文本,目前数据在逐渐补充中。

CDAD267B-747D-4790-9311-909702FD01D9.png


运营会整理不同领域的关键词词组作为输入, 匹配到关联度高的用户关联上领域标签特征。 要实现兴趣标签的产出, 要解决三个问题: 存储、检索和相关度计算。 
image.png
兴趣标签产出(方案一)


如图方案一是最初设想方案, 整体流程如下:

  • 关键词结构化: BI同学完成行为文本明细的处理, 包括数据源归一、去重和UDF处理分词, 并根据关键词频次和预设权重算分。 输出结构化后的用户行为文本明细, 包括用户ID、实体ID、关键词列表和关键词对应的分值列表;
  • 打标规则DSL化:对运营输入的行业兴趣关键词组进行分词后转成数据库可执行的DSL;
  • 兴趣用户DUMP: 执行DSL检索出与输入关键词匹配的结构化行为文本, 进行用户去重, 完成用户兴趣标签关联;
  • 人群圈选: 基于用户兴趣标签和其它特征数据做交并差后导出最终人群, 该步骤是在二方人群圈选平台进行;


整个方案是可行的, 而且具备很好的灵活性, 离线部分可不断完善和丰富结构化行为文本, 工程测专注于DSL可视化优化和整个数据流的流转提效, 整个平台可以良性迭代进化。 但是该方案确难以实行, 主要存在以下问题:

  • 能给的工期短, 要求2到3周完成所有链路功能上线并支撑业务验证, 实现该方案是几乎不可能的;
  • 存储成本巨大, 测算大概需要30PB的在线存储资源, 这对于一个未验证价值的业务来数也是不可能申请到的;


有同学也许很快发现, 从文本结构化到检索特定兴趣用户的过程不就是一个可以用搜索引擎实现的业务场景吗? 最大的问题仍然是预算问题, 搭建搜索引擎也是个不小的成本,而且从搜索引擎dump大量数据存在着严重的性能问题,同时也无法支持BI同学在整个流程中进行优化。 
4E3F537D-6CCD-4000-9CF7-DC3DD4641255.png
搜索引擎基本流程


在线方案是比较理想的, 可以实现运营利用自己的行业经验自助完成兴趣标签关联和人群圈选。由于上述客观条件限制, 最终我们选择了离线关联用户和兴趣标签的方式, 快速接入部分兴趣标签, 而后逐步推进在线方案的方式。 这里得益于BI同学全面的能力, 完成了“离线搜索引擎”, 以及未雨绸缪沉淀了部分用户兴趣标签。 这样整体方案就是这样的:

  • 离线处理非结构化文本,通过去重、分词和算法得到结构化文本(该步骤与方案一相同);
  • 整理领域标签关联的关键词词组
  • 离线计算方式检索匹配关键词词组的用户


方案二的最大弊端就是通用性没方案一高,每个兴趣标签的产出需要BI开发,只能满足T+1的实时性。但也一些优点,离线存储成本低,离线计算可支持自定义复杂UDF。离线部分更详细的介绍可以参考数据团队的兴趣标签体系实现介绍。
image.png
兴趣标签产出(方案二)

投放实现

投放分为离线和在线两部分, 运营维护的投放配置存储在RDB (关系型数据库), 需要同步到数据仓库, 离线计算完成用户与兴趣主播关系关联, 形成<用户,兴趣主播列表>关系。 关联的数据同步到在线图关系数据库, 提供算法在兴趣主播中推荐。 整个数据链路需要自动流转, 尽可能及时:

  • 在线配置无法做到实时同步到离线, 目前每一个小时调度一次, 达到准时时要求;
  • 离线任务之间通过依赖任务驱动, 基本能满足准实时行要求,并每次全量更新“用户主播兴趣关系”新增新分区,同时增加与新分区时间一致的done分区;
  • 离线数据同步到在线图数据库是基于数据交换组件, 会定时检查离线表done分区, 有新done分区则会通过同步消息机制进行对应相同时间分区的全量数据更新;

image.png

 

4. 首页效果

在三周不到的时间,完整链路的平台实现并上线,运营人群圈选、投放配置可在分钟级内完成上线。
对部分领域的头部直播在首页进行试投放后,效果明显:

  • 所有头部直播间,UV点击数远超目标;
  • 对比大盘,试投放大部分领域PV和UV的点击转化率得到显著提升,最高达到倍数提升;

 

5. 展望

整个项目由于时间比较短, 实现的是兴趣直播投放功能的最小集合, 以支持快速验证并得到较好反馈和结果。在此雏形上,未来会逐渐完善和丰富其能力:

  • 在对接BI兴趣标签的基础上, 需要不断丰富对接兴趣标签等各维度的特征数据能力,同时支持运营同学自助产出通用兴趣标签以及其它特征;
  • 丰富对资源位的投放能力支持,并具备多维度AB方案和多指标通用报表分析能力。能支持更多业务的快速尝试、快速反馈和快速调整;
  • 沉淀和抽象出核心链路, 不局限于支持直播业务, 可以平台化支持更多的社区和非社区业务。同时在理解用户兴趣的基础, 更好的支持理解内容, 实现内容结构化, 实现用户和兴趣内容的低成本运营;

 

原文链接
本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/515147.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Azure 中国四年扩容 12 倍还不够,微软放话:全球每年新建 50-100 数据中心!

数据已渗透到我们生活和工作的方方面面&#xff0c;如今全球正处于经济发展转型与变革的关键时期&#xff0c;数据作为数字经济的核心生产要素&#xff0c;无疑建设先进的数据中心是科技企业的硬核 IT 实力的有力保证&#xff0c;科技巨头纷纷强势布局数据中心&#xff1a; 据…

打造数字化服务能力,中国联通如何借助云原生技术实现增长突围?

简介&#xff1a; 中国联通与阿里云结合阿里云原生 PaaS、阿里飞天操作系统、阿里云原生数据库以及中国联通天宫平台&#xff0c;共同研发运营商级专有云平台“天宫云”&#xff0c;支撑中国联通核心业务应用。 8 月 13 日&#xff0c;中国联通发布《2020 年半年度报告》&#…

报名倒计时 | 「TeaTalk」技术沙龙成都站再来袭!

在5G浪潮驱动下&#xff0c;数据增长速度远远超过了网络带宽的增速。同时&#xff0c;增强现实、无人驾驶等众多新应用的出现对延迟提出了更高要求。边缘计算将网络边缘上的计算、网络与存储资源组成统一的平台为用户提供服务&#xff0c;使数据在源头附近就能得到及时有效的处…

爱奇艺在 Dubbo 生态下的微服务架构实践

简介&#xff1a; 本文整理自作者于 2020 年云原生微服务大会上的分享《爱奇艺在 Dubbo 生态下的微服务架构实践》&#xff0c;重点介绍了爱奇艺在 Dubbo、Sentinel 等开发框架方面的使用经验以及微服务生态体系的建设经验。 作者 | 周晓军 爱奇艺中间件团队负责人 导读&#…

记 Arthas 实现一次 CPU 排查与代码热更新

简介&#xff1a; 线上代码经常会出现 CPU 占用过高的情况&#xff0c;按以往经验我会使用 top 指令&#xff0c;进一步借助于 jstack 去查看具体信息从而进行问题排查&#xff0c;但基本上都逃不过需要重新发包的局面&#xff0c;及时是一个增量包&#xff0c;应用也需要短暂停…

灵活、高效、智慧,宁畅发布新品及“智定+”战略

4月21日&#xff0c;2021宁畅新品暨战略发布会在京举办&#xff0c;宁畅发布了新品服务器“G40”系列&#xff0c;并推出 “智定”战略。该战略旨在智能时代为用户提供灵活、高效、智慧的定制化基础设施和服务。 图&#xff1a;2021宁畅新品暨战略发布会现场 宁畅总裁秦晓宁介…

应用系统瓶颈排查和分析的思考-Arthas 实战

简介&#xff1a; 业务应用系统接入流程引擎来处理业务应用的流程执行&#xff0c;流程引擎提供多线程高性能异步化来执行流程元素的执行&#xff0c;但是如何设置流程引擎的线程池线程数执行&#xff0c;以及执行线程数和任务数&#xff0c;应用机器资源使用情况之间的关系如何…

Java 虚拟机诊断利器

背景 最近学习Java字节码过程中遇到了反射&#xff0c;有段代码是这样的&#xff1a; package com.example.classstudy;import java.lang.reflect.Method;/*** author TY*/ public class ReflectionTest {private static int count 0;public static void foo() {new Excepti…

IDC报告:中国公有云服务市场同比增长49.7%,领跑全球

IDC最新发布的《全球及中国公有云服务市场&#xff08;2020年&#xff09;跟踪》报告显示&#xff0c;2020年全球公有云服务整体市场规模&#xff08;IaaS/PaaS/SaaS&#xff09;达到3,124.2亿美元&#xff0c;同比增长24.1%&#xff0c;中国公有云服务整体市场规模达到193.8亿…

是谁在调用我?使用 arthas+jprofiler 做复杂链路分析

简介&#xff1a; Arthas 是阿里巴巴开源的应用诊断利器&#xff0c;提供了 profiler 命令&#xff0c;可以生成热点火焰图。通过采样录制调用链路来做性能分析&#xff0c;极大提升了线上排查性能问题的效率。 作者 | 羽涅 阿里巴巴 CCO 技术部技术专家&#xff0c;承担 CCO …

Arthas 初探--安装初步适用

简介&#xff1a; 由于在项目中遇到一种情况&#xff0c;某段代码在进行单元测试和在 tomcat 容器中运行的性能相差数百倍&#xff0c;因此需要分析在不同环境下某个方法执行的具体时间&#xff0c;从而确定问题。Arthas 可以做到无侵入的监控应用远行情况。 作者 | agmtopy 由…

用 Arthas 神器来诊断 HBase 异常进程

1. 异常突起 HBase 集群的某一个 RegionServer 的 CPU 使用率突然飙升到百分之百&#xff0c;单独重启该 RegionServer 之后&#xff0c;CPU 的负载依旧会逐渐攀上顶峰。多次重启集群之后&#xff0c;CPU 满载的现象依然会复现&#xff0c;且会持续居高不下&#xff0c;慢慢地…

赠书 | 如何部署一个Knative Service

我们以一个go语言编写的程序代码为例&#xff0c;创建一个简单的Web服务&#xff0c;当该服务接收到HTTP GET请求时会根据环境变量TARGET传递的内容向response输出Hello $TATGET! 内容。1. 创建一个文件名为helloworld.go的文件。程序源码如下&#xff1a;package mainimport (…

一文读懂阿里云网络-SLB负载均衡新姿势

简介&#xff1a; 简介&#xff1a;负载均衡是洛神网络中最为关键的网元之一&#xff0c;其担负着网络流量分发的重任&#xff0c;有了它之后&#xff0c;用户在浏览应用的时候才能体会到“丝般顺滑”的感觉。欢迎免费体验SLB性能保障型负载均衡产品&#xff01; 通过此文&…

聊聊缓存机制:双写兜兜转转,又回到了串行化

来源 | moon聊技术责编 | 寇雪芹头图 | 下载于ICphoto什么是双写&#xff1f;这个很好理解&#xff0c;双写就是说&#xff0c;一份数据在数据库存一份&#xff0c;在缓存中也存一份&#xff0c;给缓存一个过期时间&#xff0c;当读不到缓存时从数据库读出来然后写入缓存。为什…

如何基于大数据及AI平台实现业务系统实时化?

简介&#xff1a; 后疫情时代的新社会模式及经济形态必将催生出新的商业模式&#xff0c;在线业务及相关应用场景的流量呈现井喷式发展&#xff0c;常规的离线系统及离线机器学习平台已无法满足业务发展要求。 作者&#xff1a;高旸&#xff08;吾与&#xff09;&#xff0c;阿…

基于 Flink 的典型 ETL 场景实现

简介&#xff1a; 本文将从数仓诞生的背景、数仓架构、离线与实时数仓的对比着手&#xff0c;综述数仓发展演进&#xff0c;然后分享基于 Flink 实现典型 ETL 场景的几个方案。 作者&#xff1a;买蓉 美团点评高级技术专家整理&#xff1a;赵阳&#xff08;Flink 社区志愿者&…

商用密码技术与应用创新的方向是什么?安全牛发布《商密报告》全面揭晓

编辑 | 宋慧 出品 | CSDN云计算 头图 | 付费下载于东方IC 2021年4月22日&#xff0c;由安全牛举办的2021商用密码技术创新研讨会暨《2021商用密码创新应用指南》&#xff08;以下简称《商密报告》&#xff09;发布会在北京举行。 北京谷安天下科技有限公司副总裁贺晓辉在研讨…

Flink 源码 | 自定义 Format 消费 Maxwell CDC 数据

Flink 1.11 最重要的 Feature —— Hive Streaming 之前已经和大家分享过了&#xff0c;今天就和大家来聊一聊另一个特别重要的功能 —— CDC。 CDC概述 何为CDC&#xff1f;Change Data Capture&#xff0c;将数据库中的’增’、’改’、’删’操作记录下来。在很早之前是通…

阿里巴巴大数据实践:大数据建设方法论OneData

来源&#xff1a;数智化转型俱乐部 面对爆炸式增长的数据&#xff0c;如何建设高效的数据模型和体系&#xff0c;对这些数据进行有序和有结构地分类组织和存储&#xff0c;避免重复建设和数据不一致性&#xff0c;保证数据的规范性&#xff0c;一直是大数据系统建设不断追求的…