01 数据采集层 流量分发第一步规范采集海量数据

《易经》:“初九:潜龙勿用”。潜龙的意思是隐藏,阳气潜藏,阳爻位于最下方称为“初九”,龙潜于渊,是学而未成的阶段,此时需要打好基础。

而模块一我们就是讲解推荐系统有关的概念、基础数据体系搭建、埋点上报、用户和物品画像、标签挖掘、AB 测试系统等各基础知识,助你快速了解互联网业务场景及推荐系统的作用。

这一讲作为模块一的第一讲,有必要先来了解一下个性化流量分发体系的整个搭建流程。

在课程开始之前,我们先看一个例子:

在日常生活中,打开 58 同城网站时,我们可能会遇到以下情形:

  • 和好友同时打开 App,发现我俩的首页金刚区本地服务的图标和文字不一样?

  • 搜索“小区搬家”,发现首页搜索框里的推荐词也发生了变化。

58 同城怎么知道我需要什么样的本地服务?为什么搜索框里的推荐词也发生了变化?这就涉及这一讲要讲的内容——个性化流量分发体系。

以平台是否掌控整体流量分配情况为依据,我们把个性化流量分发体系的模式分为中心化模式和去中心化模式。为了方便你理解,我们再拿 58 同城举例(主要看下中心化模式)。我们知道 58 同城 App 首页有搜索框、分类宫格式导航、部落信息轮播、头条栏目、猜你喜欢推荐等业务模块,流量就是通过这样的设计模式从首页中心化分配到其他各个业务模块。

相信你对个性化流量分发体系已经有了初步了解,接下来我们继续揭开它的真面目。

个性化流量分发体系

那到底什么是个性化流量分发体系呢?个性化流量分发体系是通过、策略手段来平衡用户体验和商业目标。在这个过程中,我们需要把用户的访问流量合理分配到各个流量利用区,促进流量利用最大化,或者说获得流量最大限度转化,最终提升流量价值,从而达到战略意图。因此,个性化流量分发体系的本质就是对整个产品的用户行为路径进行优化。

在个性化流量分发体系搭建过程中,数据是非常重要的资产,也是驱动决策的燃料。这里提及的数据,主要指的是基本信息、显式反馈、隐式反馈这三种。

  • 基本信息:主要指用户的性别/年龄/地区、物品的分类/款式/重量等。

  • 显式反馈:一般指用户对物品的真实评分,这类数据的特点是用户操作成本高,数据量小,更真实。

  • 隐式反馈:一般指除直接评分以外的若干用户行为数据,包括点击、加购、收藏、购买、浏览时长等,这类数据特点是用户操作成本低、数据量大、具有一定的不真实性。用户行为数据还可以进一步通过聚合、梳理形成用户的行为表现数据(如活跃度、回访、复购情况等)。

而个性化流量分发的过程,其实就是先对基本数据和反馈数据进行加工,再利用加工结果进行决策的过程。在数据流转的过程中,个性化流量分发体系被划分为数据采集层、数据加工层、数据决策层、效用评价层这 4 层。

个性化流量分发体系架构

从上图可知,在数据采集阶段,我们的主要工作是全面了解产品和用户。在数据加工阶段,我们的主要工作是对用户和物品分门别类。在数据决策阶段,我们的主要工作是驱动分发方案和产品优化,这也是搜索和推荐等产品的工程和算法能力输出阶段。在效用评价阶段,我们的主要工作是评估流量分发的效果并形成数据反馈。

接下来我们着重讲解在数据采集阶段,我们都需要做哪些工作?

特殊说明:数据加工阶段的内容我们将在 02 讲和 03 讲中着重讲解,效用评价阶段的内容在 04 讲中着重说明,而数据决策阶段因为是推荐系统的核心,也是本专栏的重中之重,所以会放在模块二、三、四、五中进行深度说明。

数据采集阶段

《道德经》中说“九层之台,起于累土”,数据采集阶段作为后面三个阶段的基础,虽然它不涉及复杂算法,但这个阶段的工作内容相对细碎且容易出错,因此我们有必要从细微处着手,先把地基打牢。

在实际业务中,如果我们拥有海量数据,但是采集的数据质量很差,那么此时就算使用再好的算法也是“巧妇难为无米之炊”,并会使得后面三个阶段徒劳无功。由此可见,数据采集阶段的意义重大。

在数据采集阶段,它的最大价值是规范、高效、准确地获取海量数据,以此保证数据的准确性,防止数据出现偏差。

下面,我们通过一张图了解整个数据采集流程,以及在这个阶段我们需要做哪些工作。

数据采集流程

从图中可知,数据采集流程包括数据需求梳理、埋点规范制定、埋点实施、数据上报、生成数据表、数据验收等流程。而在数据采集之前,我们的首要工作是数据需求梳理、埋点规范构建、埋点位置梳理。

(1)数据需求梳理

在真实业务中,数据需求的来源一般都比较广,除推荐系统的需求外,还包括营销、画像、广告、标签等需求。

面对诸多需求时,我们不仅需要构建灵活的数据埋点上报规范,还要满足业务的现有需求,更重要的是要为将来可能出现的需求留出扩展空间。这就要求我们将条理化的业务指标体系(即数据需求)梳理成具体实施需求,而解决该问题的关键在于下面三个步骤。

步骤一:确认事件与变量

事件指的是我们需要分析的数据来源,最终它是一个结果性指标,比如支付成功。而变量指的是事件的维度或属性,比如用户性别、商品的种类。

这里我们可以将事件视为产品中的操作,例如加入购物车、支付成功,然后将变量视为描述事件的属性,比如不同商品的加购次数中,商品名称就是变量。

特殊说明:如果从不同的角度定位一个问题,事件和变量都会发生改变,这就要求我们基于数据需求,找到事件与变量之间搭配的最优解。

步骤二:明确事件的触发时机

在这个过程中,我们需要思考什么时候才是记录事件的合理时机,因为不同的时机其分享成功率也不一样,同时不同的触发时机将带来不同的数据口径。例如分享成功事件面临用户点击微信发生分享动作、用户分享后跳转到相应页面这 2 个时机。因此,数据使用者需要明确事件的触发时机。

时机的选择没有对错之分,我们根据具体的业务需求来制定即可。

步骤三:明确实施优先级

在实际业务中,业务部门必须基于业务指标明确实施埋点的优先级,因为开发部门不可能一次性完成大量事件的埋点。比如电商业务中,我们应该优先实施购买流程这个关键事件,与此冲突的其他事件都应该往后排序。

而且在实际业务中,我们往往需要考虑技术实现成本。如果技术实现成本不一致,我们应该优先落实能够最快落地的,以确保技术的准确性,比如有的埋点需要跨越多个接口;而如果技术实现成本相同则应该优先实施业务数据价值更高的。

(2)埋点规范制定

举个例子:某工程师给双十一活动页面命名时,采用的是拼音与英文相结合的方式,而这种不规范的埋点会让实施人员产生混淆,最终出现错误埋点。埋点规范的价值就在于帮助我们快速理解业务需求,并高效落地埋点方案。

在埋点规范制定过程中,我们通常需要遵循以下三点原则:

  • 上报内容格式清晰、简单,目标易于统计和使用;

  • 各端各推荐位置上报的请求曝光内容、可见曝光内容、点击内容、自动播放格式统一;

  • 所有推荐的内容类型编号,业务需要进行统一编排和维表维护,从请求曝光——>可见曝光——>点击——>落地页这四个阶段均需要保持一致。

(3)埋点实施

埋点规范是埋点实施的前置约束,在埋点实施时,我们需要严格按照埋点规范实施埋点,其中,需要注意三个要点。

  • 明确事件上报的条件:比如请求曝光时,我们在埋点规范中明确注明请求成功后立即上报还是在曝光页面停留超过一定时长后再上报等问题。

  • 明确字段参数的数据源:通常埋点同学对数据敏感度差,为了防止数据取错,就要求我们与埋点同学一起明确每个参数的正确取数位置。

  • 数据采集流程:数据上报后,为方便数据仓库同学高效、便捷地处理日志,我们需要明确每种数据的格式,因为非标准的格式会耗费大量的时间和精力处理格式。

(4)数据上报

埋点完备且上报的数据经过数据仓库处理后就可以直接被应用了。

(5)数据统计

数据统计是非常重要、非常基础的数据应用,例如推荐系统的转化率指标( CTR),它是通过点击数/可见曝光数来计算的。在这个公式中,我们发现如果没有点击事件和可见曝光事件的数据埋点,就不可能产生 CTR 这个数据,推荐系统的效果也就很难量化评估。

(6)埋点验收

在埋点验收阶段,我们需要验收所有推荐位 置、每个位置下的所有参数、每个参数的数据格式。除此之外,我们还需要将不同数据进行连接,把不同系统的数据以报表的形式展现,并对数据的有效性和准确性进行验证。

最后,我们总结一下数据采集的整个流程:首先,我们需要对收集哪些数据进行需求梳理,并建立埋点规范;其次,依据埋点规范实施数据埋点;然后,接收实际上报的数据,并落入数据仓库;紧接着,在数据仓库中生成满足业务需求的数据表;最后,对数据埋点进行验收。

本节总结

学到这里,你已经了解了流量分发的四个阶段和数据采集阶段的完整流程啦,棒棒哒~

《道德经》中说“重为轻根,静为躁君。是以圣人终日行不离辎重。”在流量分发体系中,数据就是这个系统的辎重,而数据驱动思维方式是每个推荐算法工程师必备的思维方式。

根据这种思维方式,我们可以快速获取产品改进的分析流程:首先,确定个人分析目标,从数据规模、数据分布等角度介入发现问题;其次,确定需要分析的数据,将数据细化到数据分析指标,预估数据的有效阈值;然后,寻找并获取评估数据的渠道,得到自己想要的原始数据;接着,对数据进行合理加工和分析,得出分析结论;最后,对得到的结果进行合理分析,指导推荐迭代。

这里插播一道思考题:你还知道哪些流量分发手段呢?欢迎你在留言区进行互动、交流,分享你的个人看法。

另外,如果你觉得本专栏有价值,欢迎分享给更多好友~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/38928.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于SpringBoot+Vue商户点评管理与数据分析系统设计和实现(源码+LW+调试文档+讲解等)

💗博主介绍:✌全网粉丝10W,CSDN作者、博客专家、全栈领域优质创作者,博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 Java精品实战案例《1000套》 2025-2026年最值得选择的Java毕业设计选题大全&#xff…

使用 Vanna 生成准确的 SQL 查询:工作原理和性能分析

Vanna工作原理 从本质上讲,Vanna 是一个 Python 包,它使用检索增强功能来帮助您使用 LLM 为数据库生成准确的 SQL 查询。 Vanna 的工作分为两个简单的步骤 - 在您的数据上训练 RAG“模型”,然后提出问题,这些问题将返回可设置为在您的数据库上自动运行的 SQL 查询。 vn.t…

【后端面试题】【中间件】【NoSQL】MongoDB提高可用性的方案(主从结构、仲裁节点、分片、写入语义)

主从结构 MongoDB的高可用和别的中间件的高可用方案基本类似。比如在MySQL里,接触了分库分表和主从同步;在Redis里,Redis也有主从结构;在Kafka里,分区也是有主从结构的。 所以先介绍启用了主从同步 我们的系统有一个关…

你想活出怎样的人生?

hi~好久不见,距离上次发文隔了有段时间了,这段时间,我是裸辞去感受了一下前端市场的水深火热,那么这次咱们不聊技术,就说一说最近这段时间的经历和一些感触吧。 先说一下自己的个人情况,目前做前端四年&am…

深圳技术大学oj C : 生成r子集

Description 输出给定序列按字典序的 � 组合,按照所有 � 个元素出现与否的 01 标记串 ����−1,...,�1 的字典序输出. 此处01串的字典序指:先输入的数字对应低位&#x…

移动智能终端数据安全管理方案

随着信息技术的飞速发展,移动设备已成为企业日常运营不可或缺的工具。特别是随着智能手机和平板电脑等移动设备的普及,这些设备存储了大量的个人和敏感数据,如银行信息、电子邮件等。员工通过智能手机和平板电脑访问企业资源,提高…

【机器学习】Datawhale-AI夏令营分子性质AI预测挑战赛

参赛链接:零基础入门 Ai 数据挖掘竞赛-速通 Baseline - 飞桨AI Studio星河社区 一、赛事背景 在当今科技日新月异的时代,人工智能(AI)技术正以前所未有的深度和广度渗透到科研领域,特别是在化学及药物研发中展现出了巨…

SpringBoot+Vue集成AOP系统日志

新建logs表 添加aop依赖 <!-- aop依赖--> <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-aop</artifactId> </dependency> 新建获取ip地址工具类 import javax.servlet.http.H…

React Native V0.74 — 稳定版已发布

嗨,React Native开发者们, React Native 世界中令人兴奋的消息是,V0.74刚刚在几天前发布,有超过 1600 次提交。亮点如下: Yoga 3.0New Architecture: Bridgeless by DefaultNew Architecture: Batched onLayout UpdatesYarn 3 for New Projects让我们深入了解每一个新亮点…

Docker精华篇 - 常用命令大全,入门到精通!

大家好,我是CodeQi! 我们都知道 Docker 的重要性,以及 Docker 如何在软件开发生命周期中发挥重要作用 。 说实话,学习 Docker 很有趣,至少在我看来是这样。 一旦掌握了基础知识,这并不难。 困难的是记住所有这些命令。 因此,在这篇文章中,我收集了所有命令,或者更…

四十篇:内存巨擘对决:Redis与Memcached的深度剖析与多维对比

内存巨擘对决&#xff1a;Redis与Memcached的深度剖析与多维对比 1. 引言 在现代的系统架构中&#xff0c;内存数据库已经成为了信息处理的核心技术之一。这类数据库系统的高效性主要来源于其对数据的即时访问能力&#xff0c;这是因为数据直接存储在RAM中&#xff0c;而非传统…

js学习--制作选项卡

选项卡制作 <!DOCTYPE html> <html lang"zh"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><style>.text_one {width: 11.4%;height: 200px…

身边的故事(十三):阿文的故事:出现

如果他知道一件事情如果违背正常的市场规律就是骗局或者存在巨大的风险&#xff0c;比如市场正常投资回报率在5-6%已经算高回报&#xff0c;像股神巴菲特的投资回报率应该不会超过10%吧。那些说20-30%甚至更高回报率肯定是骗局。如果...哪有那么多如果&#xff0c;人生每一秒都…

在Linux操作环境下搭建内网源

在修改配置文件之前都应该有备份。 比如在/目录下专门创建一个目录用来储存文件的备份。 1.安装vsftpd软件 首先使用命令yum search ftpd 来查看当前Linux操作系统下是否有ftpd软件。 随后使用yum install vsftpd&#xff0c;来安装vsftpd软件 2.修改vsftpd的配置文件&…

H5漂流瓶交友源码_社交漂流瓶H5源码

简介&#xff1a; 一种流行的娱乐性社交新潮流&#xff0c;年轻人玩得比较多。和盲盒有点类似 社交漂流瓶搭建教程 环境&#xff1a;Nginx 1.20.1-MySQL 5.6.50-PHP-7.3 上传源码至网站根目录&#xff0c;创建并导入数据库 数据库信息修改&#xff1a;/config/database.ph…

Zabbix 配置WEB监控

Zabbix WEB监控介绍 在Zabbix中配置Web监控&#xff0c;可以监控网站的可用性和响应时间。Zabbix提供了内置的Web监控功能&#xff0c;通过配置Web场景&#xff08;Web Scenario&#xff09;&#xff0c;可以监控HTTP/HTTPS协议下的Web服务。 通过Zabbix的WEB监控可以监控网站…

TI电池电量计应用指导

前言&#xff1a; 电池电量计应用指导,来源:TI,因PDF有200页&#xff0c;在文尾附有目录&#xff1b;上传提示资源重复&#xff0c;请自行下载&#xff0c;找不到的可私信。 电池充电曲线&#xff0c;红色为电压&#xff0c;蓝色为电流 图2.10 匹配化学 ID 所需要的电压电流曲…

html + css 快速实现订单详情的布局demo

突然安排让速写这样的一个布局&#xff0c;重点就是CSS画一条虚线,并且还要灵活设置虚线的宽度和虚线之间的间隔和虚线的颜色。 注&#xff1a;订单里面的金额都是随意写的 <!DOCTYPE html> <html lang"zh-CN"><head><meta charset"UTF-8&…

信息安全体系架构设计

对信息系统的安全需求是任何单一安全技术都无法解决的&#xff0c;要设计一个信息安全体系架构&#xff0c;应当选择合适的安全体系结构模型。信息系统安全设计重点考虑两个方面&#xff1b;其一是系统安全保障体系&#xff1b;其二是信息安全体系架构。 1.系统安全保障体系 安…

Hadoop集群部署【一】HDFS详细介绍以及HDFS集群环境部署【hadoop组件HDFS笔记】(图片均为学习时截取的)

HDFS详细介绍 HDFS是什么 HDFS是Hadoop三大组件(HDFS、MapReduce、YARN)之一 全称是&#xff1a;Hadoop Distributed File System&#xff08;Hadoop分布式文件系统&#xff09;&#xff1b;是Hadoop技术栈内提供的分布式数据存储解决方案 可以在多台服务器上构建存储集群&…