大数据实践之路 读后感

欢迎关注公众号:数据运营入表资产化服务,获取更多算法源码材料

2023数据资源入表白皮书,推荐系统源码下载-CSDN博客

浅析研发支出费用化和资本化的区别-CSDN博客

商业银行数据资产估值白皮书,推荐系统源码下载-CSDN博客

用友BIP数据资产入表解决方案白皮书,推荐系统源码下载-CSDN博客

1、内容总体概括

简单来说一下,本书内容可以分四个大部分:一是介绍了数据中台的五大功能模块即元数据中心、数据指标中心、数据资产中心、数仓模型中心、数据服务中心为基础,这部分的构建可以帮助企业更好的梳理自己业务上的数据资产,且使其得到有效的管理和应用;接着第二部分主要围绕数据分析这个岗位来谈了数据分析的分析流程、常见的三种业务场景、分析师需要具备的核心能力、个人成长等;接着第三部分谈了BI系统和用户画像两个知识点,这两部分也是数据分析常见的工作内容;最后一部分以三个数据应用实例来结尾即电商反作弊、咨询个性化推荐、电商个性化推荐。

本书的“故事”叙述方式是我比较喜欢的方式,即以对话、模拟实际业务工作场景来进行叙述的。

2、个人阅读体感

2.1 数据中台的部分:

主要原因是我自己以前在瞎子摸灯的情况下做过,而我当时基本网上各种看现有的资料来搭建自己公司的数据中台,而这本书算是帮我回顾了以前做过的东西和反思,比如数据指标我当时是按照原生指标和派生指标来规划的,和本书不谋而合;但是数据仓库我也没有理完整到底是怎么个架构,因为这部分当时是开发人员负责的,而本书这块正好给了我去补充这点;还有数据资产部分,我当时有做了数据的监控,但是资产成本这块就是欠考虑的,我没有太去考虑这点。总之,这部分的内容,我觉得对于要进行数据中台的搭建工作的同学是可以进行参考,算是讲的全的,细致,同时也建议可以去看一些中台建设的实例配合去看。

2.2 数据分析理论:

这部分虽然有的同学说就是一些概念的堆叠,我倒觉得有的地方可以去借鉴。

比如数据赋能业务,看完后我想到的是大家经常讨论的:怎么体现数分的价值?答案就是数据和业务结合,当然过程必须是满足逻辑闭环(论据要支撑结论)+业务闭环(业务策略要在业务上能够行的通),此处我想再加一个观点:紧扣目标。

比如数据分析团队部分,这部分通过将独立的分析团队和存在于业务的数分岗,因为部门不同,所以你的职责和发展肯定不同,当你知道了这个不同,我觉得就可以帮你在求职的时候有了一个参考依据。前几天有人朋友说,我准备去独立的数据分析部分,在那边更能体现自己的价值啥的。

再比如数据分析过程,我倒觉得无论是在做需求、作专题分析等,这个分析过程是始终是贯穿我们的工作中的。其中有两点我觉得说的很好。第一、始终从解决问题本身出发;第二、核心是分析的思路和方法。

其他部分,自行可以结合自己工作体会。

2.3 用户画像部分:

这部分内容主要以知识理论为主,虽然我没有做过,但是整个体系很完整,值得学习。因为没有太多参与用户画像,感触不深。个人觉得可以看一些实际的案例来更深理解。

3、推荐介绍

本书所讲的知识框架比较完整,偏基础,但是似乎有点太完整,我倒觉得再有一点实际可能遇到的问题,怎么解决,可能会好点。毕竟实际业务纷繁复杂,变化和影响因素很多。适合数据中台搭建、数分人来看。

4、分模块阐述重点内容

4.1 数据中台内容模块

1)元数据中心:

可以系统、全面地查询元数据信息;变更评估及精准变更周知;协助数据问题定位及解决。 核心功能:数据整合;数据管理;数据地图。

数据整合:要支持不同的结构化/非结构化的数据源,且要考虑不同数据源的不同集群。##通过配置定时采集器的方式,对数据进行采集。采集计划有两种:场景采集、周期采集。

数据管理:就是管理数据中台所有的元数据,元数据即描述数据的数据。

元数据数据类型的三大类别:数据属性、数据字典、数据血缘。

1)数据属性主要是关于数据本身的描述。其包括以下几种类型:基础信息、标签信息、业务信息、技术信息、权限信息。
2)数据字典主要描述数据的结构信息。其主要的数据来源是数仓模型中心的数据表的相关配置、调度系统等。
3)数据血缘主要描述表与表之间的关系。其主要的数据来源是数仓模型中心的调度依赖配置、数据指标中心的指标生产逻辑、数据服务中心的逻辑表配置信息等。数据血缘的作用:问题定位排查;指标波动分析;数据预警与产出保障;

数据地图是基于所有元数据搭建起来的数据资产列表。能够解决有什么数据的问题,还能够进行检索,解决数据在哪里的问题。

2)数据指标中心:

数据指标中心是规范化开发指标并对其进行管理和维护的系统,它将指标的组成部分解耦拆分开来,并在逻辑表中进行规范的定义,在此基础上,按照一定的规则对指标的组成部分进行自由拼装,实现自定义指标的功能。

指标管理:(1)一级指标,即原子指标与小部分全平台的核心指标,在从各个业务部门收集需求后,统一由数据中台来产出,有一套完整、规范的开发流程:需求—评审—排期—开发—测试—验收—上线。所有维护管理工作都由数据中台负责。(2)二级指标,即派生指标,由各个业务部门自行通过指标中心生成,没有严格的开发流程,各个业务部门根据需要自行创建,但需要遵守指标命名规范。

3)数据仓库模型中心:

研发流程线:依据业务分析,抽象出主题域---梳理且确定每个主题域下的业务过程---依据业务过程,定义分析维度---构建总线矩阵---数仓分层建设(包括ODS层(操作数据储存层)、CDM(公共维度模型层)ADS(应用层))。

4)数据资产中心:

数据资产中心是建立在元数据之上,对数据进行统计性治理的系统,它主要针对两个方面:质量与成本。

数据资产质量治理:按照业务规则,在数据的关键加工节点上,对每个产出表,设计一个监控规则,来确保数据的完整性(监控表的数量变化)、准确性(主要解决数据记录准确性问题)、一致性(主要解决数据在不同模型中的一致性问题)、规范性(监控代码的规范性,如表命名规范、表注释、生命周期设置等)、时效性(及时地提供服务)。

数据资产成本治理:从数据产品直接应用的数据表开始往回溯源,来计算成本。

5)数据服务中心:

数据服务中心要解决的问题:减少“数据孤岛”及高效地将数据开放出去。

数据服务的形式:数据服务中心通过配置化的方式,将不同数据源的表(关系型数据库、NoSQL数据库、HBase等)通过映射模型生成API,与API调用者形成隔离,既保证了数据的安全,又可以以标准化的方式高效地进行数据的交付。

4.2 数据分析理论

1)数据赋能业务:数据赋能业务有四个环节:数据表现、业务原因、业务策略、作用方式。其过程如下图所示:

需要考虑的问题:在数据赋能业务过程中,业务策略需要考虑两个闭环问题才能确保策略的有效性,即逻辑闭(论据要能够支撑结论)、业务闭环(业务策略在业务上要能够行得通,且能够调整和迭代)

2)数据分析过程:这个可以说是贯穿了整个该岗位的整个工作中

1)明确分析目的;2)明确分析思路;##抓住重点:始终从解决问题本身出发。3)获取数据 ;4)处理与分析数据:关注数据处理的效率、分析的结论以及呈现的方式。

##核心:注意思路和方法;5)撰写报告;补充:推动策略落地、复盘
##复盘的考察点:(1)落地的策略是否可以解决业务出现的问题?(2)落地的质量如何?(3)分析的框架有没有问题?(4)分析得出的结论有没有问题?

3)数据分析的3种场景:

预测性分析、描述性分析和诊断性分析。(1)预测性分析:基于现有的数据,结合实际情况,预测业务未来的发展。##分析思路和方法:按照数据分析的流程进行。(2)描述性分析:有逻辑、成体系地拆解业务,用合理的指标整体评估业务的状态。##对业务的描述性分析,同样按照数据分析的流程进行。(3)诊断性分析:针对业务的异常波动,分析背后的原因,并提出解决策略。##评估标准:一般是关键指标的变化符合预期。

4)数据分析的核心能力:专业能力和影响力

理解业务:
1)参与业务:实际参与业务作业一段时间。(2)调研/访谈一线业务人员。(3)多与业务部门打交道。
##对数据分析师来说, 完整的工作场景是业务—数据—信息—知识—合作。数据分析师 要尽量参与更多的环节,尤其不要只是停留在数据这个环节。

5)数据分析师的工作:

(1)偏向外的战略分析;(2)偏向内的业务分析;#补充:调研的工作。
##记住:数据只是辅助数据分析师更好地理解业务的工具。

6)个人成长:

不要只关注做了多少事,不要太多关注自己的短期收益,要看长期收益。多关注自己长期的成长、核心竞争力的培养等。

7)数据分析团队:

两种存在形式:(1)以独立的实线部门存在。(2)存在于业务部门中。##两种组织架构没有哪个是绝对合理的,只需看组织架构是否适应当前企业业务发展的需要。

8)数据分析师的工作方式:

想清楚当下自己的核心诉求是什么,要学会不断地根据客观环境调整自己的状态,让自己的工作与核心诉求保持一致,最大地激发自己的热情与创造力,要经常反观自己是否还位于第一象限。可以参考如下的工作象限图:

4.3 BI系统+用户画像

1)BI系统: BI系统的代表tableau、PowerBI、帆软等。是数据计算分析和操作交互的系统。

BI系统的核心功能:选择数据源并建立数据模型、创建可视化数据报表,以及数据分析与可视化结果展示。

2)用户画像:

在精细化运营中,用户画像体系的建设有很重要的作用。

a、用户画像基础:

用户画像概念:

用户画像是指从用户的基础信息、用户行为、业务信息等海量数据中,抽象出一个个标签,通过给用户贴上若干标签来还原用户全貌的过程。

用户标签:

用户标签是通过对用户的基础信息、用户行为、业务信息等数据,进行数据建模所产生的用户特征。其标签值具有高度概括、相互独立及可枚举、可穷尽的特点。例如,性别可枚举为男、女、未知。

用户分群:

用户分群是指由批量用户组成的用户群体,可通过筛选标签组合来获取。例如,可通过筛 选“25~30岁、女性、母婴类商品意向”等标签组合,来获取母婴类人群。

b、用户画像建设:

建设用户画像体系,最主要的是把握一个中心和一条主线。即用户画像体系=一个中心+一条主线。

  • 一个中心:

以经济建设为中心。用户画像体系本质是为了服务商业活动,需要秉持“降成本、提效率、创收益”的基本准则。

  • 一条主线:

一条主线即产品研发的基本流程为主线。 建设用户画像体系在实施层面,本质上是一个产品化的过程,因此用户画像体系的建设符合产品研发的基本规律。 用户画像体系建设可以分为需求阶段、产品规划阶段、产品设计阶段、开发测试阶段和运营阶段这5个阶段。

##用户画像的应用:1)精准广告投放;2)智能运营;3)智能客服;4)智能风控,比如营销反“薅羊毛”,做法:利用用户画像以及特征,切入智能风控。

4.4 实际案例

1)电商反作弊体系:

解决方案:a、事前阶段:活动规则设计,此营销活动规则,技术方案(接入第三方风控系统、白名单数据维护、有监督机器学习)。b、事中阶段:无监督机器学习,真人操作识别,孤立森林模型。c、事后阶段:反例特点,规则思路建设。

2)资讯个性化推荐:

个性化推荐,就是按照每个用户的喜好,在合适的时间、合适的场景,把合适的内容,以合适的形式呈现给用户,满足用户的需求。

资讯推荐的组成,如下图所示:

3)电商个性化推荐:

a、定义:App为用户推送消息就是push。

b、目标:push的目标是获取新用户、激活老用户、召回流失的用户。

c、本质:push的本质是将合适的内容,在合适的时间和合适的场景下,推荐给合适的用户,并带来转化。

d、push的衡量:从短期、长期、用户行为分析。即从短期来看,push的衡量指标是拉新数量和拉新贡献度。从长期来看,push的衡量指标从推送、点击、到达、浏览、加购、下单、支付、复购整个链条来提高,为最后的GMV负责。从用户行为路径来看,一条push经历了到达、展示、点击、浏览、加购、下单、支付的流程。

Push的衡量指标,如下图所示:

e、push的优化方向:效率高、算法准、推荐好、展示靓。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/583766.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Qt编写的exe程序上添加程序信息

1、qtcreator编写 在pro文件中添加如下信息 # 版本信息 VERSION 4.0.2.666# 图标 RC_ICONS Images/MyApp.ico# 公司名称 QMAKE_TARGET_COMPANY "Digia"# 产品名称 QMAKE_TARGET_PRODUCT "Qt Creator"# 文件说明 QMAKE_TARGET_DESCRIPTION "Qt …

【AI】文本转语音 变声 音色克隆 数字人音视频口型同步AI应用

文本转语音 项目地址:https://github.com/coqui-ai/TTS 环境安装: 下载项目;安装Python,安装项目依赖: pip install TTS 1. 下载安装AI模型: https://github.com/facebookresearch/fairseq/tree/main…

外汇平台:投资者惨遇黑平台KYOLO MARKETS,血本无归!

投资外汇盈利了真的需要缴纳税金么?一直以来这个问题成为了众多交易新手的疑问,但对于很多资深外汇投资者来说,这种问题太简单了以至于认为不值一提。但若是从每年发生的外汇诈骗案件来看,可以看到还是有很多新手不知道这个问题&a…

【交叉编译环境】安装arm-linux交叉编译环境到虚拟机教程(简洁版本)

就是看到了好些教程有些繁琐,我就写了一个 我这个解压安装的交叉编译环境是Linaro GCC的一个版本,可以用于在x86_64的主机上编译arm-linux-gnueabihf的目标代码 步骤来了 在你的Ubuntu系统中创建一个目录,例如/usr/local/arm,然后…

CISP培训强化研发团队,确保金融科技发展安全无忧

​某金融科技公司是行业领先的平台服务商,凭借其在区块链、物联网、云计算、大数据和人工智能等尖端技术的卓越研发实力,致力于将前沿技术融入金融业务模式和应用场景。公司不断努力为客户提供一个“科技金融行业客户”的综合服务平台,从而实…

WebGL技术的应用场景

WebGL(Web Graphics Library)是一种在Web浏览器中渲染3D图形的技术,它基于OpenGL ES(OpenGL for Embedded Systems)标准,允许通过JavaScript编写高性能的3D图形应用。以下是一些WebGL技术的应用场景&#x…

基于springboot+vue协同过滤算法的电影推荐系统

🍅点赞收藏关注 → 私信领取本源代码、数据库🍅 本人在Java毕业设计领域有多年的经验,陆续会更新更多优质的Java实战项目希望你能有所收获,少走一些弯路。🍅关注我不迷路🍅摘 要 “互联网”的战略实施后&a…

1.DQL查询数据(超重点)以及distinct(去重)

DQL(Data Query Language:数据查询语言) 1.所有查询操作都用 SELECT 2.无论是简单的查询还是复杂的查询它都能做 3.数据库中最核心的语言,最重要的语句 4.使用频率最高的语句 语法: SELECT 字段1,字段2,……FROM 表 有时候…

关于Unity使用图片字体示例

1.使用TexturePacker打包图集 下载地址 TexturePacker - Create Sprite Sheets for your game! 2.准备好数字图 3. 导入图片 4. 打包图集需要的设置 将重心点设置为左下方 点击回车 > 后点击回 >到精灵列表 选择导出的格式 导出后的内容 >导入unity 导入 >…

4.Python数据序列

Python数据序列 一、作业回顾 1、面试题 有一物,不知其数,三三数之余二,五五数之余三,七七数之余二,问物几何? 白话文:有一个数字,不知道具体是多少,用3去除剩2,用5去除剩3,用7去除剩2个,问这个数是多少?1 ~ 100以内的整数 while循环: # 初始化计数器 i = …

idea 如何快速拉取新分支

方式1 (快捷键:CtrlShift~) 方式2:(快捷键:Alt9)

9_js_dom编程进阶3

Dom节点删除和复制操作事件加强讲解 1. 节点操作 1.1 删除节点 Node.removeChild() 方法从 DOM 中删除一个子节点。返回删除的节点。 child 是要移除的那个子节点。 node 是child的父节点。 PS:只能由父节点删除子节点 课堂案例:1.节点操作之删除节…

【经验分享】日常开发中的故障排查经验分享(一)

目录 简介CPU飙高问题1、使用JVM命令排查CPU飙升100%问题2、使用Arthas的方式定位CPU飙升问题3、Java项目导致CPU飙升的原因有哪些?如何解决? OOM问题(内存溢出)1、如何定位OOM问题?2、OOM问题产生原因 死锁问题的定位…

polar CTF上传

WEB-上传 一、查看题目信息 二、漏洞分析 经过上传测试发现&#xff0c;这题过滤掉了<?&#xff0c;这样正常的一句话木马就没法上传&#xff0c;这里可以用utf-16编码绕过。因为utf-16占utf-8的两倍长度&#xff0c;上传时默认检测为utf-8,从而就能绕过检测成功上传。 同…

爬虫学习(1)--requests模块的使用

前言 什么是爬虫 爬虫是一种自动化工具&#xff0c;用于从互联网或其他计算机网络上获取数据。它可以模拟人的行为&#xff0c;自动访问网页&#xff0c;提取感兴趣的数据&#xff0c;并将其存储到本地计算机或数据库中。爬虫通常用于搜索引擎、数据分析、信息聚合等领域&…

Linux自定义shell编写

Linux自定义shell编写 一.最终版本展示1.动图展示2.代码展示 二.具体步骤1.打印提示符2.解析命令行3.分析是否是内建命令1.shell对于内建名令的处理2.cd命令3.cd函数的实现4.echo命令的实现5.export命令的实现6.内建命令函数的实现 4.创建子进程通过程序替换执行命令5.循环往复…

[AI编程]AI辅助编程助手-亚马逊AI 编程助手 Amazon CodeWhisperer

亚马逊AI 编程助手 Amazon CodeWhisperer 是一种基于人工智能技术的编程辅助工具&#xff0c;旨在帮助开发人员更高效地编写代码。它可以提供实时的代码建议、自动补全和错误检查&#xff0c;帮助优化代码质量和提高编程效率。 Amazon CodeWhisperer 使用了自然语言处理和机器…

[RoarCTF2019] TankGame

不多说&#xff0c;用dnspy反编译data文件夹中的Assembly-CSharp文件 使用分析器分析一下可疑的FlagText 发现其在WinGame中被调用&#xff0c;跟进WinGame函数 public static void WinGame(){if (!MapManager.winGame && (MapManager.nDestroyNum 4 || MapManager.n…

AVL树(超详解)

文章目录 前言AVL树的概念AVL树的实现定义AVL树insert 单旋左单旋右单旋左单旋代码右单旋代码 双旋左右双旋右左双旋 测试AVL树的性能 前言 AVL树是怎么来的呢&#xff1f; 我们知道搜索二叉树会存在退化问题&#xff0c;退化以后就变成单支或者接近单支。 它的效率就变成O(N)…

GitHub教程-自定义个人页制作

GitHub是全球最大的代码托管平台&#xff0c;除了存放代码&#xff0c;它还允许用户个性化定制自己的主页&#xff0c;展示个人特色、技能和项目。本教程旨在向GitHub用户展示如何制作个性化主页&#xff0c;同时&#xff0c;介绍了GitHub Actions的应用&#xff0c;可以自动化…