网站主题设计特色/百度快照投诉

网站主题设计特色,百度快照投诉,wordpress web开发教程,定制自动化营销前言 在数据仓库开发的过程中,常常会遇到很多值得思考的问题,它们不仅关乎技术的深度,也涉及业务理解、个人的成长,甚至是数据行业未来的价值。回顾过去的经历,有很多问题反复出现,甚至成为绕不开的课题&am…

前言

在数据仓库开发的过程中,常常会遇到很多值得思考的问题,它们不仅关乎技术的深度,也涉及业务理解、个人的成长,甚至是数据行业未来的价值。回顾过去的经历,有很多问题反复出现,甚至成为绕不开的课题,我自己挑选了9个问题,将其分成了四类,重新进行回答。

关于数据建模的终极追问  

为什么建模?必须建模吗?

提起建模,大家都会说是为了规范数据存储,提升查询效率,支撑业务分析。但有时也会思考:如果业务需求足够简单,是否真的需要构建复杂的模型?

我的当前答案则是:数仓开发不一定必须建模,但大多数情况下,建模能够提升数据的可维护性、复用性和查询性能。是否需要建模,取决于业务需求、数据复杂度以及数据消费方式。大体的判断分类可以分为:

结论:建模不是目的,而是手段

  • 如果数据需要标准化、优化查询、跨系统整合,那么建模是必要的。

  • 如果数据规模小、变化快、或者是探索性分析,直接查询可能更适合。

怎么证明你建的模型就比别人的好?

既然要比较,必然先有评价标准的。

首先,一个“好”的模型应该具备 高质量(数据可用性)、高性能(查询优化)、高扩展性(支持未来需求)、高复用性(减少重复开发),但如何量化这些指标?是数据查询的速度?业务团队的满意度?还是系统的稳定性?

我自己想到可以从以下几个方面来看:

只有用数据说话,才能真正证明你的数据模型比其他团队的好。

当然,公司也有内部数仓建模规范2.0/3.0,对于建模选择都有明确的说明,可便于大家参考。

必须由数仓来做吗?业务系统不能做吗?

这个问题的本质是:数据处理的边界在哪里?业务系统和数据仓库如何分工?

我分3大点来尝试回答。

1、数据仓库的本质和核心价值

首先,先复习一下关于数据仓库的定义:

数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

所以,数据仓库的核心并非仅仅是存储或OLAP能力,而在于:

  • 数据整合:跨业务系统的数据清洗、标准化、统一建模(如星型/雪花模型)

  • 历史数据存储:长期存储业务系统通常不保留的历史数据(如10年交易记录)

  • 复杂分析支持:优化查询性能应对大规模关联分析、时间序列分析

  • 数据治理:元数据管理、数据血缘、权限控制体系

2、业务系统能否替代数仓

部分场景可以,但存在明显边界:

  • 可行场景:单业务系统的简单报表、实时性要求高的OLAP查询(如PolarDB HTAP能力)

  • 不可替代场景:对于跨多个业务系统、跨时间周期长、大规模的数据查询分析

3、传统数仓 VS 现代数仓的演变

随着存储和计算等新技术的发展,对于原本的数仓开发也带来了一定的改变,具体的比较见下,虽然在某种程度上,双边的界限会存在一定的模糊,但是 两者还是有所不同。

技术演进的影响:

  • PolarDB等HTAP数据库确实模糊了OLTP/OLAP的硬件层边界

  • 但数仓的核心逻辑(数据整合、建模、治理)仍需通过架构设计实现

  • 未来可能形成“业务系统负责实时分析,数仓负责跨系统深度分析”的互补架构

结论:由上面的3点,数仓 ≠ 业务数据库,只是数据仓库的适用场景不同。对于面向复杂分析的很多数据不应该放在业务数据库里,而应该交给数仓做统一管理、优化查询、支撑决策分析。

数据研发的价值证明体系

需求已经写得那么明确了,你的建模体现在哪里?

在真实的开发场景中,有些时候数据bp比研发人员还要更加的了解数据的全流程以及具体的使用,这种场景下,还有所谓的建模吗?

这个问题的本质是:数据建模的价值在哪里?是否只是简单地“翻译”需求?

如果数据开发只是“翻译”需求,那和直接写 SQL 计算数据没区别。AI不就可以干了么。但真正的建模价值体现在:

(1) 数据整合

• 通过数仓分层(ODS → DWD → DWM → APP),把零散的业务数据整合为统一数据资产。

• 例如:“用户登录、支付、订单”分散在不同系统,数仓建模后可快速计算用户生命周期指标。

(2) 数据标准化

• 例如:在“GMV 计算”中,不同业务线的“GMV”定义可能不同(是否包含退款、税费等)。

• 通过数仓建模,制定统一的GMV口径,所有报表和数据产品使用相同的计算方式。

(3) 提高查询性能

• 例如:一个业务查询需要跨 5 张表进行 Join,查询时间很长。

• 通过建模,将计算结果提前写入宽表(DWM层),查询时只需直接查询宽表,大幅提升性能。

(4) 数据复用

• 例如:多个团队都需要“日活用户数 (DAU)”,如果不建模,每个团队都要重复计算。

• 建模后,所有人都可以直接使用,避免重复开发。

但是,在实际情况中,比如,在之前开发中对于财务数据这种专业性较强的建设,可能会感觉建模的效果没有体现出来。说明可能以下几点没有做好:

只是简单写 SQL,没有建立数据资产。

没有考虑数据复用,导致相同数据多次计算。

没有优化数据结构,查询性能低下。

缺乏业务理解。

所以,即使需求已经很明确,建模仍然是数据开发的核心价值。

它决定了数据的组织方式、计算性能、可复用性,影响整个数据架构的可持续发展。

你的建模是业界通用的吗?

还是你自己制定的?如果是业界通用的,那么你的特色体现在哪里?

这个问题翻译过来是:什么时候用通用模型?什么时候需要自定义模型,以及两者之间如何比较,有可量化的指标吗?

业界的通用建模方法大家都知道,有 Kimball、Inmon、Data Vault 等,那么在实际的开发过程中,如何选择更适合的模型呢?

个人认为是需要根据业务场景、技术栈特性和数据规模进行深度适配,形成通用底座+业务增强的特色模式。

常规上来说,一般的比对指标有以下几种:

但是呢,看起来依旧有点主观,所以,我在想,有没有一种什么方式可以将其量化,抽象为一个计算公式?

查了查,发现想法类似于字节的三维模型,因此,个人认为也可以抽象为「场景复杂度-技术约束-ROI」三维评估模型。(仅为初步想法,并未真实验证)

1、量化评估公式

模型适配度评分 =(业务契合度 × W1) + (技术适配度 × W2) + (经济性指数 × W3);其中:

权重系数(W1+W2+W3=1)可以分阶段进行动态调整,比如:

  • 业务导向型:W1=0.6, W2=0.2, W3=0.2

  • 技术驱动型:W1=0.3, W2=0.5, W3=0.2

  • 成本敏感型:W1=0.4, W2=0.3, W3=0.3

2、参数定义与计算方法

业务契合度 (0-10分)

业务契合度 = (场景覆盖度 + 查询效率增益)/2 + 敏捷性修正值  

  • 场景覆盖度 = (当前业务需求匹配数 / 模型支持最大场景数) × 10

例:某模型支持5种促销分析模式,当前需覆盖3种 → 得分6分  

  • 查询效率增益 = (基准模型延迟 - 候选模型延迟) / 基准模型延迟 × 10

例:从星型模型(8s)切换到宽表(1.2s) → 得分(8-1.2)/8×10=8.5分

  • 敏捷性修正值: 

需求变更频率 ≤1次/月: +0  

1次/周: -1  

每日变更: -3  

技术适配度 (0-10分)  

技术适配度 = (工具链匹配度 + 团队能力指数)/2 *可维护性系数  

  • 工具链匹配度 = (支持该模型的工具数 / 企业现有工具数) × 5 + (专用优化功能存在性 × 5) 

  • 团队能力指数 = (团队成员平均建模经验年限 × 2) ,最高5分  

  • 可维护性系数 = 1 - (模型复杂度指数 × 0.1)  

复杂度指数 = 表数量 × 0.3 + 关联层级 × 0.7

经济性指数 (0-10分)

经济性指数 = 可接受成本/(开发成本 + 三年运维成本)  

  • 可接受成本 = 项目预算

  • 开发成本 = 人力成本(人天×单价) + 资源消耗 

  • 运维成本 = (日常维护工时 × 单价) + 存储费用 + 计算费用  

3、决策规则

分别计算出模型A和模型B的分数,如果差别不大,可以使用偏向通用模型。如果差异过大,可以使用自定义模型。

怎么证明数据的价值?

辅助决策,有具体的例子吗?

回顾ERP的项目,更多都是财务方向的建设,我们一直在说数据的建设是辅助管理层决策,但是,有没有办法直观的感受到或者量化这个决策的影响度。这个我也没有找到更好的量化方式,也期望得到大佬们的解答。

职业发展的本质思考

 除了技术本身,做数据仓库的这几年,也让我不断思考职业发展的问题。

对于职业发展的焦虑?

当一个行业或岗位无法提供新的挑战和成长空间时,很多人会选择寻找新的机会。对于我个人而言,最核心的问题是:对于职业发展的焦虑。

我所在乎的一般有3点

  • 技术成长曲线(新技能突破)

  • 业务贡献度(受认可,工作内容可以影响核心指标)

  • 所在环境提供必要挑战(如团队不断有新的业务)

当感受不到技能成长的时候,会问自己,我的技能还能走多远?新的技术的出现,是不是会导致自己很快被淘汰?当衡量不出来价值的时候,会质疑自己存在的必要性,严重会上升到对于数仓开发的怀疑。

如果让你再做一次,你会怎么做?

如果重来一次,则要关注数据资产化治理,与业务方加强沟通,多多理解业务知识。让数据不仅是业务的支撑,而是成为业务的资产。同时,我会更注重数据治理,保证数据一致性、可复用性、可追溯性,而不是只关注“报表跑得快不快”。

面向未来的生存法则

技术环境变化太快了,按照自己现在的规划路线,还能走多远呢?

AI 时代,数据研发还值钱吗?

这是我最近思考最多的问题之一。AI 的发展让数据的价值进一步凸显,但同时也对数据研发提出了更高的要求。未来的数据工程师,不仅仅是建模、ETL,还需要具备数据治理、数据质量管理、流计算、AI 结合数据分析等能力。

AI 可以加速数据处理,但不能完全取代数据治理和数据决策。数据研发仍然重要,但角色正在进化,未来的数仓开发可能不只是建模,而是构建“智能数据平台”,让数据更好地服务于 AI 和业务。

总结

过去 4 年让我从一个数据开发者成长为一个更懂业务、懂建模、也懂数据价值的人。让我对数据的本质有了更深刻的理解,也让我意识到:数据的核心价值不在于使用了多么高大上的技术,而在于它如何影响决策,为业务带来价值。

欢迎大家对上述问题,展开探讨,留下你的想法,将抽取5位同学,送上“滴滴技术双肩电脑包”!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/74485.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大文件分片上传及断点续传实现

使用 支持分片上传及断点续传 前端使用 vue 2 后端使用 springboot 源码在私信

图解AUTOSAR_SWS_IOHardwareAbstraction

AUTOSAR IO硬件抽象层详解 基于AUTOSAR标准的IO硬件抽象层设计与实现指南 目录 1. 概述2. 架构设计 2.1 模块架构概览2.2 内部组件结构2.3 与其他模块的交互接口 3. 状态机 3.1 状态定义3.2 状态转换3.3 状态行为 4. ADC信号处理流程 4.1 初始化流程4.2 转换请求和处理4.3 通知…

Python正则表达式(一)

目录 一、正则表达式的基本概念 1、基本概念 2、正则表达式的特殊字符 二、范围符号和量词 1、范围符号 2、匹配汉字 3、量词 三、正则表达式函数 1、使用正则表达式: 2、re.match()函数 3、re.search()函数 4、findall()函数 5、re.finditer()函数 6…

硬件基础--03_电流

电流 十九世纪初:[电流方向]是指正电荷的移动方向。 后来:对于金属导体,正电荷没移动,其实是电子在移动。 为了定义的统一性[电流方向]仍然定义为正电荷的移动方向 所以:[电流方向]与[电子移动方向]是相反的。 概念:电荷的定向移动,形成了电…

借壹起航东风,中国工厂出海开启新征程

在经济全球化不断深入的当下,中国工厂正以积极的姿态投身海外市场,渴望在全球商业版图中占据一席之地,绽放独特的光彩。然而,出海之路充满了挑战与艰辛,品牌塑造困难重重、询盘量不稳定、营销成本居高不下等问题&#…

在linux系统上卸载并重新安装Docker及配置国内镜像源指

前言 Docker 作为容器化技术的核心工具,广泛应用于开发、测试和部署环境。但在某些情况下(如版本冲突、配置错误等),可能需要彻底卸载并重新安装 Docker。此外,国内用户直接访问 Docker 官方镜像源可能速度较慢&#…

Mysql内置函数篇

🏝️专栏:Mysql_猫咪-9527的博客-CSDN博客 🌅主页:猫咪-9527-CSDN博客 “欲穷千里目,更上一层楼。会当凌绝顶,一览众山小。” 目录 7.函数 7.1 日期函数 函数总:​编辑 获得当前日期 获得…

小爱控制OK影视搜索视频

在adb connect ip以后,可以这样打开Ok影视,并且进行控制 pm list packages -3 #只显示第三方 dumpsys package com.fongmi.android.tv |grep Activity #返回 com.fongmi.android.tv/.ui.activity.HomeActivity am start -n com.fongmi.android.tv/.u…

电机倍频曲线的一些奇异特性-原因分析及应用

这里对感应电机倍频曲线的特征进行了说明,然后将其特性用于电机转差率和工况的测量。先给出可以直接利用的结论: 电机的工况和转差率谱线会体现为5x,7x谱线调制在基频附近。两条调制过携带s信息的谱线距离基频谱线的距离。 与真实转速相对同步转速的频差…

语言解码双生花:人类经验与AI算法的镜像之旅

大家好,我是吾鳴。 今天吾鳴要给大家分享一份由浙江大学出品的DeepSeek报告,报告从语言的奥秘,人类是如何通过语言来解码世界,AI又是如何理解人类的语言,同时介绍了当下爆火的DeepSeek-V3和DeepSeek-R1两种大模型的进化…

如何避免测试数据准备不充分或不可复用

避免测试数据准备不充分或不可复用的关键方法包括明确数据需求、统一数据管理工具、建立数据复用机制、定期维护更新测试数据以及加强团队沟通与协作。 其中,统一数据管理工具对确保数据质量和复用性尤为重要。例如,许多团队采用专门的测试数据管理工具以…

汤臣倍健业绩倒车:2024年利润下滑超六成,三大核心品牌销量失守

撰稿|行星 来源|贝多财经 汤臣倍健的2024年,“隐痛”不少。 3月22日,国内膳食营养补充剂供应商汤臣倍健股份有限公司(SZ:300416,下称“汤臣倍健”)公布了2024年年度报告。财报显示,汤臣倍健过去一年出现了…

通信系统的性能指标

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、通信系统的性能指标概述二、数字通信系统的有效性指标三、数字通信系统的可靠性指标总结 前言 一、通信系统的性能指标概述 其中一个提高,另一个…

Linux:(模拟HTTP协议,GET和POST方法,Http的状态码)

目录 一、认识HTTP协议 1.上网的本质 2.应用层的运行逻辑 3.HTTP的概念 二、url 1.认识网址 三、HTTP协议的宏观理解 1.HTTP请求 2.HTTP响应 3.实际的HTTP请求 (1)测试代码 (2)接收HTTP请求 (3&#xff09…

动态规划之完全背包

引言: 完全背包 隶属于动态规划中的背包问题。而 01背包 又是完全背包的基石,所以不懂01背包的,有必要了解一下。 什么是完全背包? 01背包问题:有一个背包承重为V,有N个物品,每个物品的价值(…

金融数据分析(MATLAB)个人学习笔记(5):金融实证分析实例

一、国内外常用金融数据库简介 (一)国外数据库 1. CRSP数据库 CRSP(Center for Research in Security Prices,证券价格研究中心)是美国芝加哥大学商研所金融研究中心的产品。收集的美国股票和指数数据来源主要为纽约证券交易所…

硬件基础(3):三极管(4):关于三极管的压降

文章目录 三极管的压降使用与测量注意事项 三极管的压降 三极管的“压降”通常是指在一定工作状态下,三极管不同电极之间产生的电压差。对于常见的双极性晶体管(BJT)而言,最常讨论的压降通常包括以下几个部分: 基-发射…

[深度学习]图像分类项目-食物分类

图像分类项目-食物分类(监督学习和半监督学习) 文章目录 图像分类项目-食物分类(监督学习和半监督学习)项目介绍数据处理设定随机种子读取文件内容图像增广定义Dataset类 模型定义迁移学习 定义超参Adam和AdamW 训练过程半监督学习定义Dataset类模型定义定义超参训练过程 项目介…

5.go切片和map

切片的概念 数组和切片相比较切片的长度是不固定的,可以追加元素,在追加时可能会使切片的容量增大,所以可以将切片理解成 "动态数组",但是,它不是数组,而是构建在数组基础上的更高级的数据结构。…

云原生算力引擎:分布式推理的流体动力学

引言:算力黑洞的引力扰动 OpenAI推理集群日处理4.5亿次请求,CUDA 12.3实现μs级张量切换。特斯拉Dojo超算芯片间延迟0.5ns,阿里巴巴PAI平台节省58%训练时长。HuggingFace模型库下载量突破3亿次,AWS Inferentia芯片能效比提升8倍。…