工业大数据分析算法实战-day01

文章目录

  • 前言
  • day01
    • 工业上刻画物理世界模型
    • 忽略业务的数据挖掘是本末倒置
    • 数据分析算法的朴素思想

前言

从毕业后从事的行业是机房动力环境运维行业,职责为动环设备的监控预警和故障诊断,核心主旨为动环设备的数智化,个人浅见从大类视角来看隶属于工业设备的数据挖掘。恰逢公司举办21天flag活动,本人参加该活动,并立flag为:在21天内读完1本与工作技能相关的书籍《工业大数据分析算法实战》,每天阅读60分钟,每周完成3-4个章节,21天后输出一篇不少于500字的心得总结。有幸选择田春华老师的这本书进行观摩学习,非常感谢作者的辛勤书写。

day01

第1章节:数据分析概览,建立数据分析算法的概念框架并给予学习路线

第2-5章节:侧重通用的分析算法,包含:数据预处理、机器学习、时序挖掘算法、最优化等其他算法

第6-8章节:讨论工业分析的算法思路,涵盖了:生产质量分析、生产效率优化等典型分析的算法套路

第9章节:侧重分析的工程方法,讨论了工业上专家知识沉淀的方法

第10章节:讨论数据分析的软件工程

工业上刻画物理世界模型

优点前提/限制条件适用的场景
机理模型分析推演能力强基于大量的简化或者强假设。模型参数的可测量性理论基础、实验条件良好
统计模型归纳能力强,具备自适应能力对数据要求高,预测结果有一定的不确定性大量类似的场景。概念逻辑清楚,但是缺乏具象的关系
专家规则可解释性强规则的模糊与不完备逻辑简单明了,需要实时计算

统计模型可与机理模型想融合:

  • 统计模型可为机理模型做校准(点的估计、分布估计);
  • 统计模型可为机理模型结果进行修正,或者结合统计方法综合多个机理模型,提高预测稳定性
  • 机理模型结果可作为统计模型的特征
  • 做融合,机理全局推演,统计局部较高精度刻画

统计模型与专家经验规则融合:

  • 在设备异常预警等场景,大多存在异常样本较少的情况,此时除了无监督,可采取专家经验融合统计模型
  • 构建大数据平台,将大量比如故障态的历史数据研究分析,不断完善专家经验规则
  • 统计模型可给出一些容易混淆的样本,让领域专家进行标记

忽略业务的数据挖掘是本末倒置

CRISP-DM(一种数据挖掘分析方法框架)

  • 业务理解:从业务角度理解目的和需求,转换为数据挖掘问题,诸如:确定业务目标、评估形式、确定DM的目标、制定项目计划
  • 数据理解:始于原始数据的收集,熟悉数据,标明数据质量问题,发掘出值得关注的数据自己以形成对隐藏信息的假设。
  • 数据准备:选择数据、清洗数据、生成数据、融合数据、格式化数据、数据集描述
  • 模型建立:选择模型、产生检验设计、建立模型、评估模型
  • 模型评估:评估结果、回顾DM过程、确定下一步工作
  • 模型部署:计划发布、监测和维护、最终报告、回顾项目

在工业领域的细化如下图

image-20241211210709913

数据分析算法的朴素思想

数据分析算法看问题的角度:

  • 优化角度:构建一定的模型约束,最大化某个性能指标或者极小化某个惩罚的函数
  • 概率角度:变量存在均值方差指标,通过参数的先验分布,求解目标极大化似然度、后验概率分布,获得参数的点/区间估计
角度优化方法概率方法
理论基础数学优化(目标函数 + 约束条件)概率统计(先验、似然、后验等概念)
目标最大化性能指标或最小化代价函数求解最优参数的概率分布或最大似然估计
适用场景强调精确优化问题(如模型参数的直接优化)需要处理不确定性或随机性的场景(如贝叶斯推断)
难度通常在构建目标函数后计算较直接需要假设分布和构建概率模型,推导复杂

问题定义方式:

方式关注点特点例子
指令式明确步骤和过程规则清晰、逐步定义自己写排序算法
声明式描述问题和目标自动化求解机器学习中的模型训练过程
激励式用奖励/惩罚调节行为结果导向、灵活适配GAN 的生成学习,强化学习的策略优化

模型的求解算法:

  • 解析表达式,对于一些简单的模型,能够直接通过数学解析法求解,即直接计算出明确的解,比如线性计算
  • 存在明确梯度,如果可以明确地计算目标函数的梯度(或使用数值方法近似梯度),可以采用梯度下降等方法求解,比如神经网络相关
  • 分而治之,将问题分解为更小的子问题分别求解,再组合成整体解的策略,比如决策树模型
  • 多个变量迭代求解,先固定一部分,利用局部优化算法求解剩余变量,然后再固定剩余变量,求解原来部分变量,比如kmeans
  • 转换为典型范式模型,比如在整数规划上,存在很多模型范式,可以增加参数,将非线性整数优化模型转换为整数规划模型,再通过高效的引擎求解

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/889739.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

bug:uniapp运行到微信开发者工具 白屏 页面空白

1、没有报错信息 2、预览和真机调试都能正常显示,说明代码没错 3、微信开发者工具版本已经是win7能装的最高版本了,1.05版 链接 不打算回滚旧版本 4、解决:最后改调试基础库为2.25.4解决了,使用更高版本的都会报错,所…

用 Python 实现经典的 2048 游戏:一步步带你打造属于你的小游戏!

用 Python 实现经典的 2048 游戏:一步步带你打造属于你的小游戏!(结尾附完整代码) 简介 2048 是一个简单而又令人上瘾的数字拼图游戏。玩家通过滑动方块使相同数字的方块合并,目标是创造出数字 2048!在这篇…

【Go】-倒排索引的简单实现

目录 什么是倒排索引 定义 基本结构和原理 分词在倒排索引中的重要性 简单倒排索引的实现 接口定义 简单数据库的实现 倒排索引 正排索引 测试 总结 什么是倒排索引 定义 倒排索引(Inverted Index)是一种索引数据结构,它是文档检…

智汇云舟4个案例入选“中国联通智慧城市物联感知与AI应用案例”

12月10日,由中国联通智慧城市军团联合联通数字科技有限公司物联网事业部、物联中国团体组织联席会共同主办的“中国联通首届智慧城市领域物联感知与AI应用优秀案例发布交流大会”在郑州举行。大会现场对50余个优秀案例进行了集中发布与表彰。智汇云舟凭借深厚的技术…

vue路由的钩子函数?

在 Vue 中,路由的钩子函数可以用来在导航过程中执行一些操作,比如进行权限验证、页面加载前后的处理等。常用的路由钩子函数包括全局前置守卫、全局解析守卫、全局后置钩子以及路由独享守卫。下面是这些路由守卫函数的简要说明: 全局前置守卫…

http 502 和 504 的区别

首先看一下概念: 502:作为网关或者代理工作的服务器尝试执行请求时,从上游服务器接收到无效的响应。503:由于临时的服务器维护或者过载,服务器当前无法处理请求。这个状况是临时的,并且将在一段时间以后恢…

博弈论3:图游戏SG函数(Graph Games)

目录 一、图游戏是什么 1.游戏特征 2.游戏实例 二、图游戏的必胜策略 1.SG 函数(Sprague-Grundy Function) 2.必胜策略(利用SG函数) 3.拿走游戏转化成图游戏(Take-away Game -> Graph Game) 一、图…

Redis篇-7--原理篇6--过期机制(定时删除,惰性删除,Redis过期事件监听和Java实现)

Redis提供了丰富的过期机制,允许用户为键设置一个生存时间(TTL,Time To Live),当键的生存时间到期时,Redis会自动删除该键。为了高效地管理过期键,Redis采用了两种主要的过期策略:定…

免费生成AI PPT产品推荐?

要完全免费几乎是没有的,要知道AI还是非常烧钱的。 不过免费蹭还是有很多方法的,这里收集了一些: 下面分享我自己免费蹭过的几款AI制作PPT的工具。 1 金山-WPS PPT对我们来说并不陌生,而微软的PowerPoint与金山的WPS也是我们最常…

LeetCode-Golang之【5. 最长回文子串】

给定一个字符串 s,找到 s 中最长的回文子串。你可以假设 s 的最大长度为 1000。 示例 1: 输入: “babad” 输出: “bab” 注意: “aba” 也是一个有效答案。 示例 2: 输入: “cbbd” 输出: “bb” 本算法采用 动态规划去解析 func longes…

音频数据采样入门详解 - 给Python初学者的简单解释

音频数据采样入门详解 - 给Python初学者的简单解释 声音是如何变成数字的?什么是采样率?为什么要懂这个?Python小例子总结 大家好!今天我们来聊一个有趣的话题:音频数据是如何在计算机中处理的。让我用最简单的方式来解…

Python机器视觉的学习

一、二值化 1.1 二值化图 二值化图:就是将图像中的像素改成只有两种值,其操作的图像必须是灰度图。 1.2 阈值法 阈值法(Thresholding)是一种图像分割技术,旨在根据像素的灰度值或颜色值将图像分成不同的区域。该方法…

Cisco Packet Tarcer配置计网实验笔记

文章目录 概要整体架构流程网络设备互连基础拓扑图拓扑说明配置步骤 RIP/OSPF混合路由拓扑图拓扑说明配置步骤 BGP协议拓扑图拓扑说明配置步骤 ACL访问控制拓扑图拓扑说明配置步骤 HSRP冗余网关拓扑图拓扑说明配置步骤 小结 概要 一些环境配置笔记 整体架构流程 网络设备互连…

【优选算法】二分算法(在排序数组中查找元素的第一个和最后一个位置,寻找峰值,寻找排序数组中的最小值)

二分算法简介: 提到二分我们可能都会想起二分查找,二分查找要求待查找的数组是有序的,与我们今天讲的二分算法不同,并不是数组元素严格按照有序排列才可以使用二分算法,只要数组中有一个点可以将数组分为两个部分&…

下载与使用PCL启动器(2.8.12正式版)

一.下载PCL启动器 PCL启动器下载官网:爱发电 连接创作者与粉丝的会员制平台将创作的自由还给创作者!爱发电是让创作者简单地获得稳定收入的粉丝赞助平台。无论你在创作什么,都能在这里获得持续的资金支持,让创作从此更自由。htt…

【系统思辨】分散注意

注意力在我们的日常生活和工作中扮演着至关重要的角色。注意力可以提高效率和准确性、减少错误和失误,提升学习效率,促进创造力。与此同时,各种各样的生活事件在分散我们的注意力,并且还有很多分散我们注意的手段,比如…

【ArcGIS】基于R语言、MaxEnt模型融合技术的物种分布模拟、参数优化方法、结果分析制图与论文写作

第一章、以问题导入的方式,深入掌握原理基础【理论篇】 1、R语言入门: (1)安装R及集成开发环境(IDE);(2)R语言基础语法与数据结构,包括:程序包安…

泊松编辑 possion editing图像合成笔记

开源地址: GitHub - kono-dada/Reproduction-of-possion-image-editing 掩码必须是矩形框

江科大笔记—DMA数据转运DMA+AD多通道

1. DMA初始化结构体详解 标准库函数对每个外设都建立了一个初始化结构体xxx_InitTypeDef(xxx为外设名称),结构体成员用于设置外设工作参数, 并由标准库函数xxx_Init()调用这些设定参数进入设置外设相应的寄存器,达到配置外设工作环境的目的。…

程序算术题-2

程序算术题-2 输出所有组合逻辑实例代码 输出所有排列逻辑实例代码 输出所有组合 计算一组数字按n位数组合的所有组合。 逻辑 /*** param stringBuilder 用于组合的拼接* param list 组合数序列* param level 目前位数* param exceptedLevel 组合期待位数*/…