工业大数据分析算法实战-day01

文章目录

  • 前言
  • day01
    • 工业上刻画物理世界模型
    • 忽略业务的数据挖掘是本末倒置
    • 数据分析算法的朴素思想

前言

从毕业后从事的行业是机房动力环境运维行业,职责为动环设备的监控预警和故障诊断,核心主旨为动环设备的数智化,个人浅见从大类视角来看隶属于工业设备的数据挖掘。恰逢公司举办21天flag活动,本人参加该活动,并立flag为:在21天内读完1本与工作技能相关的书籍《工业大数据分析算法实战》,每天阅读60分钟,每周完成3-4个章节,21天后输出一篇不少于500字的心得总结。有幸选择田春华老师的这本书进行观摩学习,非常感谢作者的辛勤书写。

day01

第1章节:数据分析概览,建立数据分析算法的概念框架并给予学习路线

第2-5章节:侧重通用的分析算法,包含:数据预处理、机器学习、时序挖掘算法、最优化等其他算法

第6-8章节:讨论工业分析的算法思路,涵盖了:生产质量分析、生产效率优化等典型分析的算法套路

第9章节:侧重分析的工程方法,讨论了工业上专家知识沉淀的方法

第10章节:讨论数据分析的软件工程

工业上刻画物理世界模型

优点前提/限制条件适用的场景
机理模型分析推演能力强基于大量的简化或者强假设。模型参数的可测量性理论基础、实验条件良好
统计模型归纳能力强,具备自适应能力对数据要求高,预测结果有一定的不确定性大量类似的场景。概念逻辑清楚,但是缺乏具象的关系
专家规则可解释性强规则的模糊与不完备逻辑简单明了,需要实时计算

统计模型可与机理模型想融合:

  • 统计模型可为机理模型做校准(点的估计、分布估计);
  • 统计模型可为机理模型结果进行修正,或者结合统计方法综合多个机理模型,提高预测稳定性
  • 机理模型结果可作为统计模型的特征
  • 做融合,机理全局推演,统计局部较高精度刻画

统计模型与专家经验规则融合:

  • 在设备异常预警等场景,大多存在异常样本较少的情况,此时除了无监督,可采取专家经验融合统计模型
  • 构建大数据平台,将大量比如故障态的历史数据研究分析,不断完善专家经验规则
  • 统计模型可给出一些容易混淆的样本,让领域专家进行标记

忽略业务的数据挖掘是本末倒置

CRISP-DM(一种数据挖掘分析方法框架)

  • 业务理解:从业务角度理解目的和需求,转换为数据挖掘问题,诸如:确定业务目标、评估形式、确定DM的目标、制定项目计划
  • 数据理解:始于原始数据的收集,熟悉数据,标明数据质量问题,发掘出值得关注的数据自己以形成对隐藏信息的假设。
  • 数据准备:选择数据、清洗数据、生成数据、融合数据、格式化数据、数据集描述
  • 模型建立:选择模型、产生检验设计、建立模型、评估模型
  • 模型评估:评估结果、回顾DM过程、确定下一步工作
  • 模型部署:计划发布、监测和维护、最终报告、回顾项目

在工业领域的细化如下图

image-20241211210709913

数据分析算法的朴素思想

数据分析算法看问题的角度:

  • 优化角度:构建一定的模型约束,最大化某个性能指标或者极小化某个惩罚的函数
  • 概率角度:变量存在均值方差指标,通过参数的先验分布,求解目标极大化似然度、后验概率分布,获得参数的点/区间估计
角度优化方法概率方法
理论基础数学优化(目标函数 + 约束条件)概率统计(先验、似然、后验等概念)
目标最大化性能指标或最小化代价函数求解最优参数的概率分布或最大似然估计
适用场景强调精确优化问题(如模型参数的直接优化)需要处理不确定性或随机性的场景(如贝叶斯推断)
难度通常在构建目标函数后计算较直接需要假设分布和构建概率模型,推导复杂

问题定义方式:

方式关注点特点例子
指令式明确步骤和过程规则清晰、逐步定义自己写排序算法
声明式描述问题和目标自动化求解机器学习中的模型训练过程
激励式用奖励/惩罚调节行为结果导向、灵活适配GAN 的生成学习,强化学习的策略优化

模型的求解算法:

  • 解析表达式,对于一些简单的模型,能够直接通过数学解析法求解,即直接计算出明确的解,比如线性计算
  • 存在明确梯度,如果可以明确地计算目标函数的梯度(或使用数值方法近似梯度),可以采用梯度下降等方法求解,比如神经网络相关
  • 分而治之,将问题分解为更小的子问题分别求解,再组合成整体解的策略,比如决策树模型
  • 多个变量迭代求解,先固定一部分,利用局部优化算法求解剩余变量,然后再固定剩余变量,求解原来部分变量,比如kmeans
  • 转换为典型范式模型,比如在整数规划上,存在很多模型范式,可以增加参数,将非线性整数优化模型转换为整数规划模型,再通过高效的引擎求解

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/889739.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

bug:uniapp运行到微信开发者工具 白屏 页面空白

1、没有报错信息 2、预览和真机调试都能正常显示,说明代码没错 3、微信开发者工具版本已经是win7能装的最高版本了,1.05版 链接 不打算回滚旧版本 4、解决:最后改调试基础库为2.25.4解决了,使用更高版本的都会报错,所…

用 Python 实现经典的 2048 游戏:一步步带你打造属于你的小游戏!

用 Python 实现经典的 2048 游戏:一步步带你打造属于你的小游戏!(结尾附完整代码) 简介 2048 是一个简单而又令人上瘾的数字拼图游戏。玩家通过滑动方块使相同数字的方块合并,目标是创造出数字 2048!在这篇…

【Go】-倒排索引的简单实现

目录 什么是倒排索引 定义 基本结构和原理 分词在倒排索引中的重要性 简单倒排索引的实现 接口定义 简单数据库的实现 倒排索引 正排索引 测试 总结 什么是倒排索引 定义 倒排索引(Inverted Index)是一种索引数据结构,它是文档检…

智汇云舟4个案例入选“中国联通智慧城市物联感知与AI应用案例”

12月10日,由中国联通智慧城市军团联合联通数字科技有限公司物联网事业部、物联中国团体组织联席会共同主办的“中国联通首届智慧城市领域物联感知与AI应用优秀案例发布交流大会”在郑州举行。大会现场对50余个优秀案例进行了集中发布与表彰。智汇云舟凭借深厚的技术…

http 502 和 504 的区别

首先看一下概念: 502:作为网关或者代理工作的服务器尝试执行请求时,从上游服务器接收到无效的响应。503:由于临时的服务器维护或者过载,服务器当前无法处理请求。这个状况是临时的,并且将在一段时间以后恢…

博弈论3:图游戏SG函数(Graph Games)

目录 一、图游戏是什么 1.游戏特征 2.游戏实例 二、图游戏的必胜策略 1.SG 函数(Sprague-Grundy Function) 2.必胜策略(利用SG函数) 3.拿走游戏转化成图游戏(Take-away Game -> Graph Game) 一、图…

免费生成AI PPT产品推荐?

要完全免费几乎是没有的,要知道AI还是非常烧钱的。 不过免费蹭还是有很多方法的,这里收集了一些: 下面分享我自己免费蹭过的几款AI制作PPT的工具。 1 金山-WPS PPT对我们来说并不陌生,而微软的PowerPoint与金山的WPS也是我们最常…

Python机器视觉的学习

一、二值化 1.1 二值化图 二值化图:就是将图像中的像素改成只有两种值,其操作的图像必须是灰度图。 1.2 阈值法 阈值法(Thresholding)是一种图像分割技术,旨在根据像素的灰度值或颜色值将图像分成不同的区域。该方法…

Cisco Packet Tarcer配置计网实验笔记

文章目录 概要整体架构流程网络设备互连基础拓扑图拓扑说明配置步骤 RIP/OSPF混合路由拓扑图拓扑说明配置步骤 BGP协议拓扑图拓扑说明配置步骤 ACL访问控制拓扑图拓扑说明配置步骤 HSRP冗余网关拓扑图拓扑说明配置步骤 小结 概要 一些环境配置笔记 整体架构流程 网络设备互连…

【优选算法】二分算法(在排序数组中查找元素的第一个和最后一个位置,寻找峰值,寻找排序数组中的最小值)

二分算法简介: 提到二分我们可能都会想起二分查找,二分查找要求待查找的数组是有序的,与我们今天讲的二分算法不同,并不是数组元素严格按照有序排列才可以使用二分算法,只要数组中有一个点可以将数组分为两个部分&…

下载与使用PCL启动器(2.8.12正式版)

一.下载PCL启动器 PCL启动器下载官网:爱发电 连接创作者与粉丝的会员制平台将创作的自由还给创作者!爱发电是让创作者简单地获得稳定收入的粉丝赞助平台。无论你在创作什么,都能在这里获得持续的资金支持,让创作从此更自由。htt…

【ArcGIS】基于R语言、MaxEnt模型融合技术的物种分布模拟、参数优化方法、结果分析制图与论文写作

第一章、以问题导入的方式,深入掌握原理基础【理论篇】 1、R语言入门: (1)安装R及集成开发环境(IDE);(2)R语言基础语法与数据结构,包括:程序包安…

泊松编辑 possion editing图像合成笔记

开源地址: GitHub - kono-dada/Reproduction-of-possion-image-editing 掩码必须是矩形框

江科大笔记—DMA数据转运DMA+AD多通道

1. DMA初始化结构体详解 标准库函数对每个外设都建立了一个初始化结构体xxx_InitTypeDef(xxx为外设名称),结构体成员用于设置外设工作参数, 并由标准库函数xxx_Init()调用这些设定参数进入设置外设相应的寄存器,达到配置外设工作环境的目的。…

程序算术题-2

程序算术题-2 输出所有组合逻辑实例代码 输出所有排列逻辑实例代码 输出所有组合 计算一组数字按n位数组合的所有组合。 逻辑 /*** param stringBuilder 用于组合的拼接* param list 组合数序列* param level 目前位数* param exceptedLevel 组合期待位数*/…

MAC M3电脑在idea上搭建Spark环境并跑通第一个程序

我的电脑是Macbook Pro,最近在学习Spark,想要在idea里搭建Spark环境,为之后的Spark编程作准备。下面是在MAC版本的idea里配置Spark环境。 1. 准备工作 1.安装 JDK 确保Mac 上已经安装了 JDK 8 或更高版本。 可通过 java -version 查看是否…

欧科云链研究院:AI时代,如何证明“我是我”?

OKG Research|编辑 近日,OpenAI 发布了新模型 Sora。这是一款高性能的文本到多模态生成工具,支持从文本生成精细的图像和动态视频。 相较早先发布的视频样例,该功能目前已经可以由用户真实上手体验,目前由于服务过载…

任务5 Web服务配置与管理

Web服务概述 Web服务简介 当今人们获取和传播信息的主要方式之一。 Web服务提供的资源多种多样,可能是简单的文本,也可能是图片、音频和视频等多媒体数据。 常用的浏览器有Chrome、Internet Explorer,以及Firefox等。 手机等移动设备成为…

Opencv之图像添加水印

一、实验原理 在图片处理领域,添加水印是一种常见的操作。通过叠加图像的方式,可以将水印无缝嵌入目标图像的指定位置。其基本原理包括以下步骤: 1、模板输入(掩膜生成): 将水印图片转换为灰度图&#xf…

「Mac玩转仓颉内测版50」小学奥数篇13 - 动态规划入门

本篇将通过 Python 和 Cangjie 双语介绍动态规划的基本概念,并解决一个经典问题:斐波那契数列。学生将学习如何使用动态规划优化递归计算,并掌握编程中的重要算法思想。 关键词 小学奥数Python Cangjie动态规划斐波那契数列 一、题目描述 …