机器学习的数据管理

.机器学习的数据管理注意事项

机器学习的生命周期包括如下部分

(1).业务的理解,机器学习问题框架

(2).数据理解和收集

(3).模型的训练和评估

(4)模型部署

(5).模型监控

(6).业务衡量

数据管理和机器学习的生命周期的2,3,4个阶段有关。

我们需要对数据进行分析,一般是分析数据的相关性,数据的统计,数据的分布,一般有下面这下内容

(1).进行数据验证,检测错误数据,验证数据质量。比如数据的范围,数据分布,数据类型或者空缺值。

(2).执行数据清洗以修复数据错误

(3).充实数据,通过不同的数据集的连接或者数据转换产生新的信号

再模型的训练和验证阶段,需要为正式的模型模型创建训练和验证数据集

在调用模型已部署的模型时,将特征处理所需要的数据作为输入数据的一部分提供

在调用已部署的模型时,提供预先计算的特征作为输入的一部分。

2.机器学习的数据管理架构

1.对于一个小型的机器学习项目,可以考虑使用简单的数据管理架构模式,这种模式一般有固定的数据管道。

从数据仓库或者其他数据集中提取固定的特征,然后经过数据提取工具储存到项目的数据储存区,最后进行机器学习项目。

2.对于一个大型的机器学习项目,就需要一个大型的架构方式,因为这样的机器学习项目,往往需要从各处抽取数据资源,这样的数据可能是结构化的,也可能是非结构化的,也可能是半结构化的,表格,图像,文本,都有可能是项目所需要的数据。

一般的架构如下所示        

数据湖旨在存储无限量的数据并在不同的生命周期阶段进行管理。数据湖的主要目的是将不同的数据孤岛整合到一个中心存储库中,用于集中数据管理和数据访问,以满足分析需求和机器学习需求。

3.数据提取

数据提取需要注意以下几个事项

1.数据格式,数据大小和可扩展性,考虑到不同的数据格式,数据大小,和数据速度的需求;

2.提取模式,因为数据类型的一样,或者任务很复杂,有时候需要组合不同的提取工具。

3.数据的预处理能力,提取的数据可能需要进行预处理

4.安全性,选择的工具是否需要身份认证和授权提供安全机制

5.可靠性.这些工具需要提供故障恢复能力,以便再提取过程中不会丢失关键数据,如果没有恢复能力,请确保数据来源重新运行提取作业的功能。

6.支持不同的数据源和目标,提取工具需要支持广泛的数据源,比如数据库,文件和流式源,该工具还应该提供用于数据提取的API

7.可管理性:可管理型应该是另一个考虑因素,该工具是否自我管理,还是完全托管?需要综合考虑成本。

4.数据目录

数据目录是数据管理的关键组件,它使得数据分析师能够轻松发现中央数据存储的数据。

数据目录记录要考虑以下几个关键因素

(1).元数据目录:支持元数据管理的中央数据目录。

(2).自动数据编目:自动发现和编目数据集从不同数据源推断数据模式的能力。

(3).标记的灵活性

(4).与其他工具集成

(5).搜索

5.数据处理

数据湖的数据处理能力提供了数据处理框架和底层计算资源来处理不同目的的数据,比如数据纠错,数据转换,数据合并,数据拆分,数据合并,和机器学习特征工程

它需要考虑以下几个关键因素

(1).与底层存储技术的集成和互操作性:能够与底层储存进行原生协同工作的能力,这简化了数据访问和加载,移动。

(2).与数据目录集成的能力:可以和数据目录交互,查找数据

(3).可扩展性:根据数据量调整计算资源

(4).语言和框架的支持:可以使用各种编程语言和框架

6.数据版本控制

对转化或者提取后的数据根据需要控制版本,这就有赖于协调了。

7.数据管道

对数据的处理,转化,提取按照自动化的流程进行的工具,这是一项集成任务。

8.身份授权和验证

9.数据治理

数据据治理可确保数据资产受到资产受到信任,保护和分类,并且对它的访问进行监控和审计。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/229479.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot 3 整合 Hutool 验证码实战

🚀 作者主页: 有来技术 🔥 开源项目: youlai-mall 🍃 vue3-element-admin 🍃 youlai-boot 🌺 仓库主页: Gitee 💫 Github 💫 GitCode 💖 欢迎点赞…

开源 LLM 微调训练指南:如何打造属于自己的 LLM 模型

一、介绍 今天我们来聊一聊关于LLM的微调训练,LLM应该算是目前当之无愧的最有影响力的AI技术。尽管它只是一个语言模型,但它具备理解和生成人类语言的能力,非常厉害!它可以革新各个行业,包括自然语言处理、机器翻译、…

【经典LeetCode算法题目专栏分类】【第4期】BFS广度优先算法:单词接龙、最小基因变化、二进制矩阵中的最短路径

《博主简介》 小伙伴们好,我是阿旭。专注于人工智能AI、python、计算机视觉相关分享研究。 ✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~ 👍感谢小伙伴们点赞、关注! 一般涉及到最小层数问题…

PyTorch自动梯度计算(注意点)

if params.grad is not None: params.grad.zero_() 我们实际的运算往往会涉及到若干个requires-grad为true的张量进行运算,在这种情况下,Pytorch会计算整个计算图上的损失的导数,并把这些结果累加到grad属性中。多次调用backward()会导致梯度…

京东体育用品销售数据分析与可视化系统

京东体育用品销售数据分析与可视化系统 前言数据爬取模块1. 数据爬取2. 数据处理3. 数据存储 数据可视化模块1. 数据查看2. 店铺商品数量排行3. 整体好评率4. 不同品牌市场占比5. 品牌差评率排名6. 品牌价格排名7. 品牌评论数量分布 创新点 前言 在体育用品行业,了…

[Verilog] Verilog 数据类型

主页: 元存储博客 文章目录 前言1. bit 类型2. reg 类型3 wire类型4 integer类型5 real类型6 parameter类型7 enum类型8 array 类型9 向量类型10 time 类型11 string 类型 前言 在 Verilog 中,有几种不同的数据类型可以用于声明和操作变量。 在 Verilo…

系列十、存储引擎

一、存储引擎 1.1、概述 大家可能没有听说过存储引擎,但是一定听过引擎这个词,引擎就是发动机,是一个机器的核心组件。 比如,对于舰载机、直升机、火箭来说,它们都有各自的引擎,引擎是它们最为核心的组件。…

攻防世界--easyphp

浅学一下吧~ 发开题目是这样的 最烦的就是代码审计&#xff0c;还是看得少 多审计两篇代码就好了&#xff08;还是因为自己会的不多&#xff09; <?php highlight_file(__FILE__);//将当前文件的源代码进行高亮显示 $key1 0;//将变量$key1的值初始化为0 $key2 0;//将变量…

第一个程序(STM32F103点灯)

点亮LED 看原理图确定控制LED的引脚看主芯片手册确定如何设置/控制引脚写程序 LED有很多种&#xff0c;像插脚的&#xff0c;贴片的。 它们长得完全不一样&#xff0c;因此我们在原理图中将它抽象出来。 嵌入式系统中&#xff0c;一个LED的电阻非常低&#xff0c;I U/R&…

12.5,12.15AVL树更新,定义,插入

定义平衡因子为右子树高度减去左子树高度 AVL树插入分为两步&#xff1a; 按照二叉搜索树的方式插入新节点调整平衡因子 对于平衡因子的调整&#xff0c;在插入之前&#xff0c;所有节点的平衡因子分为三种情况&#xff1a;0&#xff0c;1&#xff0c;-1插入后&#xff0c;新…

EasyExcel 简单导入

前边写过使用easyexcel进行简单、多sheet页的导出。今天周日利用空闲写一下对应简单的导入。 重点&#xff1a;springboot、easyExcel、桥接模式&#xff1b; 说明&#xff1a;本次使用实体类student&#xff1a;属性看前边章节内容&#xff1b; 1、公共导入service public …

ArkTS编译时遇到arkts-no-obj-literals-as-types错误【Bug已解决-鸿蒙】

文章目录 项目场景:问题描述原因分析:解决方案:解决方案1解决方案2此Bug解决方案总结项目场景: 在开发鸿蒙项目过程中,遇到了arkts-no-obj-literals-as-types,总结了自己和网上人的解决方案,故写下这篇文章。 遇到问题: rkTS编译时遇到arkts-no-obj-literals-as-type…

【数据结构】(二叉树)计算结点|叶子结点|高度|第K层结点数

目录 概念&#xff1a; 特殊的二叉树 二叉树的性质 二叉树的存储结构 二叉树的创建 二叉树遍历 前序&#xff1a; 中序&#xff1a; 后序&#xff1a; 计算结点数 计算叶子结点数 计算树的高度&#xff08;深度&#xff09; 计算第K层结点数 概念&#xff1a; 一颗…

PVE系列-防火墙的免费安静之旅IPfire

Ventoy一款引导盘可以引导各种启动盘安装盘的工具https://www.ventoy.net/cn/index.html 在它的兼容iso的列表 中发现了Ipfirehttps://wiki.ipfire.org/ &#xff0c;本来用着openwrt也挺好&#xff0c;忍不住的虚拟机尝了尝鲜&#xff0c;发现的功能有2&#xff0c; 安全吧&a…

虚拟化之安全虚拟化

虚拟化首次引入是在Armv7-A架构中。那时&#xff0c;Hyp模式&#xff08;在AArch32中相当于EL2&#xff09;仅在非安全状态下可用。当Armv8.4-A引入时&#xff0c;添加了对安全状态下EL2的支持作为一个可选特性。 当处理器支持安全EL2时&#xff0c;需要使用SCR_EL3.EEL2位从E…

linux文件打包和压缩

7.2 文件打包和压缩 7.2.1 tar tar&#xff08;英文全拼&#xff1a;tape archive &#xff09;命令用于备份文件。 ​ tar 是用来建立&#xff0c;还原备份文件的工具程序&#xff0c;它可以加入&#xff0c;解开备份文件内的文件。 ​ tar命令是Unix/Linux系统中备给文件的…

NetSuite 智能商品推荐(Intelligent Recommendations)

本周在一个客户环境里&#xff0c;发现销售订单中有个Intelligent Recommendations的按钮。 本以为是客户新装的一个SuiteApp&#xff0c;仔细研究一下发现还不是。是个我们忽略的一个内建新功能。 Intelligent Recommendations&#xff0c;是2023.1版本推出的新功能。主要目的…

Qt 表格相关API

1.文本框 限制输入数据类型&#xff08;如仅英文&#xff09; QValidator* validator new QRegExpValidator(QRegExp("[a-zA-Z]"), lineText); // 创建正则表达式验证器lineText->setValidator(validator); // 将验证器设置给 QLineEdit QLineEdit&#xff1a;单…

(2023|ICLR,文本反演,LDM,伪词)一个词描述一张图像:使用文本反演个性化文本到图像的生成

An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion 公纵号&#xff1a;EDPJ&#xff08;添加 VX&#xff1a;CV_EDPJ 或直接进 Q 交流群&#xff1a;922230617 获取资料&#xff09; 目录 0. 摘要 1. 简介 2. 相关工作 3. 方…

Vue 2.x跟Vue 3.x有啥区别

大家好&#xff0c;我是咕噜-凯撒&#xff0c;我们都知道Vue 是一款比较流行的前端JavaScript 框架&#xff0c;在他演进的过程中出现了2个主要版本&#xff0c;Vue 2.x 和 Vue 3.x。这两个版本之间有很多的区别&#xff0c;下面我以自己的理解介绍一下他们之间的区别。 响应性…