训练自己的ai模型(一)学习笔记与项目实操

ai模型大火,作为普通人,我也想做个自己的ai模型

训练自己的ai模型通常需要接下来的的六步
一、
收集和准备数据集:需要收集和准备一个数据集,其中包含想要训练模型的数据。这可能需要一些数据清理和预处理,以确保数据集的质量和一致性。
二、
选择和设计模型:需要选择适合的数据集的模型,并设计其架构。这可能需要一些领域知识和实验来确定最佳模型。
三、
训练模型:使用数据集和设计的模型,需要训练模型。这可能需要一些时间和计算资源,具体取决于数据集和模型的大小和复杂性。
四、
评估模型:一旦模型训练完成,需要评估其性能。这可以通过使用测试数据集来完成,以确定模型的准确性和其他性能指标。
五、
调整和优化模型:根据评估结果,可能需要对模型进行调整和优化,以提高其性能。
六、
部署模型:一旦模型经过训练和优化,可以将其部署到生产环境中,以进行实际预测和推理。

一、收集和准备数据集

收集数据:需要确定想要训练模型的数据类型,并找到相应的数据源。这可能需要一些领域知识和搜索技巧,以找到合适的数据源。

数据清理和预处理:一旦收集到数据,需要对其进行清理和预处理,以确保数据集的质量和一致性。这可能包括去除重复项、处理缺失值、标准化数据格式等。

数据划分:为了训练和评估模型,需要将数据集划分为训练集、验证集和测试集。训练集用于训练模型,验证集用于调整模型参数和防止过拟合,测试集用于评估模型性能。

python实现

#'path/to/data.csv'是数据文件路径,
#'column_name'是要标准化的数据列名import pandas as pd# 读取CSV文件
data = pd.read_csv('path/to/data.csv')# 去除重复项
data = data.drop_duplicates()# 处理缺失值
data = data.fillna(0)# 标准化数据格式
data['column_name'] = (data['column_name'] - data['column_name'].mean()) / data['column_name'].std()# 划分数据集
train_data = data[:800]
val_data = data[800:900]
test_data = data[900:]

java实现相同效果

import java.io.FileReader;
import java.io.IOException;
import java.util.HashSet;
import java.util.List;
import java.util.Set;
import com.opencsv.CSVReader;
import com.opencsv.exceptions.CsvValidationException;public class CSVReaderExample {public static void main(String[] args) throws IOException, CsvValidationException {// 读取CSV文件CSVReader reader = new CSVReader(new FileReader("path/to/data.csv"));List<String[]> data = reader.readAll();// 去除重复项Set<String[]> dataSet = new HashSet<>(data);// 处理缺失值for (String[] row : dataSet) {for (int i = 0; i < row.length; i++) {if (row[i] == null || row[i].isEmpty()) {row[i] = "0";}}}// 标准化数据格式for (String[] row : dataSet) {for (int i = 0; i < row.length; i++) {row[i] = row[i].trim().toLowerCase();}}// 划分数据集List<String[]> trainData = dataSet.subList(0, 800);List<String[]> valData = dataSet.subList(800, 900);List<String[]> testData = dataSet.subList(900, dataSet.size());}
}

CSV文件怎么来

可以使用数据库管理工具将数据导出为CSV文件。
大多数数据库管理工具都支持将查询结果导出为CSV格式。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/644685.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Optional的使用(代替if判断是否为空)

Optional 前言 我的使用 package yimeng;import com.ruoyi.RuoYiApplication; import com.ruoyi.common.core.domain.entity.SysUser; import org.junit.jupiter.api.Test; import org.springframework.boot.test.context.SpringBootTest; import java.util.*;SpringBootTes…

C语言-算法-拓扑排序

【模板】拓扑排序 / 家谱树 题目描述 有个人的家族很大&#xff0c;辈分关系很混乱&#xff0c;请你帮整理一下这种关系。给出每个人的后代的信息。输出一个序列&#xff0c;使得每个人的后辈都比那个人后列出。 输入格式 第 1 1 1 行一个整数 N N N&#xff08; 1 ≤ N …

OpenCV第 2 课 OpenCV 环境搭建

文章目录 第 2 课 OpenCV 环境搭建1.安装 Numpy2.从 Ubuntu 存储库安装 OpenCV3.验证 OpenCV 安装 第 2 课 OpenCV 环境搭建 1.安装 Numpy 每一张图像都有很多个像素点&#xff0c;这也导致了程序中会涉及大量的数组处理。Numpy 是一个 Python 的拓展库&#xff0c;它对多维数…

仿真机器人-深度学习CV和激光雷达感知(项目2)day7【ROS关键组件】

文章目录 前言Launch 文件了解 XML 文件Launch 文件作用Launch 文件常用标签实例--作业1的 Launch 文件TF Tree介绍发布坐标变换--海龟例程获取坐标变换--海龟自动跟随例程rqt_工作箱前言 💫你好,我是辰chen,本文旨在准备考研复试或就业 💫本文内容是我为复试准备的第二个…

LeetCode 每日一题 Day 51 - 53

670. 最大交换 给定一个非负整数&#xff0c;你至多可以交换一次数字中的任意两位。返回你能得到的最大值。 示例 1 : 输入: 2736 输出: 7236 解释: 交换数字2和数字7。 示例 2 : 输入: 9973 输出: 9973 解释: 不需要交换。 注意: 给定数字的范围是 [0, 108] 模拟&#xff1a…

mysql临时表简述

概述 业务中经常会对一些表进行聚合组装信息&#xff0c;然后筛选&#xff0c;有些表比较数据量大的时候&#xff0c;会对拖慢查询&#xff1b; 常用的mybatis的分页查询&#xff0c;在查询时会先count一下所有数据&#xff0c;然后再limit分页&#xff0c;即使分页也会有深度…

数据分析-Pandas如何用图把数据展示出来

数据分析-Pandas如何用图把数据展示出来 俗话说&#xff0c;一图胜千语&#xff0c;对人类而言一串数据很难立即洞察出什么&#xff0c;但如果展示图就能一眼看出来门道。数据整理后&#xff0c;如何画图&#xff0c;画出好的图在数据分析中成为关键的一环。 数据表&#xff…

「JavaSE」抽象类接口2

&#x1f387;个人主页&#xff1a;Ice_Sugar_7 &#x1f387;所属专栏&#xff1a;快来卷Java啦 &#x1f387;欢迎点赞收藏加关注哦&#xff01; 抽象类&接口2 &#x1f349;接口间的继承&#x1f349;接口的应用&#x1f349;总结 &#x1f349;接口间的继承 和类的继承…

【每日一题】最长交替子数组

文章目录 Tag题目来源解题思路方法一&#xff1a;双层循环方法二&#xff1a;单层循环 写在最后 Tag 【双层循环】【单层循环】【数组】【2024-01-23】 题目来源 2765. 最长交替子数组 解题思路 两个方法&#xff0c;一个是双层循环&#xff0c;一个是单层循环。 方法一&am…

Structured Streaming基础--学习笔记

Structured streaming介绍 spark进行实时数据流计算时有两个工具: Spark Streaming:编写rdd代码处理数据流,可以解决非结构化的流式数据Structured Streaming:编写df代码处理数据流,可以解决结构化和半结构化的流式数据1,数据相关介绍 有界数据和无界数据 ①有界数据: …

yarn集群HDFS datanode无法启动问题排查

一、问题场景 hdfs无法访问&#xff0c;通过jps命令查看进程&#xff0c;发现namenode启动成功&#xff0c;但是所有datanode都没有启动&#xff0c;重启集群&#xff08;start-dfs.sh&#xff09;后仍然一样 二、原因分析 先看下启动的日志有无报错。打开Hadoop的日志目录 …

线程池中线程数量与队列大小参数的如何设置实践-基于QPS的计算公式

目录 概要 传统方式? 线程池理解? 基于QPS的设置思路? 总结? 概要 线程池是个既靠谱但又陌生的家伙, 像管家一样, 会踏踏实实的把你交代的任务完成, 但很死板, 没有自动安排人的能力, 需要你给它配好人手(线程实例)和承载容量(队列大小), 这些参数关系影响业务服务整体…

rabbitmq基础-java-5、Topic交换机

1、简介 Topic类型的Exchange与Direct相比&#xff0c;都是可以根据RoutingKey把消息路由到不同的队列。 只不过Topic类型Exchange可以让队列在绑定BindingKey 的时候使用通配符&#xff01; BindingKey 一般都是有一个或多个单词组成&#xff0c;多个单词之间以.分割&#x…

常用电机的分类简介

常用电机的分类简介 文章目录 常用电机的分类简介前言有刷直流电机步进电机BLDC/PMSM重点讲讲前言 电机可以将电能转换成机械能,在现代社会中广泛地应用在各种设备和系统中,家用电器,工业生产设备,交通工具,几乎随处可见。 电机通常由两个主要部分组成:定子和转子; 定…

数据库选型其实技术维度不太重要

看到这个标题可能觉得我在乱说&#xff0c;数据库选型要从多个角度和维度看来&#xff0c;还有各种POC。很多供应商朋友告诉我POC是一个漫长的过程&#xff0c;非常痛苦&#xff0c;要解决各种技术问题。怎么能说和技术无关呢&#xff1f; 因为从我的经历和周围听说的经验来说…

使用Python的pygame库实现迷宫游戏

使用Python的pygame库实现迷宫游戏 关于Python中pygame游戏模块的安装使用可见 https://blog.csdn.net/cnds123/article/details/119514520 先给出效果图&#xff1a; 这个游戏能自动生成迷宫布局。 在这个游戏中&#xff0c;玩家将使用键盘箭头键来移动&#xff0c;并且目标…

深入了解达梦数据库的增删查改操作:从入门到精通

目录 前言&#xff1a; 一.达梦数据库的增删改查 1.创建数据库 2.插入数据 3.查看数据 4.删除数据 5.数据 前言&#xff1a; 在当今数字化的时代&#xff0c;数据库已经成为企业和组织的核心资产&#xff0c;是实现高效数据处理、存储和管理的重要工具。达梦数据库&…

测试用例评审流程

1:评审的过程 A:开始前做好如下准备 1、确定需要评审的原因 2、确定进行评审的时机 3、确定参与评审人员 4、明确评审的内容 5、确定评审结束标准 6、提前至少一天将需要评审的内容以邮件的形式发送给评审会议相关人员。并注明详审时间、地点及偿参与人员等。 7、 在邮件中提醒…

科创板交易规则科普

一、交易时间&#xff1a; 交易日的上午9:30-11:30&#xff0c;下午13:00-15:00&#xff0c;其中9:15-9&#xff1a;25是开盘价公布以及竞价的时间&#xff0c;15:05-15:30是盘后固定价格交易时间。 二、买卖原则&#xff1a; 科创板实行T1交易&#xff0c;按照市场实时价格…

Linux运维实战:CentOS7.6操作系统(Shell脚本基础)

文章目录 第19章 Shell脚本基础19.1 Shell基本语法19.1.1 什么是Shell19.1.2 编程语言分类1.低级语言2.高级语言19.1.3 什么是Shell脚本19.2 Shell变量及运用19.2.1 Shell变量1.变量的设置规则如下2.按照变量的作用可以分成以下4类3.按照变量的作用域可以把变量分成两类:…