机器学习基础概念

1.机器学习定义

2.机器学习工作流程

        (1)数据集

                ①一行数据:一个样本

                ②一列数据:一个特征

                ③目标值(标签值):有些数据集有目标值,有些数据集没有。因此数据类型由特征值+目标值构成或仅由特征值构成。

        (2)数据分割:机器学习的数据集一般划分为训练数据(用于构建模型)和测试数据(用于模型评估)两个部分,划分比例一般为7:3、4:1、3:1。

        (3)数据基本处理:对数据的缺失值、异常值进行处理

        (4)特征工程(Feature Engineering):处理数据使特征在机器学习上更好发挥作用的过程

                注:业界流传,数据和特征决定机器学习的上限,而模型和算法只是逼近这个上限

                ①特征提取:将任意数据(如文本或图像)转为可用于机器学习的数字特征

                ②特征预处理:通过一些转换函数将特征数据转成更适合算法模型的特征数据

                ③特征降维:在某些限定条件下,降低随机变量(特征)个数得到一组不相关的主变量

        (5)机器学习:选择合适的算法对模型进行训练

        (6)模型评估:对训练好的模型进行评估

3.机器学习算法分类(根据数据集组成不同进行划分)

        (1)监督学习:输入数据由特征值和目标值组成,函数的输出(目标值)可以是一个连续的值(回归)或是有限个离散值(分类)

                ①回归问题:预测房价,根据样本集拟合出一条连续曲线

                ②分类问题:根据肿瘤特征预测是良性还是恶性

        (2)无监督学习:输入数据由特征值组成,输入的数据没有被标记也没有确定结果,样本数据类别未知,需根据样本间的相似性对样本集进行类别划分

        (3)半监督学习:训练集同时包含有标记(有目标值)数据和未标记(没有目标值)数据

        (4)强化学习:实质是做决策问题,即自动进行决策,并且可以做连续决策,强化学习的目标就是获得最多的累计奖励

4.模型评估

        (1)分类模型评估:准确率(预测正确的数占样本总数的比例)、精确率、召回率、F1-score、AUC指标

        (2)回归模型评估:均方根误差RMSE(p_i为预测值,a_i为实际值)、相对平方误差RSE、平均绝对误差MAE、相对绝对误差RAE

        (3)模型表现效果:过拟合(所建的机器学习模型在训练样本中表现得过于优越,导致在测试数据集中表现不佳)、欠拟合(模型学习太粗糙,连训练集中样本数据的特征关系都没有学出来)

5.深度学习:也称深度结构学习、层次学习、深度机器学习,是一类算法集合,是机器学习的一个分支,在会话识别、图像识别和对象侦测等领域表现出惊人的准确性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/38893.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java实现图书管理系统

一、框架 1. 创建类 用户:管理员AdminUser 普通用户NormalUser 继承抽象类User 书:书Book 书架BookList 操作对象:书Book 2. 知识点 主要涉及的知识点:数据类型 变量 if for 数组 方法 类和对象 封装继承多态 抽象类和接口 …

Linux运维之需掌握的基本Linux命令

前言:本博客仅作记录学习使用,部分图片出自网络,如有侵犯您的权益,请联系删除 目录 一、SHELL 二、执行命令 三、常用系统工作命令 四、系统状态检测命令 五、查找定位文件命令 六、文本文件编辑命令 七、文件目录管理命令…

【JavaWeb】登录校验-会话技术(一)Cookie与Session

登录校验 实现登陆后才能访问后端系统页面,不登陆则跳转登陆页面进行登陆。 首先我们在宏观上先有一个认知: HTTP协议是无状态协议。即每一次请求都是独立的,下一次请求并不会携带上一次请求的数据。 因此当我们通过浏览器访问登录后&#…

Simulink 模型生成 C 代码(一):使用 Embedded Coder 快速向导生成代码

以matlab自带的示例模型RollAxisAutopilot为例进行讲解。RollAxisAutopilot为飞机自动驾驶控制系统模型。 使用快速向导工具生成代码 通过键入以下命令打开模型 RollAxisAutopilot: openExample(RollAxisAutopilot); 如果 C 代码选项卡尚未打开,请在 …

【C++】宏定义

严格来说,这个题目起名为C是不合适的,因为宏定义是C语言的遗留特性。CleanCode并不推荐C中使用宏定义。我当时还在公司做过宏定义为什么应该被取代的报告。但是适当使用宏定义对代码是有好处的。坏处也有一些。 无参宏定义 最常见的一种宏定义&#xf…

新声创新20年:无线技术给助听器插上“娱乐”的翅膀

听力损失并非现代人的专利,古代人也会有听力损失。助听器距今发展已经有二百多年了,从当初单纯的声音放大器到如今的全数字时代助听器,助听器发生了翻天覆地的变化,现代助听器除了助听功能,还具有看电视,听…

C++ 和C#的差别

首先把眼睛瞪大,然后憋住一口气,读下去: 1、CPP 就是C plus plus的缩写,中国大陆的程序员圈子中通常被读做"C加加",而西方的程序员通常读做"C plus plus",它是一种使用非常广泛的计算…

Maya崩溃闪退常见原因及解决方案

Autodesk Maya 是一款功能强大的 3D 计算机图形程序,被电影、游戏和建筑等各个领域的设计师广泛使用。然而,Maya 就像任何其他软件一样可能会发生崩溃问题。在前文中,小编给大家介绍了3ds Max使用V-Ray渲染时的崩溃闪退解决方案: …

后端之路第三站(Mybatis)——JDBC跟Mybatis、lombok

一、什么是JDBC JDBC就是sun公司研发的一套通过java来操控数据库的工具,对应不同的数据库系统有不同的JDBC,而他们统称【驱动】,这就是上一篇我们提到创建Mybatis项目时要引入的依赖、以及连接数据库四要素里的第一要素。 JDBC有自己一套原始…

Elasticsearch:Painless scripting 语言(一)

Painless 是一种高性能、安全的脚本语言,专为 Elasticsearch 设计。你可以使用 Painless 在 Elasticsearch 支持脚本的任何地方安全地编写内联和存储脚本。 Painless 提供众多功能,这些功能围绕以下核心原则: 安全性:确保集群的…

近红外光谱脑功能成像(fNIRS):1.光学原理、变量选取与预处理

一、朗伯-比尔定律与修正的朗伯-比尔定律 朗伯-比尔定律 是一个描述光通过溶液时被吸收的规律。想象你有一杯有色液体,比如一杯红茶。当你用一束光照射这杯液体时,光的一部分会被液体吸收,导致透过液体的光变弱。朗伯-比尔定律告诉我们&#…

redis主从复制哨兵模式集群管理

主从复制: 主从复制是高可用Redis的基础,哨兵和集群都是在主从复制基础上实现高可用的。主从复制主要实现了数据的多机备份,以及对于读操作的负载均衡和简单的故障恢复。缺陷:故障恢复无法自动化;写操作无法负载均衡&…

HbuilderX:安卓打包证书.keystore生成与使用

前置条件 已安装jdk或配置好jre环境。 .keystore生成 打开cmd,切换到目标路径,输入以下命令, keytool -genkey -alias testalias -keyalg RSA -keysize 2048 -validity 36500 -keystore test.keystore 输入密钥库口令(要记住), 然后输入一系列信息, …

ui.perfetto.dev sql 查询某个事件范围内,某个事件的耗时并降序排列

ui.perfetto.dev sql 查询某个事件范围内,某个事件的耗时并降序排列 1.打开https://ui.perfetto.dev 导入Chrome Trace Json文件2.ParallelMLP.forward下的RowParallelLinear.forward3.点击Query(SQL),在输入框中输入以下内容,按CtrlEnter,显示查询结果4.点击Show timeline,点击…

2024年07年01日 Redis数据类型以及使用场景

String Hash List Set Sorted Set String,用的最多,对象序列化成json然后存储 1.对象缓存,单值缓存 2.分布式锁 Hash,不怎么用到 1.可缓存经常需要修改值的对象,可单独对对象某个属性进行修改 HMSET user {userI…

C++基础(三):C++入门(二)

上一篇博客我们正式进入C的学习,这一篇博客我们继续学习C入门的基础内容,一定要学好入门阶段的内容,这是后续学习C的基础,方便我们后续更加容易的理解C。 目录 一、内联函数 1.0 产生的原因 1.1 概念 1.2 特性 1.3 面试题 …

用随机森林算法进行的一次故障预测

本案例将带大家使用一份开源的S.M.A.R.T.数据集和机器学习中的随机森林算法,来训练一个硬盘故障预测模型,并测试效果。 实验目标 掌握使用机器学习方法训练模型的基本流程;掌握使用pandas做数据分析的基本方法;掌握使用scikit-l…

珠江电缆,承载您梦想的每一度电

在现代社会,电力无处不在,它不仅是经济发展的动力,更是每个人生活中不可或缺的能量来源。而在这个电力驱动的世界里,有一家企业默默地承载着千家万户的梦想,它就是珠江电缆。 连接梦想的每一度电 珠江电缆成立于2001…

绝区零国际服下载 一键下载绝区零国际服教程

绝区零是一款米哈游倾情打造的全新都市幻想动作角色扮演游戏。在游戏中,我们将扮演一名绳匠,这是为出于各种原因需要进入危险空洞的人提供指引的专业人士。您将与独特的角色一起踏上冒险之旅,携手探索空洞,对战强大敌人&#xff0…

Steam夏促怎么注册 Steam夏促账号注册教程

随着夏日的炙热渐渐充斥着每一个角落,Steam平台也赶来添热闹,推出了一系列让人眼前一亮的夏季促销活动。如果你也是游戏爱好者,我们肯定不能错过这次的steam夏促。正直本次夏日促销有着很多的游戏迎来史低和新史低,有各种各样的游…