[机器学习]-1 概要介绍

1 理论来源

机器学习理论是参照人类学习链条:DIKIW模型(数据-信息-知识-智能-智慧)

   -数据: 原始的、未经处理的事实和数字。

   -信息: 经过处理、整理和结构化的数据,具有意义和上下文。

   -知识: 由信息构建而成的模式和规则。

   -智能: 运用知识进行决策和解决问题的能力。

   -智慧: 智能的高级形式,涉及深刻理解和伦理考虑。

目前火热的AGI,目标不仅限于DIKIW转化,还需要在广泛的领域内展现出通用智能的能力,能够自主学习、推理和决策,甚至在情感和社会互动中表现出智慧:AGI必须能够处理从原始数据到智能的所有转换过程,涵盖数据收集、信息提取、知识获取和应用;超越智能,智慧层次涉及道德判断、长期规划和人类社会的复杂互动,能够在伦理和道德框架内进行决策;AGI系统应该具有自我反省和自我改进的能力,这是使其不断进化和适应新情况的关键。

2 定义和概念

机器学习是一门利用算法和统计模型来使计算机系统通过数据进行学习的学科,其目标是让计算机在没有明确编程的情况下,自动改进其性能,其核心任务是从数据中学习模型,这些模型可以用于预测、分类、聚类等任务。机器学习的本质就是回归(连续性)和分类(离散性)的问题。

基础概念:

-数据集(Dataset):用于训练和评估模型的数据集合。通常分为训练集、验证集和测试集。

-特征(Features):用于描述数据的属性或变量。

-标签(Labels):监督学习中,用于指导模型学习的目标值。

-损失函数(Loss Function):衡量模型预测结果与实际结果之间误差的函数。

-优化算法(Optimization Algorithm):用于调整模型参数以最小化损失函数的算法,例如梯度下降。

3 算法分类

1)监督学习(Supervised Learning)

监督学习利用已标记的数据集训练模型,以对新数据进行预测或分类,这种方法通过提供输入数据及其对应的正确输出来训练模型,使其能够学会映射输入到输出的关系。应用实例:图像分类、语音识别、股票价格预测。

典型算法:

线性回归

逻辑回归

支持向量机(SVM)

决策树

随机森林

k近邻算法(k-Nearest Neighbors, k-NN)

神经网络

2)无监督学习(Unsupervised Learning)

无监督学习使用未标记的数据集进行训练,以发现数据的内在结构和模式,这种方法不需要预先标记的数据,模型会自行找出数据的分布和特征。应用实例:客户细分、图像压缩、异常检测。

典型算法:

聚类(Clustering),如k-means、层次聚类

主成分分析(Principal Component Analysis, PCA)

独立成分分析(Independent Component Analysis, ICA)

自组织映射(Self-Organizing Maps, SOM)

高斯混合模型(Gaussian Mixture Model, GMM)

3)半监督学习(Semi-Supervised Learning)

半监督学习利用少量标记数据和大量未标记数据进行训练,它结合了监督学习和无监督学习的优点,在标记数据有限的情况下提高模型的性能。应用实例:文本分类、图像标注、生物信息学。

典型算法:

半监督支持向量机

图形推理算法

自编码器

4)强化学习

强化学习通过与环境的互动,学习采取何种行动以最大化累计奖励,适用于需要连续决策和反馈的场景。应用实例:游戏AI、机器人控制、自动驾驶。

典型算法:

Q学习(Q-Learning)

深度Q网络(DQN)

策略梯度方法

近端策略优化

5)深度学习

深度学习是一种基于人工神经网络的机器学习方法,特别是包含多个层的深度神经网络,在处理大规模数据和复杂模式识别任务中表现优异。应用实例:图像识别、自然语言处理、自动翻译。

典型算法:

卷积神经网络(CNN)

循环神经网络(RNN)

长短期记忆网络(LSTM)

生成对抗网络(GAN)

变分自编码器(VAE)

Transformer,最初是为了解决序列到序列任务而提出,由编码器和解码器组成,通过自注意力机制和并行计算能力,在捕捉长距离依赖和处理大规模数据方面表现出色。

4 评估指标

评估指标是用于衡量模型性能的关键工具,帮助我们理解和比较模型的预测能力。

1)分类问题的评估指标

1.1)准确率(Accuracy):正确预测的比例,即所有正确预测的样本数除以总样本数。

{Accuracy} = {TP + TN}/{TP + TN + FP + FN},适用于类别均衡的数据集,但在类别不平衡的数据集上可能会产生误导。

1.2)精度(Precision):预测为正类样本中实际为正类的比例。

{Precision} = {TP}\{TP + FP},当关注减少假阳性时(如垃圾邮件过滤)。

1.3)召回率(Recall):实际为正类样本中被正确预测为正类的比例。

{Recall} = {TP}\{TP + FN},当关注减少假阴性时(如疾病检测)。

1.4)F1分数:精度和召回率的调和平均值。

{F1 Score} = 2 *{{Precision} *{Recall}/{Precision + Recall}} ,当需要平衡精度和召回率时,特别适用于不平衡数据集。

1.5)AUC-ROC(Area Under the Receiver Operating Characteristic Curve):ROC曲线下面积,衡量分类模型的整体表现,绘制了不同阈值下的召回率和假阳性率。AUC-ROC值越接近1,模型性能越好;0.5表示模型性能与随机猜测相当。

2)回归问题的评估指标

2.1)均方误差MSE:预测值与实际值之间的平均平方差,强调较大误差。

2.2)均方根误差:MSE的平方根,更直观地反映预测误差的实际大小。

2.3)平均绝对误差:预测值与实际值之间的平均绝对差。

2.4)R平方:解释了模型所能解释的目标变量的方差比例,衡量回归模型的拟合优度。

5 主要步骤

1)数据收集:获取足够的、有代表性的数据。

2)数据预处理:清洗、转换和规范化数据,处理缺失值、异常值等问题。

3)特征工程:选择、提取和创建有意义的特征。

4)模型选择:选择适合于具体任务和数据特点的模型。

5)模型训练:使用训练集训练模型,调整模型参数以最小化损失函数。

6)模型评估:使用验证集评估模型性能,选择最佳模型。

7)模型部署:将模型应用于实际场景,进行预测或决策。

8)模型监控与更新:在实际应用中监控模型性能,定期更新和改进模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/36317.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Pytest--安装与入门

pytest是一个能够简化成测试系统构建、方便测试规模扩展的框架,它让测试变得更具表现力和可读性–模版代码不再是必需的。只需要几分钟的时间,就可以对你的应用开始一个简单的单元测试或者复杂的功能测试。 1. 安装pytest pip install -U pytest检查版…

使用Java编写网络爬虫

使用Java编写网络爬虫 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿! 网络爬虫是一种自动化程序,用于从互联网上获取信息并收集数据。在Java中编写…

基于Java影院管理系统设计和实现(源码+LW+调试文档+讲解等)

💗博主介绍:✌全网粉丝10W,CSDN作者、博客专家、全栈领域优质创作者,博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 🌟文末获取源码数据库🌟感兴趣的可以先收藏起来,还…

centos7 samba服务器配置

centos7 samba服务器配置 以下是一个基本的Samba服务器配置示例,用于在CentOS 7上设置一个简单的文件共享: 安装Samba服务: sudo yum install samba samba-client samba-common 备份Samba默认配置文件: sudo cp /etc/samba/smb…

树莓派4B学习笔记14:Python多线程编程_线程间的同步通信_(锁‘threading.Lock’)

今日继续学习树莓派4B 4G:(Raspberry Pi,简称RPi或RasPi) 本人所用树莓派4B 装载的系统与版本如下: 版本可用命令 (lsb_release -a) 查询: Opencv 版本是4.5.1: 今日学习树莓派与Python的多进程编程_线程间同步通信 文…

Hbase面试题总结

一、介绍下HBase架构 --HMaster HBase集群的主节点,负责管理和协调整个集群的操作。它处理元数据和表的分区信息,控制RegionServer的负载均衡和故障恢复。--RegionServer HBase集群中的工作节点,负责存储和处理数据。每个RegionServer管理若…

axios之CancelToken取消请求

从 v0.22.0 开始,Axios 支持以 fetch API 方式—— AbortController 取消请求 此 API 从 v0.22.0 开始已被弃用,不应在新项目中使用 官网链接 1. 背景 最近项目中遇到一个场景,当连续触发一个请求时,如果是同一个接口&#xf…

【Redis-04 补充】Redis事务

【Redis-04 补充】Redis事务 1. 事务冲突的问题1.1 举例1.2 悲观锁1.3 乐观锁1.4 Redis中的乐观锁 WATCH key [key …]1.5 Redis事务三特性 2. 秒杀案例2.1 相关代码2.2 模拟并发工具httpd-tools 3. 设计一个秒杀系统3.1 预热库存3.2 秒杀请求3.3 生成订单3.4 限流与防刷 4. 总…

【代码随想录】【算法训练营】【第52天】 [647]回文子串 [516]最长回文子序列

前言 思路及算法思维,指路 代码随想录。 题目来自 LeetCode。 day 52,周五,开始补作业了~ 题目详情 [647] 回文子串 题目描述 647 回文子串 解题思路 前提:寻找回文子串,子串意味着元素连续 思路:…

JavaScript数据类型转换

目录 任务描述 相关知识 字符串转整数 字符串转小数 数字转字符串 布尔型与其他类型的相互转换 隐式转换 编程要求 任务描述 数据类型转换是开发过程中最常碰到的问题之一。 本关任务:函数mainJs()有三个字符串类型的参数a、b和c,你需要分别把…

Android 10.0 关于定制自适应AdaptiveIconDrawable类型的动态时钟图标的功能实现系列一

1.前言 在10.0的系统rom定制化开发中,在关于定制动态时钟图标中,原系统是不支持动态时钟图标的功能,所以就需要从新 定制动态时钟图标关于自适应AdaptiveIconDrawable类型的样式,就是可以支持当改变系统图标样式变化时,动态时钟 图标的背景图形也跟着改变,所以接下来就来…

jupyter中使用使用事件循环

1、背景 应该在jupyter中遇到过这种问题: “RuntimeError: This event loop is already running”. 这表示,你在jupyter中使用事件循环会出现无法执行,因为他不允许嵌套,所以可以用下面方式解决。 2、方法 By design asyncio …

低代码+定制:优化项目管理的新方案

引言 在当今快速变化的商业环境中,企业需要更加灵活、高效的项目管理工具。低代码平台作为一种新的开发方式,因其能够快速构建应用程序而受到广泛关注。与此同时,软件定制开发仍然是满足特定复杂需求的重要手段。在项目管理中,低代…

【RT摩拳擦掌】基于RT106L/S语音识别的百度云控制系统

【RT摩拳擦掌】基于RT106L/S语音识别的百度云控制系统 一 文档简介二 平台构建2.1 使用平台2.2 百度智能云2.2.1 物联网核心套件2.2.2 在线语音合成 2.3 playback语音数据准备与烧录2.4 开机语音准备与添加2.5 唤醒词识别词命令准备与添加 三 代码准备3.1 sln-local/2-iot 代码…

Caused by SSLError(SSLError(1, ‘[SSL: BAD_ECPOINT] bad ecpoint (_ssl.c:852)‘)

追根溯源: python在访问https请求时,在没有证书的情况下需要设置忽略证书,但有时候证书的忽略会引发其他异常,如: requests.exceptions.SSLError: HTTPSConnectionPool(host127.0.0.1, port443): Max retries exceed…

【开发环境】MacBook M2安装git并拉取gitlab项目,解决gitlab出现Access Token使用无效的方法

文章目录 安装Homebrew安装git打开IDEA配置git打开IDEA拉取项目 安装Homebrew /bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"在iTerm等命令行工具打开后,输入上面的命令 之后根据中文提示完成Homebrew的下载…

使用StringStream处理字符串

使用StringStream处理字符串 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿!今天我们将深入探讨在Java中如何使用StringStream处理字符串,以及它的应…

高考填报志愿,是选就业前景?还是选自己的兴趣爱好?

一、 当前的就业形式 受yi情影响,全国的就业处于下滑趋势,互联网和实体企业呈现疲软势态,很多企业不得不裁员。大学毕业生人数几乎每年都会上涨,带来的是僧多粥少的就业状态。 考得好不如报得好 就业环境如此严峻的形势下&#…

itext生成pdf文件demo示例

需求 在PDF文件中植入一些信息(pdf模版) 制作模版 可以看到下面红色箭头标注位置,这都是我们需要动态写入数据的表单域,可以使用wps等工具来制作 点击编辑表单,可以给对应空间添加表单域,表单域名称是ke…

网络专线学习

准备工作: https://help.aliyun.com/zh/express-connect/user-guide/before-you-start?spma2c4g.11186623.0.0.593f6746C17guR 专线接入流程 https://help.aliyun.com/zh/express-connect/user-guide/process-of-creating-a-dedicated-physical-connection?spma2c…