【人工智能Ⅰ】6-机器学习之分类

【人工智能Ⅰ】6-机器学习之分类

6-1 机器学习在人工智能中的地位

学习能力是智能的本质

人工智能 => 机器学习 => 深度学习

什么是机器学习?

baidu:多领域交叉学科(做什么)

wiki:the study of algorithms and mathematical models(怎么做)

人工智能的核心是使计算机具有智能的根本途径

大数据建模分析的理论和方法

依赖的理论和方法:统计学、机器学习、数据挖掘、深度学习

统计学:人工学习特征,人工学习规律

机器学习:人工学习特征,自动学习规律

深度学习:自动学习特征,自动学习规律

实现基础:数据库、数据仓库、分布式存储、并行计算、流式计算、GPU加速…

机器学习历史

神经网络发展3起2落

6-2 机器学习的一般过程

历史数据:训练模型

新数据:输入模型

结果:由模型预测

即,自动学习数据规律,解决分类/回归/聚类等问题

机器学习的实质:寻找函数

6-3 机器学习的基本流程

本质:通过构建数学模型,从数据中学习特征和规律,收获有用的知识

  • 特征:决定数据对象所蕴含的知识的关键属性
  • 规律:将特征表达为目标知识的一种模式,及其参数
  • 学习:从样本数据集计算得到规律的过程

6-4 学习方法分类

根据反馈的不同,学习技术分为:

  • 监督学习(学习有标签数据)(解决分类、回归)
  • 非监督学习(学习无标签数据)(解决聚类)
  • 半监督学习(学习有标签和无标签数据)(海量数据分类)
  • 强化学习(学习无标签但有反馈的数据)(策略推理)

半监督学习案例:图片分类

step1:用有标签图片训练分类器

step2:对无标签的数据进行分类,按照信任度从大到小排序

step3:将信任度最高的图片自动加入标识项

step4:重新训练分类器,重复step2—step4

6-5 完整的及其学习过程实施

1:数据预处理(数据清洗、数据集成、数据采样)

数据完整性、一致性、合法性等

数据采样均衡:(例如二分类问题的正负样本悬殊)

  • 过采样:随机复制少数类
  • 欠采样:随机消除占多数类的样本

数据集拆分:

  • 训练数据集(train):构建机器学习模型
  • 验证数据集(validation):辅助构建模型,评估模型并提供无偏估计,进而调整模型参数
  • 测试数据集(test):评估训练好的最终模型的性能

2:特征工程(特征编码、特征选择、特征降维、规范化)

特征降维:减小特征矩阵,降低计算量和训练时间

规范化:通过归一化等进行规范

3:数据建模(回归问题、分类问题、聚类问题、其他问题)

分类:决策树、贝叶斯、SVM、逻辑回归、集成学习

回归:线性回归、广义线性回归、岭回归、Lasso回归

聚类:K-means、高斯混合聚类、密度聚类、层次聚类

其他:隐马尔可夫模型、LDA主题模型、条件随机场、神经网络、深度学习

4:结果评估(拟合度量、准确率、召回率、F1值、PR曲线等)

  • 欠拟合:学习太少,划分太粗糙
  • 过拟合:学习太多,划分太细致

5:总结

有监督学习(有x有y,y是标签):分类、回归

无监督学习(有x无y,只有数据没有标签):聚类、降维

6-6 贝叶斯分类方法

条件概率
P ( A ∣ B ) = P ( A B ) / P ( B ) P(A|B)=P(AB)/P(B) P(AB)=P(AB)/P(B)
乘法定理
P ( A B C ) = P ( A ) ∗ P ( B ∣ A ) ∗ P ( C ∣ A B ) P(ABC)=P(A)*P(B|A)*P(C|AB) P(ABC)=P(A)P(BA)P(CAB)
全概率公式
P ( A ) = ∑ i = 1 n P ( B ) ∗ P ( A ∣ B i ) P(A)=∑_{i=1}^{n}P(B)*P(A|B_i) P(A)=i=1nP(B)P(ABi)
分解为若干个简单事件的概率计算问题,利用可加性求出最终的概率结果

贝叶斯公式
P ( B i ∣ A ) = P ( A ∣ B i ) ∗ P ( B i ) / ( ∑ j = 1 n P ( A ∣ B j ) ∗ P ( B j ) ) P(B_i|A)=P(A|B_i)*P(B_i)/(∑_{j=1}^nP(A|B_j)*P(B_j)) P(BiA)=P(ABi)P(Bi)/(j=1nP(ABj)P(Bj))
已知A事件确已发生,求原因B_j所导致的概率(从结果分析原因)

贝叶斯分类
P ( H ∣ X ) = P ( X ∣ H ) ∗ P ( H ) / P ( X ) P(H|X)=P(X|H)*P(H)/P(X) P(HX)=P(XH)P(H)/P(X)
P(H):先验概率

P(H|X):后验概率(某个特定条件下具体事物发生的概率)

6-7 朴素贝叶斯分类

工作过程

1:每个数据样本用1个n维特征向量X={x1,…,xn}表示,分别描述对n个属性A1~An样本的n个度量

2:假设有m个类C1~Cm,给定1个未知数据样本X,分类器将预测X属于具有最高后验概率的类

3:根据贝叶斯定理计算,其中P(X)对于所有类为常数,因此只需要计算分子;如果先验概率位置,则假设各类是等概率的

4:给定具有许多属性的样本数据集,为降低计算P(X|Ci)的开销,可做类条件独立的朴素假定,即属性值相互条件独立
P ( A B ) = P ( A ) ∗ P ( B ) P(AB)=P(A)*P(B) P(AB)=P(A)P(B)
5:对未知样本X分类,对每个类Ci,计算P(X|Ci)*P(Ci)

优点

  • 可运用于大量数据库,不亚于决策树、神经网络分类算法
  • 方法简单,分类准确率高,速度快,所需估计的参数少,对缺失数据不敏感

缺点

  • 需要知道先验概率
  • 相互独立实际上难以满足

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/141382.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenCV踩坑笔记使用笔记入门笔记整合SpringBoot笔记大全

springboot开启摄像头抓拍照片并上传实现&问题记录 NotAllowedErrot: 请求的媒体源不能使用,以下情况会返回该错误: 当前页面内容不安全,没有使用HTTPS没有通过用户授权NotFoundError: 没有找到指定的媒体通道NoReadableError: 访问硬件设备出错Ov…

计算机基础知识50

数据的增删改查(insert update delete select) # 用户列表的展示: # 把数据表中得用户数据都给查询出来展示在页面上 1. 查询 from app01 import models models.UserInfo.objects.all() # 查询所有的字段信息和数据 resmodels.UserInfo.objects.first() # 查询…

什么是状态机?

什么是状态机? 定义 我们先来给出状态机的基本定义。一句话: 状态机是有限状态自动机的简称,是现实事物运行规则抽象而成的一个数学模型。 先来解释什么是“状态”( State )。现实事物是有不同状态的,例…

Spark SQL 每年的1月1日算当年的第一个自然周, 给出日期,计算是本年的第几周

一、问题 按每年的1月1日算当年的第一个自然周 (遇到跨年也不管,如果1月1日是周三,那么到1月5号(周日)算是本年的第一个自然周, 如果按周一是一周的第一天) 计算是本年的第几周,那么 spark sql 如何写 ? 二、分析 …

P6入门:项目初始化9-项目详情之资源 Resource

前言 使用项目详细信息查看和编辑有关所选项目的详细信息,在项目创建完成后,初始化项目是一项非常重要的工作,涉及需要设置的内容包括项目名,ID,责任人,日历,预算,资金,分类码等等&…

npm install导致的OOM解决方案

文章目录 问题记录解决方法Linux重启排查方法 如何排查Linux自动重启的原因 问题记录 我在华为云服务器配置npm开发环境的时候, SSH远程连接一直掉线,无奈提了工单,被告知是NPM install导致的OOM问题。无语了,破NPM还有这个问题呢…

SOME/IP学习笔记2

1. SOME/IP 协议 SOME/IP目前支持UDP(用户传输协议)和TCP(传输控制协议), PS:UDP和TCP区别如下 TCP面向连接的,可靠的数据传输服务;UDP面向无连接的,尽最大努力的数据传输服务&…

详细推导MOSFET的跨导、小信号模型、输出阻抗、本征增益

目录 前言 什么是跨导 什么是小信号模型 什么是输入阻抗和输出阻抗 什么是MOS管的输出阻抗 什么是MOS管的本征增益 共源极放大电路的输入和输出阻抗 一些其它MOS拓扑电路的增益 负载为恒流源 负载为二极管 前言 相信很多人在学习集成电路领域的时候 都对MOS管的…

Python 框架学习 Django篇 (十) Redis 缓存

开发服务器系统的时候,程序的性能是至关重要的。经过我们前面框架的学习,得知一个请求的处理基本分为接受http请求、数据库处理、返回json数据,而这3个部分中就属链接数据库请求的响应速度最慢,因为数据库操作涉及到数据库服务处理…

怎么在uni-app中使用Vuex(第一篇)

Vuex简介 vuex的官方网址如下 https://vuex.vuejs.org/zh/ 阅读官网请带着几个问题去阅读: vuex用于什么场景?vuex能给我们带来什么好处?我们为什么要用vuex?vuex如何实现状态集中管理? Vuex用于哪些场景? 组件之…

[量化投资-学习笔记012]Python+TDengine从零开始搭建量化分析平台-策略回测

上一章节《MACD金死叉策略回测》中,对平安银行这只股票,按照金死叉策略进行了回测。 但通常我们的股票池中有许多股票,每完成一个交易策略都需要对整个股票池进行回测。 下面使用简单的轮询,对整个股票池进行回测。 # 计算单只…

动态规划-构建乘积数组

** 描述 给定一个数组 A[0,1,…,n-1] ,请构建一个数组 B[0,1,…,n-1] ,其中 B 的元素 B[i]A[0]A[1]…*A[i-1]A[i1]…*A[n-1](除 A[i] 以外的全部元素的的乘积)。程序中不能使用除法。(注意:规定 B[0] A[1] * A[2] * … * A[n-1…

.Net 6 Nacos日志控制台疯狂发输出+Log4Net日志过滤

我们的项目配置了Log4Net 作为日志输出工具,在引入Nacos后,控制台和日志里疯狂输出nacos心跳日志和其他相关信息,导致自己记录的信息被淹没了,找了很多解决办法: 1、提高nacos日志级别,然后再屏蔽相应级别…

RK3568平台开发系列讲解(Linux系统篇)Linux内核定时器详解

🚀返回专栏总目录 文章目录 一、系统节拍率二、内核定时器简介三、内核定时器API四、延时函数沉淀、分享、成长,让自己和他人都能有所收获!😄 📢 Linux 内核中有大量的函数需要时间管理,比如周期性的调度程序、延时程序、对于我们驱动编写者来说最常用的定时器。硬件定…

win11下安装odoo17(conda python11)

win11下安装odoo17 odoo17发行了,据说,UI做了很大改进,今天有空,体验一下 打开官方仓库: https://github.com/odoo/odoo 默认的版本已经变成17了 打开odoo/odoo/init.py,发现对python版本的要求也提高了…

GCN代码讲解

这里写的有点抽象,所以具体的可以参照下面代码块中的注释: def load_data(path"../data/cora/", dataset"cora"):"""Load citation network dataset (cora only for now)"""print(Loading {} datase…

软考 系统架构设计师系列知识点之云计算(1)

所属章节: 第11章. 未来信息综合技术 第6节. 云计算和大数据技术概述 大数据和云计算已成为IT领域的两种主流技术。“数据是重要资产”这一概念已成为大家的共识,众多公司争相分析、挖掘大数据背后的重要财富。同时学术界、产业界和政府都对云计算产生了…

Flink SQL --Flink 整合 hive

1、整合 # 1、将依赖包上传到flink的lib目录下 flink-sql-connector-hive-3.1.2_2.12-1.15.2.jar# 2、重启flink集群 yarn application -list yarn application -kill application_1699579932721_0003 yarn-session.sh -d# 3、重新进入sql命令行 sql-client.sh 2、Hive cata…

超越任务调度的极致:初探分布式定时任务 XXL-JOB 分片广播

XXL-JOB 是一个分布式任务调度平台&#xff0c;支持分片任务执行。 1. 依赖引入 在项目中引入 XXL-JOB 的相关依赖。通常&#xff0c;你需要在项目的 pom.xml 文件中添加如下依赖&#xff1a; <dependency><groupId>com.xuxueli</groupId><artifactId&…

字符设备驱动基础框架

一、总体框架 1.Linux字符设备驱动工作原理图 2.驱动使用端 3.驱动实现端 二、各部分详解 1.VFS层 1) inode结构体 在Unix/Linux操作系统中&#xff0c;每个文件都由一个inode&#xff08;索引节点&#xff09;来索引。inode是特殊的磁盘块&#xff0c;它们在文件系统创建时…