【人工智能Ⅰ】8-回归 降维

【人工智能Ⅰ】8-回归 & 降维

8-1 模型评价指标

分类任务

准确率、精确率与召回率、F值、ROC-AUC、混淆矩阵、TPR与FPR

回归任务

MSE、MAE、RMSE

无监督任务(聚类)

兰德指数、互信息、轮廓系数

回归任务的评价指标

1:MSE均方误差

mean squared error

计算真实值与预测值的差值的平方和的均值
M S E = ( 1 / m ) ∗ ∑ i = 1 m ( f ( x i ) − y i ) 2 MSE = (1/m)*∑_{i=1}^m(f(x_i)-y_i)^2 MSE=(1/m)i=1m(f(xi)yi)2
2:MAE平均绝对误差

mean absolute error

计算预测值与真实值之间的距离的绝对值的均值
M A E = ( 1 / N ) ∗ ∑ i = 1 N ∣ y i − f ( x i ) ∣ MAE=(1/N)*∑_{i=1}^N|y_i-f(x_i)| MAE=(1/N)i=1Nyif(xi)
3:RMSE均方根误差

root mean squared error

计算预测值与真实值的均方根
R M S E = ( 1 / N ) ∗ ∑ i = 1 N ( y i − f ( x i ) ) 2 RMSE=\sqrt{(1/N)*∑_{i=1}^N(y_i-f(x_i))^2} RMSE=(1/N)i=1N(yif(xi))2

8-2 回归分析

数据变量间关系

1:确定性关系(函数关系)

确定现象非随机变量间的关系,例如圆面积的计算

2:统计依赖关系(相关关系)

非确定现象随机变量间的关系,例如农作物产量与气温、降水、阳光等因素有关

相关分析 或 回归分析,可考察变量间统计依赖关系

数据变量间的统计依赖关系

统计依赖关系

——线性相关(相关系数:-1<rho<1)

————正相关

————不相关

————负相关

——非线性相关

————正相关

————不相关

————负相关

统计依赖关系

——有因果关系(回归分析)

——无因果关系(相关分析)

8-3 线性回归

线性:函数自变量和因变量之间的对应关系在集合呈现直线、平面或超平面

回归:用一个直线、平面或超平面拟合真实世界的规律

一元线性回归

回归方程

a是截距,b是斜率
y = a + b x y=a+bx y=a+bx
R^2判定系数

判定一元线性回归直线的拟合程度

值越大,自变量对因变量的解释程度越高,观察点在回归直线附近越密集
0 < = R 2 < = 1 0<=R^2<=1 0<=R2<=1

多元线性回归

回归方程

b0是常数项,b1bn是y对应于x1xn的偏回归系数
y = b 0 + b 1 x 1 + . . . b n x n y=b_0+b_1x_1+...b_nx_n y=b0+b1x1+...bnxn
Adjusted R^2

判定多元线性回归方程的拟合程度

逐步回归分析

最优回归方程:包含所有对y有影响的变量,而不包含对y影响不显著的变量

选择最优回归方程的方法

1:从所有可能的变量组合的回归方程中择优

2:从包含全部变量的回归方程中逐次剔除不显著因子

3:从一个变量开始,把变量逐个引入方程

4:有进有出的逐步回归分析

逐步回归分析法的思想

1:从一个自变量开始,按自变量作用的显著程度,从大到小依次逐个引入回归方程

2:若引入的某自变量由于后面变量的引入而不显著,则剔除

3:对每一步进行Y值检验,确保每次引入新的显著变量前回归方程中只包含对Y作用显著的变量

4:重复进行,直至既无不显著的变量剔除,又无显著变量引入

损失函数

显性的公式描述误差,并将误差优化到最小值

回归问题的常规步骤

1:寻找模型函数
h θ ( x ) = θ T X h_θ(x)=θ^TX hθ(x)=θTX
2:构造损失函数
J ( θ ) = 1 / 2 ∗ ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 J(θ)=1/2*∑_{i=1}^m(h_θ(x^{(i)})-y^{(i)})^2 J(θ)=1/2i=1m(hθ(x(i))y(i))2
3:最小化损失函数并求回归参数

方法:最小二乘法、梯度下降法

8-4 最小二乘法线性回归

原理:目标拟合直线上各个相应点的值与测量值之差的平方和在所有拟合直线中最小
s = ∑ i = 1 n ϵ i 2 = ∑ i = 1 n [ y i − ( a + b x i ) ] 2 − > m i n s=∑_{i=1}^n\epsilon_i^2=∑_{i=1}^n[y_i-(a+bx_i)]^2->min s=i=1nϵi2=i=1n[yi(a+bxi)]2>min
使s最小的条件:s对a的一阶偏导=0,s对b的一阶偏导=0,s对a的二阶偏导>0,s对b的二阶偏导>0

a和b:
a = y ˉ − x ˉ a=\bar{y}-\bar{x} a=yˉxˉ

b = x y ‾ − x ‾ ∗ y ‾ x 2 ‾ − x ‾ 2 b=\frac{\overline{{xy}}-\overline{x}*\overline{y}}{\overline{x^2}-\overline{x}^2} b=x2x2xyxy

标准偏差:
σ a = 1 n ( x 2 ‾ − x ‾ 2 ) ∗ σ y \sigma_a=\sqrt{\frac{1}{n(\overline{x^2}-\overline{x}^2)}}*\sigma_y σa=n(x2x2)1 σy

σ b = x 2 ‾ n ( x 2 ‾ − x ‾ 2 ) ∗ σ y \sigma_b=\sqrt{\frac{\overline{x^2}}{n(\overline{x^2}-\overline{x}^2)}}*\sigma_y σb=n(x2x2)x2 σy

测量值 y i 的标准误差 σ y = Σ [ y i − ( a + b x i ) ] 2 n − 2 测量值y_i的标准误差\sigma_y=\sqrt{\frac{\Sigma[y_i-(a+bx_i)]^2}{n-2}} 测量值yi的标准误差σy=n2Σ[yi(a+bxi)]2

需要考虑的问题

1:经验公式是否合适(相关系数R)

|R|越接近1,线性关系越好

|R|越接近0,无线性关系,拟合无意义
R = x y ‾ − x ‾ ∗ y ‾ ( x 2 ‾ − x ‾ 2 ) ( y 2 ‾ − y ‾ 2 ) R=\frac{\overline{{xy}}-\overline{x}*\overline{y}} {\sqrt{(\overline{x^2}-\overline{x}^2)(\overline{y^2}-\overline{y}^2)}} R=(x2x2)(y2y2) xyxy
2:测量列是否存在粗差(肖维涅舍弃判据)

肖维涅系数Cu(查表)
y ′ ′ = a + b x i + C u ⋅ σ y y^{''}=a+bx_i+Cu\cdot\sigma_y y′′=a+bxi+Cuσy

y = a + b x i y=a+bx_i y=a+bxi

y ′ = a + b x i − C u ⋅ σ y y^{'}=a+bx_i-Cu\cdot\sigma_y y=a+bxiCuσy

最小二乘法优缺点

1:实验数据处理常用方法

2:最佳配方逼近可在一个区间上比较均匀的逼近函数,方法简单易行,实效性大,应用广泛

3:正规方程阶数较高时,容易出现病态

4:解决病态性,可引入正交多项式

8-5 逻辑回归

回归任务:变量连续

分类任务:变量离散

原理——替换回归的判别函数为sigmod
y = 1 1 + e − ( w T X + b ) y=\frac{1}{1+e^{-(w^TX+b)}} y=1+e(wTX+b)1
S形曲线,在中心点附近的增长速度快,在两段的增长速度慢

逻辑回归解决的问题——二分类(大于等于0.5的为正样本,小于0.5的为负样本)

判别函数
F ( x ) = { 1 , Y ( x ) > = 0.5 0 , Y ( x ) < 0.5 F(x)=\begin{cases} 1,&Y(x)>=0.5\\ 0,&Y(x)<0.5 \end{cases} F(x)={1,0,Y(x)>=0.5Y(x)<0.5

关键:模型参数w和b的估计

代价函数:
c o s t ( Y ( x ) , y ) = { − l o g Y ( x ) , y = 1 − l o g ( 1 − Y ( x ) ) , y = 0 cost(Y(x),y)=\begin{cases} -logY(x),&y=1\\ -log(1-Y(x)),&y=0 \end{cases} cost(Y(x),y)={logY(x),log(1Y(x)),y=1y=0
所有m个样本的代价累加并平均,可得最终的代价函数
c o s t = 1 m cos ⁡ ( Y ( x ) ⋅ y ) cost=\frac{1}{m}\cos(Y(x)\cdot y) cost=m1cos(Y(x)y)

逻辑回归推导

1:梯度下降法,对代价函数求偏导,直至函数值收敛

2:设置合适的学习率,过小会迭代过慢,过大会错过最佳收敛点

8-6 降维

在降低数据集维度的同时,保证有效信息不要丢失

维度灾难:feature过多,导致过拟合

降维方法

1:特征选择(原来特征的子集

2:特征抽取(原来的特征空间映射到新的特征空间)

主成分分析PCA

无监督学习的降维技术

主要思想:把原有的n维特征映射为k维的正交特征(即,主成分)

第一个新坐标轴的选择:原始数据中方差最大的方向

第二个新坐标轴的选择:与第一个坐标轴正交的平面中方差最大的

第三个新坐标轴的选择:与第一个和第二个坐标轴均正交的平面中方差最大的

(以此类推)

线性判别分析LDA

监督学习的降维技术(数据集的每个样本有类别输出)——与PCA的不同

主要思想:投影后类内方差最小,类间方差最大

LDA和PCA的区别

1:PCA从特征的协方差切入,寻找投影方式

2:LDA从类别标注切入,期望投影后不同类别之间的数据距离较大,同一类别的数据紧凑

LDA和PCA的异同点

同:

1:数据降维

2:降维时使用矩阵特征分解的思想

3:假设数据符合高斯分布

异:

1:LDA降维最多到类别数k-1的维数,PCA无限制

2:LDA可以用于分类

3:LDA选择分类性能最好的投影方向,PCA选择样本点投影具有最大方差的方向

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/156962.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

易航网址引导系统 v1.9 源码:去除弹窗功能的易航网址引导页管理系统

易航自主开发了一款极其优雅的易航网址引导页管理系统&#xff0c;后台采用全新的光年 v5 模板开发。该系统完全开源&#xff0c;摒弃了后门风险&#xff0c;可以管理无数个引导页主题。数据管理采用易航原创的JsonDb数据包&#xff0c;无需复杂的安装解压过程即可使用。目前系…

SVN创建分支

一 从本地创建方式可指定版本号进行分支创建。 1、在本地目录右击 -----> 点击branch/tag(分支/标签) From: 源&#xff0c;可指定具体的版本号&#xff0c; To path: 可通过"..."选择分支路径 最后点击确定&#xff0c;交由服务器执行创建。 二 通过SVN客…

html实现计算器源码

文章目录 1.设计来源1.1 主界面1.2 计算效果界面 2.效果和源码2.1 动态效果2.2 源代码 源码下载 作者&#xff1a;xcLeigh 文章地址&#xff1a;https://blog.csdn.net/weixin_43151418/article/details/134532725 html实现计算器源码&#xff0c;计算器源码&#xff0c;简易计…

假ArrayList导致的线上事故......

假ArrayList导致的线上事故… 线上事故回顾 晚饭时&#xff0c;当我正沉迷于排骨煲肉质鲜嫩&#xff0c;汤汁浓郁时&#xff0c;产研沟通群内发出一条消息&#xff0c;显示用户存在可用劵&#xff0c;但进去劵列表却什么也没有&#xff0c;并附含了一个视频。于是我一边吃了排…

MATLAB算法实战应用案例精讲-【目标检测】多目标跟踪(MOT)

目录 算法原理 算法步骤 评价指标 数据集 SORT和DeepSORT 关键算法 应用案例

11.21序列检测,状态机比较与代码,按键消抖原理

序列检测 用一个atemp存储之前的所有状态&#xff0c;即之前出现的七位 含无关项检测 要检测011XXX110 对于暂时变量的高位&#xff0c;位数越高就是越早出现的数字&#xff0c;因为新的数字存储在TEMP的最低位 不重叠序列检测 &#xff0c;一组一组 011100 timescale 1ns…

【算法】二分查找-20231122

这里写目录标题 一、1089. 复写零二、917. 仅仅反转字母三、88. 合并两个有序数组四、283. 移动零 一、1089. 复写零 提示 简单 266 相关企业 给你一个长度固定的整数数组 arr &#xff0c;请你将该数组中出现的每个零都复写一遍&#xff0c;并将其余的元素向右平移。 注意&a…

智能座舱架构与芯片- (13) 软件篇 下

四、面向服务的智能座舱软件架构 4.1 面向信号的软件架构 随着汽车电子电气架构向中央计算-域控制器的方向演进&#xff0c;甚至向车云一体化的方向迈进&#xff0c;适用于汽车的软件平台也需要进行相应的进化。 在传统的观念中&#xff0c;座舱域即娱乐域&#xff0c;座舱软…

4.Gin HTML 模板渲染

4.Gin HTML 模板渲染 Gin HTML 模板渲染 1. 全部模板放在一个目录里面的配置方法 创建用于渲染的模板html templates/index.html <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title> …

2021秋招-算法-哈希算法-哈希表

LeetCoe-03-无重复字符的最长字串 LeetCode链接:LeetCoe-03-无重复字符的最长字串 题目理解及描述 无重复字符的最长子串难度中等3747给定一个字符串&#xff0c;请你找出其中不含有重复字符的 最长子串 的长度。示例 1:输入: “abcabcbb” 输出: 3 解释: 因为无重复字符的最…

【GitHub】保姆级使用教程

一、如何流畅访问GitHub 1、网易uu加速器 输入网址&#xff0c;无脑下载网易加速器&#xff1b;https://uu.163.com/ 下载安装完毕后&#xff0c;创建账号进行登录 登录后&#xff0c;在右上角搜索框中搜索“学术资源”&#xff0c;并点击&#xff1b; 稍等一会儿就会跳…

如何在3dMax中使用Python按类型选择对象?

如何在3dMax中使用Python按类型选择对象&#xff1f; 3dMax提供了pymxs API&#xff0c;这是MAXScript的Python包装器&#xff0c;可帮助您扩展和自定义3dMax&#xff0c;并更轻松地将其集成到基于Python的管道中。 pymxs模块包含一个运行时成员&#xff0c;该成员提供对MAXSc…

电子学会C/C++编程等级考试2022年09月(一级)真题解析

C/C++等级考试(1~8级)全部真题・点这里 第1题:指定顺序输出 依次输入3个整数a、b、c,将他们以c、a、b的顺序输出。 时间限制:1000 内存限制:65536输入 一行3个整数a、b、c,以空格分隔。 0 < a,b,c < 108输出 一行3个整数c、a、b,整数之间以一个空格分隔。样例输入…

【C++进阶之路】第八篇:智能指针

文章目录 一、为什么需要智能指针&#xff1f;二、内存泄漏1.什么是内存泄漏&#xff0c;内存泄漏的危害2.内存泄漏分类&#xff08;了解&#xff09;3.如何检测内存泄漏&#xff08;了解&#xff09;4.如何避免内存泄漏 三、智能指针的使用及原理1.RAII2.智能指针的原理3.std:…

气相色谱质谱仪样品传输装置中电动针阀和微泄漏阀的解决方案

标题 摘要&#xff1a;针对目前国内外各种质谱仪压差法进样装置无法准确控制进气流量&#xff0c;且无相应配套产品的问题&#xff0c;本文提出了相应的解决方案和配套部件。解决方案主要解决了制作更小流量毛细管和毛细管进气端真空压力精密控制问题&#xff0c;微流量毛细管的…

Flutter:多线程Isolate的简单使用

在flutter中如果要使用线程&#xff0c;需要借助Isolate来实现。 简介 在Flutter中&#xff0c;Isolate是一种轻量级的线程解决方案&#xff0c;用于在应用程序中执行并发任务。Isolate可以被认为是独立于主线程的工作单元&#xff0c;它们可以在后台执行任务而不会阻塞应用程…

C++入门第八篇---STL模板---list的模拟实现

前言&#xff1a; 有了前面的string和vector两个模板的基础&#xff0c;我们接下来就来模拟实现一下list链表模板&#xff0c;我还是要强调的一点是&#xff0c;我们模拟实现模板的目的是熟练的去使用以及去学习一些对于我们本身学习C有用的知识和用法&#xff0c;而不是单纯的…

【教程】Sqlite迁移到mysql(django)

1、先将sqlite db文件导出sql sqlite3 db.sqlite3 .dump>output.sql db.sqlite3 是 sqlite 数据库文件 output.sql是导出sql文件的名称 2、sql文件转换、处理 sed s/AUTOINCREMENT/AUTO_INCREMENT/g output.sql | sed s/datetime/timestamp/g | sed s/INTEGER/int/g &g…

基于SpringBoot+MyBatis-Plus的校园图书管理系统

基于SpringBootMyBatis-Plus的校园图书管理系统 校园图书管理系统开发技术功能模块代码结构数据库设计运行截图源码获取 校园图书管理系统 欢迎访问此博客&#xff0c;是否为自己的毕业设计而担忧呢&#xff1f;是否感觉自己的时间不够做毕业设计呢&#xff1f;那你不妨看一下…

java加载证书报错:IOException : version mismatch: (supported: 00, parsed: 01

报错原因&#xff1a;java 解析 私钥的编码格式是&#xff1a; PKCS #8&#xff0c;需要将openssl生成的私钥进行编码转换&#xff1a;使用转换后的私钥重新生成即可。 #报错的ec-secp256k1-dummy-priv-key.pem 私钥&#xff0c;替换成新的 p8file.pem 私钥 openssl pkcs8 -to…