机器学习笔记03

1.线性回归(linear regression)
是利用回归方程(函数)对一个或者多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方法。
线性模型:
1.线性关系:y = w1x1 + w2x2 … + wnxn + b (b为偏置)
2.非线性关系
线性关系一定是线性模型,线性模型不一定是线性关系

损失函数/cost/成本函数/目标函数
最小二乘法
优化损失
正规方程
直接求解
梯度下降
试错,改进

波士顿房价预测(在sklearn1.2中已删除,http://lib.stat.cmu.edu/datasets/boston)
1.获取数据集
2.划分数据集
3.特征工程–标准化
4.预估器流程
fit() coef_(权重系数) intercept_(偏置)
5.模型评估

2.欠拟合和过拟合
欠拟合:学习到的数据特征过少
解决方法:增加数据的特征数量

过拟合:原始特征过多,存在一些嘈杂特征,模型过于复杂为了兼顾各个测试数据点
解决方法:正则化
L1
损失函数 + λ惩罚项 (只是绝对值)
LASSO
L2 更常用
损失函数 + λ惩罚项 (数值的平方)
Ridge - 岭回归

3.逻辑回归的改进-岭回归
带有L2正则化的线性回归-岭回归
逻辑回归的应用场景:
广告点击率 是否会被点击/是否为垃圾邮件
是否患病/是否为金融诈骗/ 是否为虚假账号
原理:线性回归的输出就是逻辑回归的输入
激活函数
sigmoid函数 [0,1]区间中的一个概率值,默认为0.5的阈值
1/(1 + e^(-x))
假设函数/线性模型
1/(1 + e^(-(w1x1 + w2x2 … + wnxn + b)))
损失函数
(y_predict - y_true)平方和/总数
逻辑回归的真实值/预测值 是否属于某个类别
优化损失

4.分类的评估方法
精确率与召回率
1.混淆矩阵
TP = True Possitive
FN = False Negative
2.精确率(Precision)与召回率(Recall)
精确率
召回率 查的全不全
3.F1-score 模型的稳健性
总共有100人,如果99个样本是癌症,1个样本非癌症 --样本不均衡

ROC曲线与AUC指标TPR与FPRTPR = TP/(TP + FN) - 召回率所有真是类别为1的样本中,预测类别为1的比例FPR = FP / (FP + TN)所有真是类别为0的样本中,预测类别为1的比例
AUC(Area Under Curve):被定义为ROC曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1。
又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接近1.0,
检测方法真实性越高;等于0.5时,则真实性最低,无应用价值
1.AUC只能用来评价二分类
2.AUC非常适合评价样本不均衡中的分类器性能	

5.模型保存与加载
joblib.dump(estimator, ‘my_ridge.pkl’)
estimator = joblib.load(‘my_ridge.pkl’)

6.无监督学习(没有目标值) – K-means算法
聚类:K-means(K均值聚类)
降维:PCA
K-means原理:一种基于划分的无监督聚类算法,其核心思想是将数据集划分为k个簇,使得每个数据点都属于最近的簇,
并且簇的中心是所有数据点的平均值。
开发流程:
降维之后的数据
1.预估器流程
2.看结果
3.模型评估
kmeans性能评估指标
轮廓系数
如果b_i >> a_i 趋近于1效果越好,趋近于-1效果不好
轮廓系数的值介于[-1,1]之间
越趋近于1代表内聚度和分离度都相对较优
kmeans总结:采用迭代式算法,直观易懂并且非常实用
缺点:容易收敛到局部最优解

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/8420.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Kubernetes集群一主二从安装教程】

文章目录 环境准备主机间做信任安装ansible工具 升级内核版本使用elrepo源升级内核查看最新版内核安装最新的内核版本设置系统默认内核设置默认内核为我们刚才升级的内核版本 初始化关闭防火墙关闭selinux关闭swap修改主机名修改hosts文件将桥接的IPv4流量传递到iptables的链配…

论系统测试在互联网诈骗信息防范系统中的应用

引言 随着互联网的普及,互联网诈骗活动也日益猖獗。为了防范互联网诈骗,构建一个有效的互联网诈骗信息防范系统至关重要。系统测试在该系统中发挥着至关重要的作用,可以确保系统满足用户需求,并符合既定的质量标准。 系统测试的…

nlp课设 - 基于BERT 的情感分类

基于BERT 的情感分类 主要论文: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(双向Transformer 的预训练) 核心技术: Embedding 、Attention --> Transformer 任务简介、拟解决问题…

什么是oneflow

一,什么是OneFlow? OneFlow是一个用于机器学习的开源软件框架,它允许研究人员和开发人员设计、训练和部署机器学习模型。机器学习是人工智能的一个分支,它使计算机能够从数据中学习并做出预测或决策,而不需要明确编程…

09 - 数据清洗案例

流程图 kettle 面板图片 操作步骤 1、订阅数据源(kafka consumer) 2、抽取字段并转换key(JSON input) 3、判断img字段是否有值,有的话进行url转base64(JavaScript 代码) // 获取输入字段的值 v…

流量分析利器arkime的学习之路(三)---结合Suricata攻击检测

1、基础 Arkime安装部分参考《流量分析利器arkime的学习之路(一)—安装部署》 在此基础上安装suricata软件并配置。 2、安装suricata yum install suricate 可能依赖的文件包括libyaml,PyYAML,这些可能在之前安装arkime或者其他…

【遥感图像】多光谱与全色图像相关知识总结

多光谱图像(MS)和全色图像(PAN)是遥感技术中常用的两种图像类型,它们各自具有独特的特点和应用优势。以下是对这两种图像类型的详细解释和分析: 多光谱图像 (MS) 光谱分辨率:MS图像由多个光谱波…

面试二十四、继承多态

一、继承的本质和原理 组合(Composition): 组合是一种"有一个"的关系,表示一个类包含另一个类的对象作为其成员。这意味着一个类的对象包含另一个类的对象作为其一部分。组合关系通常表示强关联,被包含的对象…

什么是状态模式,有哪些应用?

一、定义及应用场景: 状态模式允许一个对象在其内部状态发生改变时改变它的行为,使其看起来像是修改了其类。它通过将对象的行为包装在不同状态对象中,实现了在运行时更改对象的状态,从而影响其行为。 状态模式也有很多实际的应…

Terrain —— Nodes

目录 Convert HeightField —— 转化高度场 HeightField —— 为地形创建初始高度场或遮罩场 HeightField Blur —— 模糊高度场或遮罩场 HeightField Clip —— 限制高度场的值 HeightField Combine Layers —— 将多个volume或VDB合并为一个新的volume或VDB HeightFiel…

我独自升级崛起怎么玩 我独自升级崛起游玩教程分享

《我独自升级:ARISE》是一款预计在 Android、iOS 和 PC 平台推出的动作 RPG,故事内容基于网络漫画版本改编,讲述世界各地出现「次元传送门」,而少部分人类觉醒了可以对抗传送门中怪物的「猎人」能力,玩家可以在故事模式…

【进程等待】是什么 | 为什么 | 怎么办 | wait阻塞等待

目录 进程等待是什么? 为什么要进程等待? 如何进程等待? wait 阻塞等待 进程等待是什么? 进程终止会把进程退出的数据(退出码和退出信号)存放到进程的PCB中保存下来,让父进程进行等待。…

【投稿资讯】区块链会议CCF C -- CoopIS 2024 截止7.10 附录用率

会议名称:CoopIS CCF等级:CCF C类学术会议 类别:人机交互与普适计算 录用率:2023年接收率21% (21 regular 10 work-in-progress papers/100) AREA 5: HUMAN-CENTRIC SECURITY AND PRIVACY IN INFORMATION SYSTEMS Access Con…

.net core 8版本读取wwwroot目录下的静态文件方法,通过访问接口可以直接信息访问查看的方式

1、安装Nuget依赖包&#xff1a;Microsoft.AspNetCore.StaticFiles 2、在Program.cs中注册中间件 app.UseStaticFiles();3、将业务接口和实现类在Program.cs中注入到运行时 builder.Services.AddScoped<IModelServive,ModelServiveImpl>();4、新建IModelServive接口&am…

Linux网站服务

1.概念:HTML:超级文本编辑语言 网页:使用HTML,PHP,JAVA语言格式书写的文件。 主页:网页中呈现用户的第一个界面。 网站:多个网页组合而成的一台网站服务器。 URL:统一资源定位符&#xff0c;访问网站的地址。 网站架构:LAMP: LinuxApacheMYSQLPHP(系统服务器程序数据管理…

Sychronized 和 Lock 的区别

锁 Sychronized锁入门实例 public class SychronizedDemo {public static void main(String[] args) {SychronizedDemo sychronizedDemo new SychronizedDemo();sychronizedDemo.deposit(1000);sychronizedDemo.syncmethod();}//同步方法public synchronized void syncmetho…

OpenHarmony 实战开发 - 如何在源码中编译复杂应用(4.0-Release)

文档环境 开发环境&#xff1a;Windows 11 编译环境&#xff1a;Ubuntu 22.04 开发板型号&#xff1a;DAYU 200&#xff08;RK3568&#xff09; 系统版本&#xff1a;OpenHarmony-4.0-Release 功能简介 在 OpenHarmony 系统中预安装应用的 hap 包会随系统编译打包到镜像中&a…

使用电路仿真软件教学的优势分析

随着科技的飞速发展&#xff0c;电子工程领域对人才的需求与日俱增。为了满足这一需求&#xff0c;教育者们不断探索着更加高效、直观的教学方法。电路仿真软件的出现&#xff0c;为电子工程教学注入了新的活力&#xff0c;它以其独特的优势&#xff0c;成为现代电子工程教育中…

uniapp 小程序低功耗蓝牙配网 blefi配网 物联网

1.获取蓝牙列表 bleList.vue <template><view><button @touchstart="startSearch">获取蓝牙列表</button><scroll-view :scroll-top="scrollTop" scroll-y class="content-pop"><viewclass="bluetoothI…

啸叫抑制器采用什么处理芯片?ES56031或PH56031

会议系统或卡拉OK最头疼的就是啸叫了吧&#xff0c;来看看啸叫抑制器采用什么芯片 四通道啸叫抑制器&#xff0c;采用了2个电路板&#xff0c;每个板子处理2路信号&#xff0c;每块电路板有2个卡侬输入插座&#xff0c;2个卡侬输出插座 ES56031S&#xff0c;该啸叫抑制器为4通道…