Pytorch 机器学习专业基础知识+神经网络搭建相关知识

文章目录

      • 一、三种学习方式
      • 二、机器学习的一些专业术语
      • 三、模型相关知识
      • 四、常用的保留策略
      • 五、数据处理
      • 六、解决过拟合与欠拟合
      • 七、成功的衡量标准

一、三种学习方式

有监督学习:
1、分类问题
2、回归问题
3、图像分割
4、语音识别
5、语言翻译
无监督学习
1、聚类
2、降维
强化学习

二、机器学习的一些专业术语

样本(sample)或输入(input)或数据点(data point)
可以理解为一个图像
预测(prediction)或输出(output)
可以理解为是结果
目标(target)或标签(label)
图像实际标注的标签
损失值(loss value)或预测误差(prediction error)
预测与实际的差距
类别(classes)
数据集一组可能的值或标签
二分类(binary classification)
将输入实例归类为两个互斥类中的其中一个分类任务
多类别分类(multi-class classification)
多标签分类
一个输入实例,多个标签标记
标量回归(scakar regression)
每个输入数据与一个标量质量相关联
向量回归(vector regression)
多个标签,组成向量
批(batch)
一批为一个样本集,取决于CPU内存 2-256不等 权重在每个批次上更新
轮数
运行一遍为一个epoch,训练模型需要多个epoch

三、模型相关知识

通常模型数据集分为三个部分 训练、测试、验证
模型一般有两种参数
1、算法内参数或权重,用于优化器和反向传播
2、超参数,用于控制层数、学习率、结构参数

过拟合:在训练集效果很好,到了验证集或测试机效果不佳
欠拟合:在训练集就效果不佳

对数据集进行划分:
1、分出大部分数据作为训练集,用于训练
2、验证集一般用于超参数的调优
3、迭代执行1和2的步骤
4、最后冻结算法和超参数后,测试集进行评估

四、常用的保留策略

1、简单保留验证
留一定比例用于测试
2、K折验证
留一定比例测试,整个数据集分为K个包,一般K取值2-10
选一个包作为验证集,其余都是训练集,评估效果为各个包的平均评分
3、带混洗的K折验证
在创建保留的验证集时,混洗数据集

五、数据处理

需要考虑的东西有:
1、数据代表性
要做到分层抽样,防止局部特征
2、时间敏感性
要注意预防数据泄露
3、数据容易
避免重复数据影响性能

数据预处理
1、向量化(正常的数据类型有文本、声音、图像、视频)
先把数据转换为Pytorch张量,torchvision库可以把PIL图像转换为张量
2、值归一化
归一化就是将特定的特征数据表示为均值为0,标准差为1的数据
3、处理缺失值
用不可能出现的值替换缺失值
4、特征工程
用较少资源更快解决问题
用大量数据学得特征,自己学

六、解决过拟合与欠拟合

欠拟合很简单,加大数据集 用更多的数据

过拟合的解决:
1、获取更多数据(人造数据或数据增强)
2、缩小网络规模(可以去掉一些中间线性层)
3、应用权重正则化(通过惩罚矩阵来实现)
有两种惩罚模型的方案:
L1正则化 权重系数绝对值之和加入成本
L2正则化 所有权重系数平方和加入成本(通常用1e-5)

七、成功的衡量标准

平衡的标准 ROC AUC
不平衡的标准:
准确略 precision
查全率 recall
平均精读均值 MAP (Mean Average Precision)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/77270.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Web Component -- 即将爆发的原生的 UI 组件化标准

Web Component 概述 Web Component 是一种用于构建可复用用户界面组件的技术,开发者可以创建自定义的 HTML 标签,并将其封装为包含逻辑和样式的独立组件,从而在任何 Web 应用中重复使用。 每个 Web Component 都具有自己的 DOM 和样式隔离&a…

2023-09-12 LeetCode每日一题(课程表 IV)

2023-03-29每日一题 一、题目编号 1462. 课程表 IV二、题目链接 点击跳转到题目位置 三、题目描述 你总共需要上 numCourses 门课,课程编号依次为 0 到 numCourses-1 。你会得到一个数组 prerequisite ,其中 prerequisites[i] [ai, bi] 表示如果你…

JDBC操作SQLite的工具类

直接调用无需拼装sql 注入依赖 <dependency><groupId>org.xerial</groupId><artifactId>sqlite-jdbc</artifactId><version>3.43.0.0</version></dependency>工具类 import org.sqlite.SQLiteConnection;/*** Author cpf* Dat…

轮播图禁用手势滑动

要禁用手势滑动&#xff0c;并只允许自动轮播&#xff0c;你可以使用autoplayDisableOnInteraction属性来实现。以下是如何在Flutter中使用flutter_swiper插件进行配置&#xff1a; 首先&#xff0c;在pubspec.yaml文件中添加flutter_swiper插件的依赖项&#xff1a; dependen…

华为CD32键盘使用教程

华为CD32键盘使用教程 用爱发电写的教程&#xff01; 最后更新时间&#xff1a;2023.9.12 型号&#xff1a;华为有线键盘CD32 基本使用 此键盘在不安装驱动的情况下可以直接使用&#xff0c;但是不安装驱动指纹识别是无法使用的&#xff01;并且NFC功能只支持华为的部分电脑…

VL-Adapter: 针对视觉和语言(Vision-and-Language)的参数高效迁移学习

VL-ADAPTER: Parameter-Efficient Transfer Learning for Vision-and-Language Tasks 22年发表在CVPR UNC大学 Abstract 将介绍VL-BART和VL-T5这两个模型&#xff08;adapter-based parameter-efficient transfer learning techniques&#xff09; 评估这俩模型通过一个统一…

科技资讯|苹果虚拟纸可在Vision Pro中为广告、书籍等提供MR内容和动画

近日&#xff0c;美国专利商标局正式授予苹果一项与虚拟纸张相关的专利。这是与虚拟纸张这项发明相关的第二项专利&#xff0c;鉴于苹果 Vision Pro 将于明年上市&#xff0c;那么我们离苹果实现虚拟纸张的发明又近了一步。 虚拟纸张将能够包含 2D、3D 和动画等 MR内容&#…

JavaScript中循环遍历数组、跳出循环和继续循环

循环遍历数组 上个文章我们简单的介绍for循环&#xff0c;接下来&#xff0c;我们使用for循环去读取数据的数据&#xff0c;之前我们写过这样的一个数组&#xff0c;如下&#xff1a; const ITshareArray ["张三","二愣子","2033-1997","…

JAVA使用wkhtml 将html转成pdf或Image文件

linux的wkhtml 安装&#xff1a; linux安装wkhtmltopdf&#xff08;清晰明了&#xff09;_sout-lanys的博客-CSDN博客 win的wkhtml安装&#xff1a; 直接下载&#xff1a;wkhtmltopdf html 必须加UTF-8编码 <head> <meta charset"utf-8"> </hea…

基于Elasticsearch的多文档检索 比如 商品(goods)、案例(cases)

概述 Elasticsearch多文档聚合检索 详细 记得把这几点描述好咯&#xff1a;需求&#xff08;要做什么&#xff09; 代码实现过程 项目文件结构截图 演示效果 应用场景 我们需要在五种不同的文档中检索数据。 比如 商品&#xff08;goods&#xff09;、案例&#xff08;ca…

ubuntu 20.04安装开发环境总结_安装python

Ubuntu 20.04 是一款主要面向开发人员的操作系统之一&#xff0c;与此同时&#xff0c;它还支持多种开发环境和工具的使用。但是因为对市面上各种软件的支持没有window那样友好&#xff0c;所以对ubuntu系统安装配置各种环境的问题做了个总结 安装 PyCharm&#xff1a; 可以从…

(2)数据库mongodb 终端 和 vscode创建数据库 数据导入导出

可视化工具&#xff1a; Robo 3T | Free, open-source MongoDB GUI (formerly Robomongo) mongodb安装官网&#xff1a;MongoDB: The Developer Data Platform | MongoDB 文档&#xff1a;安装 MongoDB - MongoDB-CN-Manual (mongoing.com) 配置环境变量&#xff1a; 是为了扩…

微信小程序音频后台播放功能

微信小程序在手机息屏后依旧能播放音频&#xff0c;需要使用 wx.getBackgroundAudioManager() 方法创建后台音乐播放器&#xff0c;并将音乐播放任务交给这个后台播放器。 具体实现步骤如下&#xff1a; 小程序页面中&#xff0c;使用 wx.getBackgroundAudioManager() 方法创…

pandas 筛选数据的 8 个骚操作

日常用Python做数据分析最常用到的就是查询筛选了&#xff0c;按各种条件、各种维度以及组合挑出我们想要的数据&#xff0c;以方便我们分析挖掘。 东哥总结了日常查询和筛选常用的种骚操作&#xff0c;供各位学习参考。本文采用sklearn的boston数据举例介绍。 from sklearn …

jeesite实现excel导入功能(保姆级图文教程)

文章目录 前言一、准备工作1.准备一个excel模板,放入static目录2.application.yml文件中设置文件存储路径3.使用easyexcel插件解析excel数据,pom文件导入easyexcel二、使用步骤1.列表页添加下载模板按钮2.表单页添加文件上传3. 创建excel解析对应实体4.后台完成文件上传代码,…

酌情参考——chatGPT给的一些语义框架的学术思路,语义和图谱结合似乎是个不错的方向

语义和图谱结合似乎是个不错的方向 我在分析教师讲课的文本&#xff0c;以知识元和语义框架建模的话怎么分析合适 ChatGPT 分析教师讲课的文本并建立知识元和语义框架的模型可以帮助你理解教师的教学内容以及课程结构。以下是一些步骤和方法&#xff0c;可帮助你进行这种分析&…

SoC性能指标ARM内核运算能力

自动驾驶芯片常用的性能评价指标:TOPS,DMIPS,GFLOPS分别说的是啥&#xff1f; TOPS Tera Operation Per Second&#xff0c;表示每秒钟可以进行的操作数量&#xff0c;用于衡量自动驾驶的算力。 众所周知&#xff0c;汽车上最常用的传感器是摄像头&#xff0c;而与之对应的计…

springboot使用freemarker导出word

springboot使用freemarker导出word 一、需求说明二、制作模板文件1.修改word留下占位符并另存为.xml文件2.将xml文件后缀名改为.ftl3.打开ftl文件格式化内容4.将占位符替换成变量 三、代码实现1.引入依赖2.将模板引入resource下3.编写word导出工具包4.创建接口调用 一、需求说明…

Trinitycore学习之在Linux环境上搭建服务器并测试运行

1&#xff1a;准备环境&#xff0c;这里用ubuntu 22.04进行测试&#xff0c;安装环境后为了方便&#xff0c;换源。 注意&#xff1a;这里用的虚拟机&#xff0c;在虚拟机上生成地图信息&#xff0c;地图信息占用内存比较大&#xff0c;我暂时设置磁盘50G进行测试&#xff0c;…

华为Linux系统开发工程师面试

在Linux系统开发工程师的面试中&#xff0c;你可能会遇到以下一些问题&#xff1a; 在同一个网站中&#xff0c;当客户访问的时候&#xff0c;会出现有的页面访问的速度快而有的慢&#xff0c;系统和服务完全正常、网络带宽正常&#xff0c;你如何诊断这个问题&#xff1f;你以…