人工智能期末复习笔记(更新中)

分类问题

分类:根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类
垃圾分类、图像分类
在这里插入图片描述

怎么解决分类问题

在这里插入图片描述

分类和回归的区别

在这里插入图片描述

1. 逻辑回归分类

用于解决分类问题的一种模型。根据数据特征或属性,计算其归属于某一类别
的概率P,根据概率数值判断其所属类别。主要应用场景:二分类问题。
在这里插入图片描述

1. 谈谈你对机器学习的理解,包括回归和分类的相同点和不同点

机器学习是一种通过数据(经验)和算法让计算机从中学习并改善系统自身的性能的技术。
回归和分类的相同点:
预测性质:回归和分类都是用来预测未知数据的属性或类别。
监督学习:这两种任务都属于监督学习的范畴,即训练数据集包含了输入和相应的输出(标签)。
使用模型:它们都需要构建一个数学模型,该模型能够从训练数据中学习,然后用于对新数据进行预测。
回归和分类的不同点:
预测目标:

回归的目标是预测连续型变量的数值,例如房价、温度等。回归问题的输出是一个连续的数值。
分类的目标是预测离散的类别或标签,例如判断邮件是否为垃圾邮件、图片中的物体类别等。分类问题的输出是一个离散的类别。
输出类型:

回归的输出是连续的实数值,可以是任意范围内的数字。
分类的输出是离散的类别,通常是有限的、预定义的标签集合。
评估指标:

回归问题通常使用诸如均方误差(Mean Squared Error, MSE)、均方根误差(Root Mean Squared Error, RMSE)等连续型指标来评估预测结果的准确性。
分类问题通常使用准确率(Accuracy)、精确率(Precision)、召回率(Recall)等离散型指标来评估模型的性能。

2. 简述机器学习的流程

抽象实际问题,获取数据,数据预处理,特征工程,训练模型及调优,模型评估不断迭代模型,获取最终模型

3. 简述监督学习与无监督学习之间的区别

数据类型:监督学习使用有标签的数据,无监督学习使用无标签的数据。
目标:监督学习旨在预测输出,无监督学习旨在发现数据中的结构和模式。
应用:监督学习用于分类和回归,无监督学习用于聚类、降维等

4. 数据预处理的过程中,对于异常数据处理的方法有哪些

1.删除异常值
2.修正异常值
3.数据变换
4.使用离群值检测算法
5.使用模型

填空题

机器学习

  1. 机器学习的工作流程:抽象实际问题、获取数据、数据预处理、特征工程、训练模型及调优、模型评估、获取最终模型
  2. 数据预处理的方法:数据清洗、数据变换、数据过滤
  3. 特征工程定义:从原始数据中进行特征构建、特征提取、特征选择
  4. 数据集分为:训练集(用于学习的数据集)、验证集(用来预防过拟合的发生,辅助训练过程的数据集)、测试集(用于测试和评估训练好的模型的数据集)
  5. 机器学习分为:监督学习、半监督学习、无监督学习
  6. 监督学习:基于标签训练数据的机器学习模型的过程
  7. 半监督学习:使用大量的未标记数据、以及同时使用标记数据,来进行模型识别工作
  8. 无监督学习:建立及其学习模型的过程不依赖标签训练数据

在机器学习中,回归和分类是两种基本的任务类型

  1. 分类:根据数据的属性或特征是否相似,来把它们归为一类
  2. 回归:评估输入变量和输出变量之间关系的过程

回归和分类的不同点:

预测目标:

回归的目标是预测连续型变量的数值,例如房价、温度等。回归问题的输出是一个连续的数值。
分类的目标是预测离散的类别或标签,例如判断邮件是否为垃圾邮件、图片中的物体类别等。分类问题的输出是一个离散的类别。
输出类型:

回归的输出是连续的实数值,可以是任意范围内的数字。
分类的输出是离散的类别,通常是有限的、预定义的标签集合。
评估指标:

回归问题通常使用诸如均方误差(Mean Squared Error, MSE)、均方根误差(Root Mean Squared Error, RMSE)等连续型指标来评估预测结果的准确性。
分类问题通常使用准确率(Accuracy)、精确率(Precision)、召回率(Recall)等离散型指标来评估模型的性能。
课本原话
区别在于输出变量类型不同,分类的输出是离散的,回归的输出是连续的,分类问题是从不同类型的数据中学习数据的边界,而回归问题是从同一类型的数据中学习到这种数据中不同维度间的规律,去拟合真实规律

  1. 数据清洗的目的:将数据集中的”脏“数据去除
  2. 脏数据:缺少的数据、异常的数据、重复的数据
  3. 缺少的数据的处理方法:直接删去、填充为一个常量、取均值、中位数或使用频率高的值、插值填充、模型填充
  4. 异常数据的发现方法:建模法、计算机检查和人工检查相结合、聚类、密度法
  5. 数据变换:对对象的属性再数值上进行处理,包括规范化、离散化、稀疏化
  6. sklearn基本功能主要分为:数据预处理、数据降维、模型选择、分类、回归、聚类

逻辑回归分类

逻辑回归定义:用来解释输入变量和输出变量之间关系的一种技术,主要用于二分类问题

  1. sigmoid()函数:
    在这里插入图片描述

线性回归预测

线性回归定义:利用数理统计中回归分析来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法

聚类(无标红,非重点)

聚类定义:根据相似性原则,将具有较高相似度的数据对象划分为同一类簇,将具有较高相异度的数据对象划分为不同类簇。(无监督学习)
聚类算法:K-Means算法(K均值算法)

  1. 初始化质点
  2. 聚类对象
  3. 更新质点

第4章 自然语言处理(NLP)

  1. 自然语言处理工具包:NLTK

  2. 使用stemming、lemmatization还原词汇

  3. 词袋模型:文本特征提取方式

  4. 文本分析的主要目的之一:把文本转化为数值

  5. 分析文档的步骤:1. 提取文档 2. 转换为数值形式

  6. 使用TF-IDF算法构建文档类别检测器
    作用:对文档所属的类别进行检测
    TF-IDF:是一种用于信息检索与数据挖掘的常用加权技术
    TF-IDF的值是这两个值的乘积:TF*IDF
    TF-IDF主要思想:p113
    TF-IDF作用:去除过滤常见的词语,从而保留重要的词语

  7. 主题模型算法不需要任何被标记的数据

  8. LDA包括三层结构:词、主题、文档(重点)

  9. LDA是非监督机器学习

课后习题

列出几种文本特征提取算法:词袋模型、TF-IDF、文本主题模型(LDA)
列出几种自然语言处理开源工具包:NLTK、Gensim、TextBlob

第5章 语言识别

将音频信号从时域转换为频域

  1. 音频信号包括:频率、相位、振幅的正弦波
  2. 信号的基本性质:时域、频域
  3. 时域是唯一实际存在的域,真实世界的,频域是一个数学构造,正弦波是频域唯一存在的波形
  4. 时域的基本变量:时间
  5. 频域的基本变量:频率
  6. 将音频信号从时域转换为频域:快速傅里叶变换

提取语音特征

  1. MFCC:用于从给定音频信号中提取频域特征
  2. 只使用低频MFCC,丢弃中高频MFCC
  3. 提取语言特征参数MFCC主要流程:预加重、分帧、加窗、FFT、Mel滤波器组、对数对算、DCT离散余弦变换

课后习题

  1. 列举几个语言识别技术的应用领域:通信、家电、工业、汽车电子、家庭服务、医疗、消费电子产品

  2. 简单概述语言识别技术的原理:
    先采集并预处理信号,使用数字信号处理技术提取声音的特征,利用声学模型和语言模型分析声音的特征和语言规律,以实现对语音输入的理解和处理

  3. 实现音频信号从时域转换为频域:
    首先将连续的模拟信号采样为离散的数字信号。然后,使用傅里叶变换(如快速傅里叶变换)将离散时域信号转换为频域信号,以分析信号在不同频率上的能量分布。

第6章 计算机视觉

视频中移动物体检测方法

  1. 帧间差分法
  2. 色彩空间
  3. 背景差分法

差分法的实现

  1. 视频采集
  2. 图像预处理
  3. 提取背景
  4. 二值化
  5. 获取前景图片

第7章 人工神经网络

  1. 循环神经网络基本原理:一个序列当前的输入与前面的输出有点联系,在网络会记忆前面的信息并计算当前的输出,隐藏层之间的节点是有连接的,隐藏层的输入包括输入层的输出和上一时刻隐藏层的输出。

简答题(概念)

  1. 机器学习:机器学习是一种通过数据(经验)和算法让计算机从中学习并改善系统自身的性能的技术,分为监督学习、半监督学习、无监督学习。
  2. 人工神经网络定义:一种模仿人类大脑结构和作用的数学模型,从而模拟人脑神经系统对复杂信息处理。
  3. 循环神经网络定义:是对序列数据建模的人工神经网络,目的是处理序列数据。
  4. 深度学习定义:是一种精确的分层学习,指在多个计算阶段中精确第分配信用,以转换网络中的聚合激活,从而由简单的基础来学习和分析处理复杂的问题。
  5. 卷积神经网络:一种专门用于处理具有网格结构数据的深度学习模型,本质为前馈神经网络,包括卷积计算且具有深度结构。
  6. 强化学习:解决智能体在与外部环境交互活动的过程中,能够通过自身学习策略来应对外部环境问题,从而达到回报效益最大化的状态。
  7. 前馈神经网络:没有反馈机制,只能向前传播而不能反向传播来调整权值参数的神经网络模型。
  8. 神经元结构:神经元是ANN中的基本单元,每个神经元接收多个输入信号(通常包括权重和偏置),对这些输入信号进行加权求和,然后通过一个激活函数生成输出。
  9. 感知器:感知机(Perceptron)是一种最简单的人工神经网络模型,通常用于二元分类任务。它由输入层、权重、偏置、激活函数和输出层组成

第8章 强化学习和深度学习

  1. 卷积层的三个参数:核大小、步长、填充

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/38316.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ComfyUI局部重绘的四种方式 (附件工作流在最后)

前言 局部重绘需要在图片中选择重绘区域,点击图片右击选择Open in MaskEditor(在蒙版编辑器中打开),用鼠标描绘出需要重绘的区域 方式一:重绘编码器 这种方式重绘比较生硬,需要额外搭配使用才行 方式二&…

el-upload 上传图片及回显照片和预览图片,文件流和http线上链接格式操作

<div v-for"(info, index) in zsjzqwhxqList.helicopterTourInfoList" :key"info.id" >编辑上传图片// oss返回线上地址http链接格式&#xff1a;<el-form-itemlabel"巡视结果照片":label-width"formLabelWidth"><el…

Cyber Weekly #13

赛博新闻 1、谷歌发布最强开源小模型Gemma-2 本周五&#xff08;6月28日&#xff09;凌晨&#xff0c;谷歌发布最强开源小模型Gemma-2&#xff0c;分别为9B&#xff08;90亿&#xff09;和27B&#xff08;270亿&#xff09;参数规模&#xff0c;其中9B 模型在多项基准测试中均…

颍川韩氏,来自战国七雄韩国的豪族

颍川是战国七雄韩国故土&#xff0c;韩国被秦国灭国后&#xff0c;王公贵族们除了坚决反秦的被杀了外&#xff0c;大部分都留存了下来。这些人在楚、汉反秦战争中&#xff0c;成为反秦统一战线的重要力量&#xff0c;其中两人先后被封为重新恢复的韩国的国王。 一个是横阳君韩…

大模型上下文长度扩展中的检索增强技术简述

基于Transformer的语言模型在众多自然语言处理任务上都取得了十分优异的成绩&#xff0c;在一些任务上已经达到SOTA的效果。但是&#xff0c;经过预训练后&#xff0c;模型能够较好处理的序列长度就固定下来。而当前的众多场景往往需要处理很长的上下文&#xff08;如&#xff…

CppTest单元测试框架(更新)

目录 1 背景2 设计3 实现4 使用4.1 主函数4.2 使用方法 1 背景 前面文章单元测试之CppTest测试框架中讲述利用宏ADD_SUITE将测试用例自动增加到测试框架中。但在使用中发现一个问题&#xff0c;就是通过宏ADD_SUITE增加多个测试Suite时&#xff0c;每次运行时都是所有测试Suit…

逆向开发环境准备

JDK安装 AndroidStudio安装 默认sdk路径 C:\Users\Administrator\AppData\Local\Android\Sdk 将platform-tools所在的目录添加到path C:\Users\Administrator\AppData\Local\Android\Sdk\platform-tools 主要目的是使用该目录下的adb等命令 将tools所在的目录添加到path C:\Us…

1-5题查询 - 高频 SQL 50 题基础版

目录 1. 相关知识点2. 例题2.1.可回收且低脂的产品2.2.寻找用户推荐人2.3.大的国家2.4. 文章浏览 I2.5. 无效的推文 1. 相关知识点 sql判断&#xff0c;不包含null&#xff0c;判断不出来distinct是通过查询的结果来去除重复记录ASC升序计算字符长度 CHAR_LENGTH() 或 LENGTH(…

sqlmap注入详解

免责声明:本文仅做分享... 目录 1.介绍 2.特点 3.下载 4.帮助文档 5.常见命令 指定目标 请求 HTTP cookie头 HTTP User-Agent头 HTTP协议的证书认证 HTTP(S)代理 HTTP请求延迟 设定超时时间 设定重试超时 设定随机改变的参数值 利用正则过滤目标网址 避免过多的…

前端笔记-day11

文章目录 01-空间-平移02-视距03-空间旋转Z轴04-空间旋转X轴05-空间旋转Y轴06-立体呈现07-案例-3D导航08-空间缩放10-动画实现步骤11-animation复合属性12-animation拆分写法13-案例-走马灯14-案例-精灵动画15-多组动画16-全民出游全民出游.htmlindex.css 01-空间-平移 <!D…

基于Spring Boot的在线医疗咨询平台的设计与实现【附源码】

基于Spring Boot的在线医疗咨询平台的设计与实现 Design and implementation of the computer hardware mall based on Spring Boot Candidate&#xff1a; Supervisor&#xff1a; April 20th, 2024 学位论文原创性声明 本人郑重声明&#xff1a;所呈交的论文是本人在导师…

初中英语优秀作文分析-006How to Deal with the Exam Stress-如何应对考试压力

更多资源请关注纽扣编程微信公众号 记忆树 1 We students are very busy with schoolwork and in the face of many exams every school day. 翻译 我们学生忙于功课&#xff0c;每个上学日都面临许多考试。 简化记忆 考试 句子结构 We students 主语 我们学生&#xf…

Vite: 高阶特性 Pure ESM

概述 ESM 已经逐步得到各大浏览器厂商以及 Node.js 的原生支持&#xff0c;正在成为主流前端模块化方案。 而 Vite 本身就是借助浏览器原生的 ESM 解析能力( type“module” )实现了开发阶段的 no-bundle &#xff0c;即不用打包也可以构建 Web 应用。不过我们对于原生 ESM 的…

综合评价类模型——突变级数法

含义 首先&#xff1a;对评价目标进行多层次矛盾分解其次&#xff1a;利用突变理论和模糊数学相结合产生突变模糊隶属函数再次&#xff1a;由归一公式进行综合量化运算最终&#xff1a;归一为一个参数&#xff0c;即求出总的隶属函数&#xff0c;从而对评价目标进行排序分析特点…

成都市水资源公报(2000-2022年)

数据年限&#xff1a;2000-2022年&#xff0c;无2009年 数据格式&#xff1a;pdf、word、jpg 数据内容&#xff1a;降水量、地表水资源量、地下水资源量、水资源总量、蓄水状况、平原区浅层地下水动态、水资源情况分析、供水量、用水量、污水处理、洪涝干旱等

类似李跳跳的软件有什么,强烈推荐所有安卓手机安装!!!

今天阿星分享一款让安卓手机更顺滑的神器——智慧岛。你问我李跳跳&#xff1f;由于大家都知道的原因&#xff0c;那是个曾经让广告无处遁形的神兵利器&#xff0c;可惜现在它已经退休了。不过别担心&#xff0c;智慧岛接过了接力棒&#xff0c;继续为我们的安卓体验保驾护航。…

Raccon:更好防侧信道攻击的后量子签名方案

1. 引言 安全社区已经开发出了一些出色的加密算法&#xff0c;这些算法非常安全&#xff0c;但最终&#xff0c;所有的数据都会被存储在硅和金属中&#xff0c;而入侵者越来越多地会在那里放置监视器来破解密钥。 破解加密密钥通常涉及暴力破解方法或利用实施过程中的缺陷。然…

2029年AI服务器出货量将突破450万台,AI推理服务器即将爆发式增长

在2020年&#xff0c;新冠疫情与远程办公模式的兴起推动了所有类型服务器的出货量达到峰值&#xff0c;随后几年里&#xff0c;除了AI服务器之外的所有类别都回归到了正常水平。 根据Omdia的研究数据&#xff0c;AI服务器的出货量在2020年急剧上升&#xff0c;并且至今未显示出…

日志的介绍

知识铺垫&#xff1a;在我们日常开发中&#xff0c;其实日志是和我们息息相关的。但可能平常都没怎么注意到日志相关的知识点&#xff0c;也不怎么关注日志&#xff0c;然后&#xff0c;在生产环境中&#xff0c;日志是必不可少的存在&#xff0c;项目出现问题了都是通过日志来…

cesium 添加 Echarts 图层(空气质量点图)

cesium 添加 Echarts 图层(下面附有源码) 1、实现思路 1、在scene上面新增一个canvas画布 2、通坐标转换,将经纬度坐标转为屏幕坐标来实现 3、将ecarts 中每个series数组中元素都加 coordinateSystem: ‘cesiumEcharts’ 2、示例代码 <!DOCTYPE html> <html lan…