【机器学习】 第1章 概述

一、概念

1.机器学习是一种通过先验信息来提升模型能力的方式。    

从数据中产生“模型”( model )的算法,然后对新的数据集进行预测。

2.数据集(Dataset):所有数据的集合称为数据集。

训练集:用来训练出一个适合模型的,相当于人预习用的数据集。

验证集:相当于游戏的内测玩家。

测试集:用来测试训练的模型对不对的数据集。

3.样本(Sample):数据集中 每条记录 称为样本。

4.属性(Attribute)或特征(Feature):每个样本 在某方面 的 表现或性质。

5.特征向量(Feature Vector):每个样本的特征 对应的特征空间中的一个坐标向量。

6.分类(Classification):使用计算机学习出的模型进行预测得到的是离散值。

(1)人话:你是人,他是狗。

(2)有二分类和多分类之分。

7.回归(Regression):使用计算机学习出的模型进行预测得到的是连续值

8.聚类(Clustering):对无标签样本的相似度进行度量,挖掘特征、结构、内在性质,使类内相似度大,类间相似度小。

(1)人话:物以类聚,一样的放一块。

(2)与分类的区别:

a.分类是有监督,聚类是无监督(更diao)

b.聚类只要求相似度高的放一块,而分类则要求分到预定义的类别或标签。

9.输出结果(预测值)与其对应的真实值之间往往会存在一定的差异,这种差异被称为模型的输出误差,简称为误差。

(1)人话:误差=预测值-真实值 (正负先不管)

(2)分三种:

a.训练误差或称经验风险——指模型在训练样本集上的整体误差

b.测试误差——模型在测试样本集上的整体误差

c.泛化误差——测试集的泛化能力,泛化就是举一反三,就是白人是人,黑人也是人。

10.泛化能力:

(1)过拟合:就是过度拟合,猿猴不是人,但是非得说是人。

(2)欠拟合:就是不拟合,黑人是人,但是非得说黑人不算人。

11.机器学习的分类

(1)监督学习:人为干涉让模型更完美

分类:逻辑回归、决策树、KNN、随机森林、支持向量机、朴素贝叶斯

数字预测:线性回归、KNN、梯度提升(Gradient Boosting)、迭代算法(AbaBoost)

(2)非监督式学习:不管机器,让他自己来

典型例子:聚类算法

(3)半监督学习:人为干涉一点点,大部分让机器来,这是三者中最晚诞生的,自己掂量掂量。

(4)强化学习:与环境建立联系,然后各个动作产生的结果进行反馈(奖励或惩罚)。

12.机器学习的步骤:

数据收集+预处理(数据清洗)—— 特征选择+模型构建 —— 评估+测试

(1)模型构建的相关过程:

a. 建立训练数据集和测试数据集,通常80%为训练数据集。

b. 选择机器学习算法

c. 模型调优

d. 模型融合

二、习题

单选题:

1.构建一个完整的机器学习算法需要三个方面的要素,分别是数据、模型和()。

A、评估 B、验证  C、训练和验证 D、性能度量准则

3. 以下属于典型的监督学习的是(C )

A、聚类  B、关联分析  C、分类  D、降维

4. (A  )是指机器学习算法对新鲜样本的适应能力。

A、泛化能力  B、测试能力  C、识别能力  D、训练能力

5. 欠拟合是指(C )

A、在训练集表现非常好,但在测试集上表现很差

B、在训练集表现非常好,但在测试集上表现也非常好

C、在训练集表现非常差,但在测试集上表现很差

D、在训练集表现非常差,但在测试集上表现非常好

6. 如果我使用训练集的全部特征并且能够达到100%的准确率,但在测试集上仅能达到70%左右,这说明(B )

A、欠拟合  B、过拟合  C、模型很棒  D、模型不确定

18. 以下属于典型的无监督学习的是(C )

A、支持向量机

B、k-近邻算法

C、降维

D、逻辑回归

19. 下列关于过拟合的说法错误的是(   )。

A、模型的训练误差比较高,则称此分类模型过拟合。

B、可以通过选取具有代表性样本的训练样本集来解决过拟合问题。

C、模型的训练误差低但是泛化误差比较高,则称此分类模型过拟合。

D、可以通过预剪枝,避免决策树规模过大产生过拟合。

多选题:

1. 根据样本集合中是否包含标签以及半包含标签的多少,可以将机器学习分为(ABD )

A、监督学习  B、无监督学习  C、迁移学习  D、半监督学习

2. 以下属于解决模型过拟合的方法的是(ABD )

A、增加训练数据量  B、对模型进行裁剪  C、增加训练过程的迭代次数  D、正则化

3. 聚类的宗旨是(BD )

A、类内距离最大化 B、类间距离最大化 C、 类间距离最小化 D、类内距离最小化

6. 机器学习中,通常将数据集划分为(ABC  )

A、训练集    B、验证集   C、测试集    D、对照集

判断题:

1. 根据模型预测输出的连续性,可以将机器学习算法适配的问题划分为分类问题和线性问题。(F )

答:回归

2. 降维、聚类是无监督学习算法。(

3. 当我们说模型训练结果过拟合的时候,意思是模型的泛化能力很F )

答:弱

4. 训练误差和泛化误差之间的差异越小,说明模型的泛化性能越好。(T )

17. 特征提取是指对现有特征进行重新组合产生新的特征,例如相对于年龄,出生年月就是冗余特征。(F )

答:从原始数据中抽取出新的特征

19. 聚类的目的是对样本集合进行自动分类,以发掘数据中隐藏的信息、结构,从而发现可能的商业价值。 ()       

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/30602.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

TCP/UDP协议传输

TCP 客户端 #include <stdio.h> #include <sys/types.h> #include <sys/socket.h> #include <unistd.h> #include <arpa/inet.h> #include <netinet/in.h> #include <string.h>//宏定义错误输出格式>>>>类比封装函数#…

什么是无限铸币攻击?它是如何运作的?

一、无限铸币攻击解释 无限铸币攻击是指攻击者操纵合约代码不断铸造超出授权供应限制的新代币。 这种黑客行为在去中心化金融 (DeFi) 协议中最为常见。这种攻击通过创建无限数量的代币来损害加密货币或代币的完整性和价值。 例如&#xff0c;一名黑客利用了 Paid 网络的智能…

ansible 模块进阶及变量

yum 模块进阶 - name: install pkgs hosts: webservers tasks: - name: install web pkgs # 此任务通过yum安装三个包 yum: name: httpd,php,php-mysqlnd state: present # 根据功能等&#xff0c;可以将一系列软件放到一个组中&#xff0c;安装软件包组&#xff0c;将会把很…

shell脚本之数组及冒泡排序

1.数组定义&#xff1a;在集合当中指定多个元素&#xff0c;元素的类型可以是整数、字符串及浮点。 2.数组作用&#xff1a;一次性的定义多个元素&#xff0c;可以为变量赋值提供便利。 3.数组的定义方法&#xff1a; 数组名&#xff08;a b c d&#xff09; 数组名不能重复…

IPV6配置二

IV6 的单播路由协议-----在使用路由协议前一定需要开启 IPV6的单播路由功能&#xff0c;否则不转发IPV6的流量 【1】IPV6 静态路由协议&#xff1a; (1)普通静态路由 rl(config)#ipv6 route 2::/64 serial 1/1 rl(config)#ipv6 route 2::/64 12:2 &#xff1f; …

【速过】2024年9月三级数据库技术题库+知识点总结

24年3月已经考了一次数据库&#xff0c;实话&#xff0c;三级比二级简单一些&#xff0c;知识点都比较集中&#xff0c;50%-60%是题库里面的原题&#xff0c;考前只要好好的过一遍题库考到80以上完全没有问题&#xff0c;你实在不会答案背下来也是可以的&#xff0c;不过更多的…

kotlin函数

1、函数定义 // 下边定义了main函数 fun main() {} 2、函数的类型 // foo函数定义 fun foo () {} // 对应无参类型 () -> Unit fun foo (a: Int):String {} // 对应有参类型 (Int) -> String 3、函数的引用 函数的引用类似C语言中的函数指针&#xff0c;可用于函数传…

外包干了2年,彻底废了...

先说一下自己的情况。大专生&#xff0c;17年通过校招进入湖南某软件公司&#xff0c;干了接近2年的点点点&#xff0c;今年年上旬&#xff0c;感觉自己不能够在这样下去了&#xff0c;长时间呆在一个舒适的环境会让一个人堕落&#xff01;而我已经在一个企业干了五年的功能测试…

选择江苏显卡服务器租用的优势有哪些?

显卡服务器有着强大的计算功能&#xff0c;可以使用图形处理器进行计算与运算&#xff0c;十分适用于对计算性能需求比较高的企业和组织&#xff0c;本文主要来介绍选择江苏显卡服务器租用的优势有哪些吧&#xff01; 江苏显卡服务器使用了先进的实时高速的并行计算技术和浮点计…

【docker安装rabbitmq】

docker安装rabbitmq 1.查阅rabbitmq的Dokcer Hub官方说明 rabbitmq地址&#xff0c;因为我们需要使用的是带管理界面的rabbitmq服务。所以我们需要下载的rabbitmq:management镜像 docker pull rabbitmq:management2.启动rabbitmq 2.1.快速启动 One of the important thing…

Go中的channel是同步还是异步

Go语言中的channel可以是异步也可以是同步&#xff0c;这取决与它是否是一个缓冲的channel。 同步channel 无缓冲的channel默认是同步的channel类型&#xff0c;即创建时没有执行缓冲大小。当数据被发送到无缓冲的channel中时&#xff0c;发送者会阻塞直到接受者收到数据。同…

笔记本系统盘移植与windowsLinux双系统安装

目录 一、 前言二、 Windows系统移植二、 安装Linux三、 Windows分区配置 一、 前言 笔记本内存不够了&#xff0c;之前给笔记本添加了一个机械硬盘&#xff0c;也几乎爆满了&#xff0c;于是购置了1T的固态硬盘&#xff0c;打算用这个固态硬盘安装双系统&#xff0c;剩余空间…

胡说八道(24.6.18)——通信杂谈(科普知识)

既聊完中国和西方的通信历史之后&#xff0c;咱们继续来看看与有线通信相对应的无线通信&#xff0c;至于有线通信线的类型这里就不多说&#xff0c;像电话线&#xff0c;光纤&#xff0c;电缆(用于有线电视信号传输、早期的计算机网络)等&#xff0c;这些都是有线通信的范围。…

[面试题]消息队列

[面试题]Java【基础】[面试题]Java【虚拟机】[面试题]Java【并发】[面试题]Java【集合】[面试题]MySQL[面试题]Maven[面试题]Spring Boot[面试题]Spring Cloud[面试题]Spring MVC[面试题]Spring[面试题]MyBatis[面试题]Nginx[面试题]缓存[面试题]Redis[面试题]消息队列 什么是…

GPT4v和Gemini-Pro调用对比

要调用 GPT-4 Vision (GPT-4V) 和 Gemini-Pro&#xff0c;以下是详细的步骤分析&#xff0c;包括调用流程、API 使用方法和两者之间的区别&#xff0c;以及效果对比和示例。 GPT-4 Vision (GPT-4V) 调用步骤 GPT-4 Vision 主要通过 OpenAI 的 API 进行调用&#xff0c;用于处…

【趣味测试】

编程过程中遇到的趣味知识 1 Cpp 1.1 浮点数计算 if (0.1 0.2 0.3) {std::cout << "0.1 0.2 0.3 true" << std::endl;} else {std::cout << "0.1 0.2 0.3 false" << std::endl;}if (0.1 0.3 0.4) {std::cout << &…

喜讯!昂辉科技通过2024年度重点产业链企业(第一批)认定

日前&#xff0c;合肥市推进战略性新兴产业发展工作委员会办公室公布了 2024年度重点产业链企业&#xff08;第一批&#xff09;新入库名单&#xff08;集成电路、新型显示、网络与信息安全、城市安全、空天信息、新能源汽车和智能网联汽车、生物医药、新材料、高端装备、节能环…

嵌入式学习——Linux高级编程复习(网络编程)——day42

1. 协议 通信双方约定的一套标准称为协议 2. OSI参考模型 OSI模型是由国际标准化组织&#xff08;ISO&#xff09;制定的一个概念性的网络通信模型&#xff0c;它将网络通信的功能分为七个层次&#xff0c;从下至上分别为&#xff1a; 物理层&#xff08;Physical Layer&…

百度一下首页制作(HTML+CSS)

部分代码展示&#xff1a; <!DOCTYPE html> <html> <head><meta charset"utf-8"><title>百度一下&#xff0c;你就知道</title><style type"text/css">/*清除元素默认性质*/body { margin: 0;padding: 0;list-…

前端传进来的单选值是0,到了后端加了个逗号

如上图所示&#xff0c;标记的var的值org和id的值orgOrNot不能一样&#xff0c;如果一样&#xff0c;通过id获取&#xff08;#(“#orgOrNot”).find(“option:selected”).val()&#xff09;时候就会出现这种情况 改成如下情况&#xff0c;区别开id