机器学习 | 基本概念梳理——数据集评估,任务,训练和测试,期望结果

文章目录

  • 1 整体概念梳理
    • 1.1 数据集与数据术语——原材料
    • 1.2 任务术语——目标
    • 1.3 训练和测试术语——怎么做
    • 1.4 结果——预期期望

整体框架

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

机器学习的基本概念全梳理

我们通过一个生动形象的例子来介绍这些概念

我们假设有一个任务是根据地理天气等特征位置预测经纬度

1 整体概念梳理

1.1 数据集与数据术语——原材料

进行机器学习,首先要有一个一个的数据,理论上数据越多越好

数据本身会有一些特征信息,比如(湿度,温度,降水量,风速),我们把这些称作属性属性最后会表示为向量,,我们叫他特征向量,这些特征向量最后会张成一个向量空间, 属性的向量空间叫属性空间样本空间输入空间

数据除了本身的一些特征信息,还要有对应的标记 示例结果信息,比如最后的经纬度信息,标记张成的空间叫做标记空间 或者输出空间

而数据的集合就是数据集 ,数据集往往会分为训练数据集测试数据集

  • 前者用来训练,优化模型参数
  • 后者用来测试评估模型

1.2 任务术语——目标

有了数据,我们还要有目标,即让模型干什么,机器学习中很多都是预测类

如果我们要预测的是离散值,比如判断一个猕猴桃是优质的还是不优质的,叫做分类问题

  • 只涉及两个类别的称做二分类 通常称其中一个为正类,另外一个为反类
  • 多个类别的分类,叫做多分类

如果我们要判断的是连续值,比经纬度,那么叫做回归问题

怎么训练呢

1.3 训练和测试术语——怎么做

有监督学习和无监督学习

有监督学习:有监督学习是指在训练过程中,模型从带有标签的数据中学习。这些标签是预先定义的输出,它们告诉模型每个输入数据点的正确结果。有监督学习的目标是让模型能够学习到输入数据与输出标签之间的映射关系,以便在给定新的、未见过的数据时能够做出准确的预测。

  • 典型的任务有分类(Classification)和回归(Regression)
  • 例子:图像识别、语音识别、信用评分、股票价格预测等。

无监督学习: 无监督学习是指在训练过程中,模型处理没有标签的数据。模型需要自行发现数据中的结构和模式。无监督学习的目标是探索数据的内在特性,而不是从标签中学习。

  • 典型任务类型:聚类(Clustering)、降维(Dimensionality Reduction)和关联规则学习(Association Rule Learning)
  • 例子:社交网络分析、推荐系统(通过用户行为而非明确标签)、异常检测等

1.4 结果——预期期望

我们最终希望得到一个泛化能力强的模型

泛化能力(Generalization)是机器学习模型的一个重要特性,它描述了模型在处理新的、未见过的数据时的表现能力。一个具有良好泛化能力的模型能够将从训练数据中学到的知识有效地应用到新的情境中,做出准确的预测或决策。

但是模型会根据我们选取的算法不同而产生归纳偏好

就好比我们要评价一个产品的质量好坏,有些人是从产品的外观评价得出是个好产品,而有些人是从产品的内核评价得出是个坏产品。机器学习也类似,他可能偏向于从某些特征做出自己的判断。

而假设所有问题都同等重要的情况下,所有算法的总误差的期望都是一样的,这叫做天下没有免费的午餐定理。因而我们要意识到 一点,就是算法的好坏是就具体问题而论的,有些算法可能在某一个问题表现很好,但在另外的问题上表现却很差。

我们要具体问题具体分析

参考

周志华老师《机器学习》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/705348.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

php查看哪个类的调用当前函数

在 PHP 中,你可以通过使用 debug_backtrace() 函数来查看当前类的哪个方法调用了当前方法。debug_backtrace() 函数返回一个包含调用堆栈信息的数组,你可以从中获得有关调用者的信息。 下面是一个简单的示例: class MyClass {public functi…

2023 re:Invent 用 Amazon Q 打造你的知识库

前言 随着 ChatGPT 的问世,我们迎来了许多创新和变革的机会。一年一度的亚马逊云科技大会 re:Invent 也带来了许多前言的技术,其中 Amazon CEO Adam Selipsky 在 2023 re:Invent 大会中介绍 Amazon Q 让我印象深刻,这预示着生成式 AI 的又一…

VUE从0到1创建项目及基本路由、页面配置

一、创建项目:(前提已经安装好vue和npm) 目录:E:\personal\project_pro\ windows下,win+R 输入cmd进入命令行: cd E:\personal\project_pro E:# 创建名为test的项目 vue create test# 用上下键选择vue2或vue3,回车确认创建本次选择VUE3 创建好项目后,使用…

FPS游戏之漫谈开房间流程

在FPS游戏中创建房间的前端和后端逻辑通常如下: 前端(客户端)逻辑: 用户界面设计: 提供一个创建房间的表单,包含输入框(房间名、可选密码、房间类型选择等)。提供创建按钮&#xff…

Nginx之rewrite重写功能

一、rewrite概述 1、rewrite功能 访问重写 rewrite 是 Nginx HTTP 请求处理过程中的一个重要功能,它是以模块的形式存在于代码中的,其功能是对用户请求的 URI 进行 PCRE 正则重写,然后返回 30 重定向跳转或按条件执行相关配置。 Nginx服务…

重新认识linux中的sudo命令

以前一直以为sudo命令就是以root权限执行命令,打了HACKSUDO: THOR靶场才发现原来sudo还可以有很多别的用法。 sudo的常用参数: -u:指定以特定用户的身份执行命令,格式为 -u username。-g:指定以特定用户组的身份执行…

idea 创建打包 android App

1、使用 idea 创建 android 工程 2、 配置构建 sdk 3、配置 gradle a、进入 gradle 官网,选择 install (默认是最新版本) b、选择包管理安装,手动安装选择下面一个即可 c、安装 sdk 并通过 sdk 安装 gradle 安装 sdk&#xff1a…

ABAP性能优化总结

前言 程序的效率是每个程序员开发者都应该重视的,无论您是采用哪一种语言进行开发. 程序有时候越短,并不一定越快,有时候程序很多代码,但不一定会很慢. 性能是一把双刃剑, 获得时间效率的同时, 牺牲的是空间的开销. 这里提供一些建议以提高你的程序运行速度和减低系统荷载。AB…

软件无线电SDR加人工智能算法实现无人机频谱探测

通用软件无线电接收机作为传感器实时接收探测无线电信号,加上深度学习算法实现频谱识别,(https://img-blog.csdnimg.cn/5a6c4d89a047453a94f763f4e67aeb17.png)

合并果子(哈夫曼树)NOIP2004提高组

在一个果园里,达达已经将所有的果子打了下来,而且按果子的不同种类分成了不同的堆。 达达决定把所有的果子合成一堆。 每一次合并,达达可以把两堆果子合并到一起,消耗的体力等于两堆果子的重量之和。 可以看出,所有…

个人编译踩的坑

CMake引入第三方库 find_package(PkgConfig REQUIRED) pkg_search_module(alibabacloud-oss-cpp-sdk IMPORTED_TARGET alibabacloud-oss-cpp-sdk) message(STATUS "AliOSS include path: ${alibabacloud-oss-cpp-sdk_INCLUDE_DIRS}") message(STATUS "AliOSS l…

大话设计模式——3.建造者模式(Builder Pattern)

1.定义: 将一个复杂对象的构建与它的表示分离,使得同样的构建过程可以创建不同的表示。UML图 2.示例: 汽车或者电脑的组装可以采用构造者模式进行设计,如汽车的引擎或者轮胎,电脑的处理器、内存、主板等都可以进行…

flutter简单的MethodChannel通道Demo(引入调用小红书sdk)

flutter端创建MethodChannel类 import package:flutter/services.dart;//MethodChannel const methodChannel const MethodChannel(com.flutter.demo.MethodChannel);class FlutterMethodChannel {/** MethodChannel flutter给原生发信息* 在方法通道上调用方法invokeMethod*…

FPS游戏漫谈System.GC.Collect()强制进行垃圾回收

在Unity中,System.GC.Collect()用于强制进行垃圾回收,但是它是一个相当耗时的操作,可能会导致游戏的帧率下降,甚至出现卡顿。因此,你应该尽量避免在游戏的主循环中频繁调用它。以下是一些关于在Unity中使用System.GC.C…

Java做个比对数据的框架

要创建一个Java中的数据比对框架,你需要考虑框架的架构、可扩展性、模块化和可重用性。以下是一个简单的步骤,指导你如何构建这样的框架: 定义框架的核心接口和抽象类: 定义数据源的接口,例如DataSource,用…

Java实战:Spring Boot接口防止重复提交

本文将详细介绍如何在Spring Boot应用程序中防止接口重复提交。我们将探讨重复提交的基本概念,以及如何使用Spring Boot和第三方库来实现接口的防重复提交功能。此外,我们将通过具体的示例来展示如何在Spring Boot应用程序中配置和使用防重复提交功能&am…

[开源协议] 什么是MIT协议及其使用场景

什么是MIT协议? MIT协议是一种开放源代码软件授权协议,全称为Massachusetts Institute of Technology License。该协议允许自由地使用、复制、修改、合并、发布、分发、再授权和销售软件及其副本的任何部分。MIT协议要求在软件的所有副本中包含版权声明和许可声明…

高性能API云原生网关 APISIX安装与配置指南

Apache APISIX是Apache软件基金会下的顶级项目,由API7.ai开发并捐赠。它是一个高性能的云原生API网关,具有动态、实时等特点。 APISIX网关可作为所有业务的流量入口,为用户提供了丰富的功能,包括动态路由、动态上游、动态证书、A…

瀑布型还是敏捷型?一次搞懂主数据项目实施方法

在主数据项目实施的过程中,经常会碰到一个让人头痛的问题,我该选择什么样的实施方法才能够更为高效地完成项目的交付? 得帆经过多年在软件行业的摸爬滚打,总结出了适合主数据项目的实施方法。接下来我们将为大家介绍两种常用的实…

Android 启动流程及 init 进程解析

一、Android 启动流程概括 按下电源键触发开机,从 ROM 加载引导程序 BootLoader 到 RAM 中,BootLoader 执行启动 Linux kernel,然后启动第一个用户进程 init,init 进程的工作包括挂载文件、创建文件目录、设置 selinux 安全策略&…