数据分析 - 机器学习

1:线性回归

线性回归是一种统计技术用于对输出变量与一个或多个输入变量之间的关系进行建模
用外行人的话来说,将其视为通过某些数据点拟合一条线,如下所示
以便在未知数据上进行预测,假设变量之间存在线性关系

在这里插入图片描述

点和线之间存在微小的差异,被称为残差
他们是数据点和预测线之间的差异
取每个残差并对他们进行平方,得到平方误差,残差越大正方形的面积就越大
如果我们将给定线的所有这些正方形的面积相加,我们将得到平方误差的总和这就是我们的损失函数

我们将三分之一的数据并将其放入测试数据集中,剩余的三分之二将成为训练数据集,
然后使用训练数据集来拟合回归线,
然后,测试数据集将用于验证回归线,
这样做是为了确保回归在之前未见过的数据上表现良好。

决策树

决策树:为了达到目标根据一定条件进行选择的过程
常用语:房地产、银行,为了找到核心客户的学习方法
常被用于分类和回归
决策树由 根节点,子节点、叶子节点
决策树的分类标准:熵 (表示一个系统内在的混乱程度)熵代表是分支下样本种类的丰富性
样本种类越多越混乱,熵值越大,决策树的构造深度就是熵值的降低,熵值降低越快,代表决策树分类效率越高
决策树最大的优点是 天然的可解释性的,数据自动处理
缺点就是 不会存在完美的决策树,如果存在就是过拟合了
防止过拟合就是剪枝

剪枝有两种:预剪枝和后剪枝

预剪枝是在训练开始前规定条件,比如树达到某一深度就停止训练
后剪枝则是先找到树,再根据一定条件如限制叶子节点的个数,去掉一部分分支

随机森林

随机森林里面有很多决策树
随机森林是决策树的升级版
随机指的是树的生长过程
随机森林中的树也是各不相同
在构建决策树时,我们也不会使用数据的全部特征,而是随机选取部分特征进行训练,
每棵树使用的样本特征各不相同,训练的结果自然也各不相同
我们并不知道哪些是异常样本
也不知道哪些特征对分类结果影响更大,随机的过程降低了两者对分类结果的影响
随机森林的输出结果由投票决定,如果大部分决策认为测试数据是好苹果,那我们就认为它是好苹果,这很像人类的民主决策
推理过程和结论各不相同,但当每个人都拥有投票权时,往往能做出较优的决策,因为树与树之间的独立,它们可以同时训练,不需要花太多时间。
随机的过程让它不容易拟合,能处理特征较多的高维数据
也不需要做特征选择,合理训练后准确性很高,不知道使用什么分类方法时
先试一试随机森林准没错
在机器学习中随机森林属于集成学习,也就是将多个模型组合起来解决问题
这些模型会独立、预测、在投票出结果,准确性往往比单独的模型高很多

聚类

k-mean
k 表示样本数,把数据分为几类
将一群无标签数据,按特征属性,分为有标签属性

例如:有一个很多水果,但是很混乱,我不知道有哪几种水果,

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/690851.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Git面试题整理(基本点)

1.简述Git Git是一种分布式版本控制系统,它允许多个开发者在任何时间,从任何地点对代码进行编辑和分享,而不会互相干扰。Git通过跟踪和管理代码的历史版本,帮助团队协作开发复杂的项目。 与集中式版本控制系统不同&#…

[ansible] playbook运用

一、复习playbook剧本 --- - name: first play for install nginx #设置play的名称gather_facts: false #设置不收集facts信息hosts: webservers:dbservers #指定执行此play的远程主机组remote_user: root #指定执行此play的用…

【Java万花筒】选择最适合您的数据序列化格式:比较 Avro、Protocol Buffers、JSON、XML、MessagePack和BSON

选择最佳数据序列化格式:找到适合您的解决方案 前言 在当今数据驱动的世界中,高效地处理和传输数据变得至关重要。选择合适的数据序列化格式对于数据存储、通信和处理的性能至关重要。本文将介绍并比较几种常用的数据序列化格式,包括Apache…

python绘制k线图均线图

AAPL.csv 数据文件 Date,Close,Volume,Open,High,Low 06/23/2023,$186.68,53117000,$185.55,$187.56,$185.01 06/22/2023,$187.00,51245330,$183.74,$187.045,$183.67 06/21/2023,$183.96,49515700,$184.90,$185.41,$182.5901 06/20/2023,$185.01,49799090,$184.41,$1…

2.19C语言学习

P8597 [蓝桥杯 2013 省 B] 翻硬币 因为把相邻两个硬币翻转两次相当于不翻,所以最优方案中同一组硬币最多只会翻转一次,故翻转顺序无后效性,考虑贪心:从前往后比较,发现一个不同的硬币就把它和他后面的硬币翻转&#x…

单例模式的几种实现方式

在Java中,实现单例模式主要有几种方式:懒汉式、饿汉式、双重检查锁定、静态内部类和枚举。每种方式都有其特点和适用场景。 1. 饿汉式(线程安全) 饿汉式是最简单的一种实现方式,通过静态初始化实例,保证了…

springboot 事务管理 详细介绍

在Spring Boot中,事务管理是一种关键的特性,它确保了数据的完整性和一致性。Spring Boot提供了对事务管理的内置支持,使得在应用程序中使用事务变得非常简单。 事务管理的基本概念 事务是指一系列操作,这些操作要…

15-55V输入自动升降压 光伏MPPT自动跟踪充电方案 大功率300瓦

1.MPPT原理--简介 MPPT,全称为Maximum Power Point Tracking,即最大功点跟踪,它是一种通过调节电气模块的工作状态,使光伏板能够输出更多电能的电气系统能够将太阳能电池板发出的直流电有效地贮存在蓄电池中,可有效地…

【蓝桥杯】算法模板题(Floyd算法)

一.弗洛伊德算法 用途:用来求解多源点最短路径问题。 思想:Floyd算法又称为插点法,是一种利用动态规划的思想寻找给定的加权图中多源点之间最短路径的算法。 主要步骤: 1)初始化:使用邻接矩阵初始化dis…

第十四届“中关村青联杯”全国研究生数学建模竞赛-A题:无人机在抢险救灾中的优化运用

目录 摘 要: 1 问题重述 1.1 问题背景 1.2 待解决的问题 2 模型假设及符号说明

GitHub仓库文件部署

目录 软件下载和安装 git创建仓库 Github仓库配置 git管理软件配置 Git管理 软件下载和安装 首先需要下载git,以及git管理软件,对其进行安装。 git创建仓库 首先需要创建仓库,在本地仓库文件夹cmd之后输入以下指令创建git仓库文件。 …

解决laravel-admin安装报错1071 Specified key was too long问题

在执行php artisan admin:install命令安装laravel-admin的时候,如果你使用的数据库是MySQL v5.7.7以下版本就会报下面的错: SQLSTATE[42000]: Syntax error or access violation: 1071 Specified key was too long; max key length is 1000 bytes (SQL:…

课时39:表达式_运算符_简单计算

3.1.2 简单计算 学习目标 这一节,我们从 [ ] 、 l e t 、 ( ( ) ) 、 []、let、(())、 []、let、(())、(())、小结 五个方面来学习。 $[] 简介 $[]方法,常用于整数计算场景,适合不太复杂的计算,运算结果是小数的也会自动取整…

递归读取文件夹下的所有文件

水一篇文章 🐶 代码 package file;import org.apache.commons.lang3.StringUtils; import org.junit.Test;import java.io.File; import java.util.Objects;/*** FlattenDirFiles** author allens* date 2024/2/19*/ public class FlattenDirFiles {// 文件数量pri…

小米空气净化器2s使用体验

这个产品最早上市是2017年,我买回来实际上只用了1年就弃用了,性能不行,使用体验也不好。 打算买新的空气净化器,抽空吐槽一下。 这个净化器发售价是899,在当时来说算中下水平的,小米的,有米家…

什么是跨端,常用的跨端技术

跨平台是跨操作系统,跨端是指客户端 常见的客户端有,web、android、ios 等,客户端的特点是有界面、由逻辑,所以包含逻辑跨端和渲染跨端。 常用的跨端技术方案 React Native: 由 Facebook 推出的开源框架,…

Spring Boot与LiteFlow:轻量级流程引擎的集成与应用含完整过程

点击下载《Spring Boot与LiteFlow:轻量级流程引擎的集成与应用含完整过程》添加链接描述 1. 前言 本文旨在介绍Spring Boot与LiteFlow的集成方法,详细阐述LiteFlow的原理、使用流程、步骤以及代码注释。通过本文,读者将能够了解LiteFlow的特…

数据分析师SQL面试准备(part1)

1. SQL 万能框架 2. SQL的书写顺序,跟程序真的执行顺序不同 3. 4. 5. 6. 7. case when utilization 8. 9. 10. 11.

OpenHarmony—UIAbility组件间交互(设备内)

UIAbility是系统调度的最小单元。在设备内的功能模块之间跳转时,会涉及到启动特定的UIAbility,该UIAbility可以是应用内的其他UIAbility,也可以是其他应用的UIAbility(例如启动三方支付UIAbility)。 本章节将从如下场…

多维时序 | Matlab实现LSTM-Mutilhead-Attention长短期记忆神经网络融合多头注意力机制多变量时间序列预测模型

多维时序 | Matlab实现LSTM-Mutilhead-Attention长短期记忆神经网络融合多头注意力机制多变量时间序列预测模型 目录 多维时序 | Matlab实现LSTM-Mutilhead-Attention长短期记忆神经网络融合多头注意力机制多变量时间序列预测模型预测效果基本介绍程序设计参考资料 预测效果 基…