特征工程(一)

特征工程(一)

什么是特征工程

简单来讲将数据转换为能更好地表示潜在问题的特征,从而提高机器学习性能

特征工程包含的内容

  1. 转换数据的过程
  2. 特征
  3. 更好地表示潜在问题
  4. 提高机器学习性能

数据和机器学习的基础知识

数据基础

以下为数据的一个实例

其中,每行都是一个观察值,包含四个属性,其中每个属性都有属于自己的特性和变化趋势
特征工程需要接受处理多或少、宽或窄、完整或稀疏的数据,并准备好在机器学习中应用这些数据。

机器学习基础

1.监督学习
一般来说,绝大部分都是在监督学习(也可以成为预测分析)的特定上下文中提到的特征工程。监督学习算法是专门处理预测一个值的任务,通常是使用数据中的其他属性来预测余下的一个属性。
例如上面的实例中,使用其他数据,来预测FIT201
在监督学习中,我们一般将数据集中希望预测的属性(一般是一个,也存在多个)叫做标签(label),其余属性叫做特征(feature)。
2.无监督学习
监督学习的目的是预测,我们利用数据的特征对label进行预测,提供有效信息。如果不是要通过探索结构进行预测,那想要从数据中提取结构。要做到后者,一般对数据的数值矩阵或迭代过程应用数学变换,提取新的特征。具体来讲,就是将数据集细分为不同的类型或类别,以供后续任务进行分析与应用。

机器学习算法和特征工程的评估

注意,在很多地方,特征和属性通常有明显的区分。属性一般是表格数据的列,特征则一般只指代对机器学习算法有益的属性。换句话说,就是存在有些属性对机器学习系统不一定有益,甚至有害。

特征工程的评估步骤

  1. 在应用任何特征之前,得到机器学习模型的基准;
  2. 应用在一种或多种特征工程;
  3. 对于每种特征工程,获取一个性能指标,并与基准性能进行对比;
  4. 如果性能的增量(变化)大于某个阈值(一般由我们定义),则认为这种特征工程是有益的,并在机器学习流水线上使用;
  5. 性能的改变一般以百分比计算(如果基准性能从40%的准确率提高到76%的准确率,那么改变是90%)

评估监督学习算法

当进行监督学习是,性能直接与模型利用数据结构的能力,以及使用数据结构进行恰当预测的能力,一般而言,可以将监督学习分为两种更具体的类型:分类(classification)、回归(regression)

  1. 分类的评估指标:
    常见的评价指标有准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1 score、ROC曲线(Receiver Operating Characteristic Curve)等
  2. 回归的评估指标:
    平均绝对误差(MAE, Mean Absolute Error)这个指标是对绝对误差损失的预期值
    平均绝对百分比误差(MAPE, Mean Absolute Percentage Error)这个指标是对相对误差损失的预期值.所谓相对误差,就是绝对误差和真值的百分比.
    均方误差(MSE, Mean Squared Error)该指标对应于平方(二次)误差的期望.均方误差根或均方根误差(RMSE, Root Mean Squared Error)该指标对应于平方(二次)误差的期望.
    R Squared(r2 score)R Squared又叫可决系数(coefficient of determination)也叫拟合优度,反映的是自变量x对因变量y的变动的解释的程度.越接近于1,说明模型拟合得越好.
    这里暂时不详细展开,等后续补充

评估无监督学习算法

常见无监督聚类算法,使用轮廓系数作为测量指标。再此之外,还存在其他的评估方法,在此暂不展开。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/606603.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用 Windows 调试器查找 GDI 泄漏

文章目录 介绍为什么!htrace命令无法使用?总结附:GDI使用的几个注意点:本文将带您了解如何使用 Windows 调试器跟踪 GDI 句柄泄漏,并了解如何修复它们。 介绍 本文是有关使用 Windows 调试器查找和修复 GDI 句柄泄漏的演练。Windows调试器应该是最后的手段,首先在整个代…

密码学:一文读懂非对称密码体制

文章目录 前言非对称密码体制的保密通信模型私钥加密-公钥解密的保密通信模型公钥加密-私钥解密的保密通信模型 复合式的非对称密码系统散列函数数字签名数字签名满足的三个基本要求先加密还是先签名?数字签名成为公钥基础设施以及许多网络安全机制的基础什么是单向…

图表征模型研究

图表征对于知识图谱是很重要的,如何将图进行embedding,并输入到深度学习模型中,是一个热点问题。 1. GraphSage模型 主要应用于同构图中,是一种归纳式的图表征模型,首先从一个图中训练出embedding方法,在…

YOLOv8 Ultralytics:使用Ultralytics框架进行姿势估计

YOLOv8 Ultralytics:使用Ultralytics框架进行姿势估计 前言相关介绍前提条件实验环境安装环境项目地址LinuxWindows 使用Ultralytics框架进行姿势估计参考文献 前言 由于本人水平有限,难免出现错漏,敬请批评改正。更多精彩内容,可…

计算机创新协会冬令营——暴力枚举题目06

我给大家第一阶段的最后一道题就到这里了,下次得过段时间了。所以这道题简单一点。但是足够经典 下述题目描述和示例均来自力扣:两数之和 题目描述 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target …

Transformer简略了解

Transformer出自论文:《Attention Is All You Need》 该论文的提出,对RNN循环神经网络产生了冲击,席卷了自然语言处理(NLP)领域,后续的GPT4.0版本也是根据其进行训练优化的 一、Transformer主体架构 可以简化分为Encoders和Decod…

nginx部署前端项目自动化脚本

文章目录 配置入口服务器nginx的conf.d使用docker创建一个nginx配置自动化脚本 前言 将项目 通过nginx 部署到 新的服务器 通过nginx反向代理出去 配置入口服务器nginx的conf.d 一般在这个文件夹下 找不到使用 find / -name nginx 2>/dev/null 找到nginx 的位置如果有些没有…

WPF 导航界面悬浮两行之间的卡片 漂亮的卡片导航界面 WPF漂亮渐变颜色 WPF漂亮导航头界面 UniformGrid漂亮展现

在现代应用程序设计中,一个漂亮的WPF导航界面不仅为用户提供视觉上的享受,更对提升用户体验、增强功能可发现性和应用整体效率起到至关重要的作用。以下是对WPF漂亮导航界面重要性的详尽介绍: 首先,引人入胜的首页界面是用户与软…

【Flet教程】使用Flet以Python创建TODO应用程序

Flet是基于Python实现的Flutter图形界面GUI。除了使用Python,具备美观、简洁、易用,还有Flutter本身的跨平台(安卓、iOS、Win、Mac、Web)、高性能、有后盾的特点。下面是0.18版官方TODO APP教程,为了准确,保…

Hyperledger Fabric Java App Demo

编写一个应用程序来连接到 fabrc 网络中,通过调用智能合约来访问账本. fabric gateway fabric gateway 有两个项目,一个是 fabric-gateway-java , 一个是 fabric-gateway。 fabric-gateway-java 是比较早的项目,使用起来较为麻烦需要提供一…

shell中的正则表达式、编程-grep、编程-SED、以及编程-AWK

正则表达式RE 用来处理文本 正则表达式(Regular Expression, RE)是一种字符模式, 用于在查找过程中匹配指定的字符. 在大多数程序里, 正则表达式都被置于两个正斜杠之间; 例如/l[oO]ve/就是由正斜杠界定的正则表达式, 它将匹配被查找的行中任何位置出现的相同模式. 在正则表达…

SpringBoot 如何 配置端口号

结论 server:port: 8088演示 [Ref] 快速构建SpringBoot项目

是时候扔掉cmder, 换上Windows Terminal

作为一个Windows的长期用户,一直没有给款好用的终端,知道遇到了 cmder,它拯救一个习惯用Windows敲shell命令的人。 不用跟我安利macOS真香!公司上班一直用macOS,一方面确实更加习惯windows下面学习, 另一方面是上课需要…

天津最新web前端培训班 如何提升web技能?

随着互联网的迅猛发展,web前端成为了一个热门的职业方向。越来越多的人希望能够通过学习web前端技术来提升自己的就业竞争力。为了满足市场的需求,许多培训机构纷纷推出了web前端培训课程。 什么是WEB前端 web前端就是web给用户展示的东西,…

Python将Labelme文件的真实框和预测框绘制到图片上

Python将Labelme文件的真实框和预测框绘制到图片上 前言前提条件相关介绍实验环境Python将Labelme文件的标注信息绘制到图片上代码实现输出结果 前言 由于本人水平有限,难免出现错漏,敬请批评改正。更多精彩内容,可点击进入Python日常小操作专…

深入理解Java源码:提升技术功底,深度掌握技术框架,快速定位线上问题

为什么要看源码: 1、提升技术功底: 学习源码里的优秀设计思想,比如一些疑难问题的解决思路,还有一些优秀的设计模式,整体提升自己的技术功底 2、深度掌握技术框架: 源码看多了,对于一个新技术…

猫头虎分享已解决Bug || Error: ImagePullBackOff (K8s)

博主猫头虎的技术世界 🌟 欢迎来到猫头虎的博客 — 探索技术的无限可能! 专栏链接: 🔗 精选专栏: 《面试题大全》 — 面试准备的宝典!《IDEA开发秘籍》 — 提升你的IDEA技能!《100天精通Golang》…

快速幂算法总结

知识概览 快速幂可以在O(logk)的时间复杂度之内求出来的结果。 例题展示 快速幂 题目链接 活动 - AcWing 系统讲解常用算法与数据结构,给出相应代码模板,并会布置、讲解相应的基础算法题目。https://www.acwing.com/problem/content/877/ 代码 #inc…

电子学会2023年12月青少年软件编程(图形化)等级考试试卷(一级)真题,含答案解析

青少年软件编程(图形化)等级考试试卷(一级) 分数:100 题数:37 一、单选题(共25题,共50分) 1. 观察下列每个圆形中的四个数,找出规律,在括号里填上适当的数?( )

Python武器库开发-武器库篇之端口扫描器开发(四十四)

Python武器库开发-武器库篇之端口扫描器开发(四十四) 端口是计算机网络中用于区分不同应用程序或服务的逻辑概念。计算机通过端口号来识别数据包应该发送给哪个应用程序或服务。在互联网协议(IP)中,端口号是16位的数字,范围从0到…