【机器学习】编码、创造和筛选特征

在机器学习和数据科学领域中,特征工程是提取、转换和选择原始数据以创建更具信息价值的特征的过程。假设拿到一份数据集之后,如何逐步完成特征工程呢?

文章目录

  • 一、特性类型分析
    • 1.1 数值型特征
    • 1.2 类别型特征
    • 1.3 时间型特征
    • 1.4 文本型特征
    • 1.5 图像型特征
    • 1.6 组合特征
  • 二、找到关键特征
    • 2.1 相关性分析
    • 2.2 树模型重要性
  • 三、对特征进行编码
  • 四、构建基础模型
  • 五、构造新的特征
  • 六、特征筛选与验证

一、特性类型分析

不同类型的特征包含的信息不同的,首先需要按照赛题字段的说明去对每个字段的类型进行区分。

在这里插入图片描述
下面是对不同类型的特征进行编码和操作的方法,其中取值特征本身包含的信息较多,因此可以直接考虑进行缩放:

1.1 数值型特征

  1. 缩放:将数值特征缩放到一个范围,通常使用Min-Max缩放或标准化(z-score)。
  2. 离散化:将连续数值转换为离散类别,例如分箱操作。
  3. 平滑化:应用平滑算法(如指数平滑)来减少噪声和波动。
  4. 派生新特征:通过组合或数学运算创建新的数值型特征。

1.2 类别型特征

  1. 标签编码:将类别映射为整数,常用于树模型。
  2. 独热编码:将类别转换成二进制向量,适用于线性模型和神经网络。
  3. 有序编码:根据类别的有序关系,将其转换成整数编码。
  4. 统计特征:基于类别特征进行统计计算,如均值、频率等。

1.3 时间型特征

  1. 提取时间信息:从时间戳中提取年、月、日、小时等信息作为新特征。
  2. 周期性处理:对于循环时间特征,可以使用正弦余弦变换将其转换为线性空间。

1.4 文本型特征

  1. 词袋模型:将文本转换为向量表示,如TF-IDF、词频等。
  2. 词嵌入:使用词向量将单词映射到连续向量空间,如Word2Vec、GloVe。
  3. 文本长度:记录文本的长度作为一个特征。

1.5 图像型特征

  1. 预训练网络特征提取:使用预训练的卷积神经网络(如VGG、ResNet)提取图像特征。
  2. 图像直方图:提取图像的颜色直方图作为特征。

1.6 组合特征

  1. 特征交叉:将不同特征进行交叉组合,创造新的特征。
  2. 特征合并:将多个特征合并为一个更有意义的特征。

二、找到关键特征

数据往往具有大量的特征,而并非所有特征都对目标变量有同等重要的影响。为了建立高性能的机器学习模型,我们需要找到关键特征,即对预测目标具有显著贡献的特征。

在这里插入图片描述

2.1 相关性分析

相关性是衡量两个变量之间线性关系强度的指标,可以用来发现特征与目标变量之间的关联程度。常用的相关性计算方法包括皮尔逊相关系数和斯皮尔曼等级相关系数。通过计算各个特征与目标变量之间的相关性,我们可以找到与目标变量强相关的特征。

2.2 树模型重要性

决策树和随机森林等树模型可以通过测量特征在树中分裂中的贡献度来评估特征的重要性。树模型重要性的计算方法通常包括特征在树中分裂的次数、特征带来的信息增益或基尼系数的变化等。

三、对特征进行编码

在将数据纳入模型之前,还需要对特征进行编码,将原有的特征转换成数值形式,或者抽取出特征中的信息。

在这里插入图片描述

  1. 特征抽取:某些特征可能含有大量信息,但以原始形式难以表达,特征编码有助于从中抽取出有用的信息,提高模型的表现。
  2. 处理类别型数据:类别型特征常常需要进行编码,以便模型能够理解并学习它们之间的关系。

类别特征编码有多种方法可供选择,常见的包括标签编码、独热编码、二进制编码等。每种方法都有其优势和限制,因此需要综合考虑特征的属性和模型的要求,选择最适合的编码方式。在实际应用中,我们需要根据具体情况选择适合的编码方法,这需要考虑以下因素:

类别特征的性质:

  1. 若类别特征存在顺序关系,标签编码可能更合适,以保留类别之间的相对大小关系。
  2. 若类别特征之间没有顺序关系,独热编码或二进制编码可能更为合适,以避免引入错误的信息。

数据集的规模:

当数据集规模较大时,独热编码可能导致高维度问题,增加计算开销,可以考虑使用二进制编码或其他降维方法。

机器学习算法的要求:

不同的机器学习算法对特征编码的要求不同,需要根据使用的模型类型来选择合适的编码方式。

四、构建基础模型

在进行特征工程后,下一步是构建Baseline(基础模型),这是机器学习任务中的重要步骤。Baseline是一个简单而基础的模型,用来作为后续模型优化和改进的起点。

在这里插入图片描述

五、构造新的特征

在特征工程的过程中,创造性地构造新的特征是一个关键步骤。通过构造新特征,我们可以进一步提取数据中的有用信息,增强模型的表达能力和泛化能力。

在这里插入图片描述
在特征构造时,我们可以优先从已确定的重要特征入手,因为这些特征对目标变量有显著贡献,可能携带着更多有用的信息。

分组统计特征:

  • 对数据进行分组,例如按照类别特征、时间窗口等分组。
  • 在每个组内,计算各种统计量,如平均值、标准差、最大值、最小值等,作为新特征。

排序特征:

  • 对数据进行排序,例如按照时间顺序、数值大小等排序。
  • 可以计算位置特征,如第一个出现、最后一个出现,或者计算排序之间的差值等。

时间序列特征:

  • 如果数据具有时间性质,可以提取时间序列特征。
  • 如计算滚动平均、滚动标准差、时间差分等。

统计特征:

  • 利用历史信息计算统计特征,如过去一段时间内的均值、方差等。
  • 这些统计特征可以反映数据的动态变化和趋势。

组合特征:

  • 将不同特征进行组合,创建新的特征。
  • 可以通过加、减、乘、除等数学运算进行组合。

在创造新特征时,需要注意新特征的含义和对问题的贡献。新特征应该能够更好地表达数据的特点和模式,同时避免引入噪声或不必要的信息。理解新特征的意义,有助于我们更好地解释模型的预测结果,并为特征选择提供指导。

六、特征筛选与验证

特征筛选是特征工程中的关键步骤之一,它有助于优化模型的复杂度和性能,同时保留对目标有意义的有效特征。在特征筛选过程中,我们需要添加新特征并验证Baseline模型的精度变化,同时注意精度变化是否是随机波动引起的。

在这里插入图片描述
在特征筛选过程中,我们需要注意精度变化是否只是由于随机波动导致的。为了排除随机性的影响,可以采用以下方法:

  1. 交叉验证(Cross-Validation):使用交叉验证可以降低随机性带来的影响,通过多次实验取平均值来评估特征的性能变化。
  2. 统计显著性检验:使用统计显著性检验(如t-test)来判断特征的添加是否显著提升了模型性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/24475.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

图像 检测 - RetinaNet: Focal Loss for Dense Object Detection (arXiv 2018)

图像 检测 - RetinaNet: Focal Loss for Dense Object Detection - 密集目标检测中的焦点损失(arXiv 2018) 摘要1. 引言2. 相关工作References 声明:此翻译仅为个人学习记录 文章信息 标题:RetinaNet: Focal Loss for Dense Obje…

Elasticsearch 快照和恢复

文章目录 简介快照存储库说明创建或更新存储库接口说明路径参数查询参数请求正文 使用 fs 方式创建存储库验证储存库获取存储库信息删除存储库清理储存库 快照创建快照路径参数查询参数请求正文示例 获取快照查询参数示例 克隆快照查询参数示例 获取快照状态示例 恢复快照查询参…

为什么升级JDK 11后堆外内存使用增长了?

文章首发地址 JDK 11堆外使用增长的原因 JDK 11堆外使用增长的原因可能有以下几个: G1垃圾回收器的默认设置更改: JDK 11中的G1垃圾回收器默认开启了堆外内存分配,以减少Full GC时的STW时间。因此,如果应用程序使用了G1垃圾回收…

单例模式:保证一个类只有一个实例

单例模式:保证一个类只有一个实例 什么是单例模式? 在软件开发中,有些类只需要一个实例,比如数据库连接池、线程池等。单例模式就是一种设计模式,用于确保一个类只有一个实例,并提供一个全局访问点。 实…

Android中的RecyclerView 优化

Android中的RecyclerView 优化 在Android开发中,RecyclerView是一种用于展示大量数据列表的高效、灵活的控件。由于RecyclerView常用于展示复杂的数据集,特别是在数据项很多的情况下,对其进行优化非常重要,以提高性能和用户体验。…

使用Go语言生成Excel任务表依赖图(Markdown文件mermaid图)

一、前言 在游戏中,任务是非常常见的玩法,可能会有主线任务,支线任务以及其它一些类型的任务,各任务可能还会有前置任务,即需要完成某个任务之后,才能做当前任务。在游戏开发中,配置表可以使用…

CentOS 搭建 Harbor 镜像仓库(图文详解)

本文目录 1. 下载 Harbor 安装包2. 解压3. 修改配置文件4. 安装 Harbor5. 修改 docker 配置6. docker 登录方式7. 访问 Harbor Web 界面8. 创建证书9. 生成证书10. 更新配置11. 网页登录 说明:在搭建 Harbor 镜像仓库之前,虚拟机要先安装 docker 和 dock…

k8s部署nginx访问Tomcat

1.nginx打包镜像 #1、编写DockerFilemkdir /opt/my_nginx_dockerfilecd /opt/my_nginx_dockerfile cat >default.conf<<EOF server {listen 80;listen [::]:80;server_name localhost;#access_log /var/log/nginx/host.access.log main;location / {root …

数据安全治理5大关键技术实践分享

近年来&#xff0c;国内外对数据安全的重视程度持续提升&#xff0c;数据安全技术领域发展备受关注。从2017-2021年Gartner发布的“数据安全技术成熟度曲线”研究报告来看&#xff0c; 新兴数据安全技术呈逐年递增趋势&#xff0c;其中安全多方计算、同态加密、差分隐私等隐私增…

增强型Web安全网关在银行的应用

销售&#xff0c;绝不是降低身份去取悦客户&#xff0c;而是像朋友一样给予合理的建议。你刚好需要&#xff0c;我刚好专业&#xff01;仅此而已&#xff01; 乔.吉拉德 健康的安全体系&#xff0c;还可以更完善 浙江某商业银行股份有限公司是一家成立多年的商业银行&#xf…

linux 系统初始化基本yum命令

安装可能用到的系统工具 yum -y install vim telnet wget net-tools lrzsz unzip zip 安装常用工具和开发包 yum install -y which openssh-clients openssh-server less iproute bzip2 cmake gcc gcc-c gdb git libtool make man net-tools sysstat sudo psmisc nc net-t…

vue中transition动画的使用

1.vue文件 说明&#xff1a;加name属性 <transition name"sort"><div class"sort" v-show"show"><div class"all-sort-list2" click"goSearch"><div class"item bo" v-for"(item1, in…

windows系统的IP、路由、网关、内外网同时访问路由以及修改系统文件hosts的配置

当我们刚刚入职一家公司的时候、一般公司会给我下发一个ip地址和mac地址、还有访问一些公司的平台需要修改hosts之后的路由配置、以及第一次配置内网、如何内外网同时上网。 目录 一、ip的配置 1.1、IP的配置 1.2、mac地址的配置 1.3、内外网路由的配置&#xff08;w11系统需…

掌握Python的X篇_21_局部变量与全局变量

文章目录 1. python中的局部变量2. python中的全局变量3. 显式声明全局变量 1. python中的局部变量 函数内部定义的变量&#xff0c;是局部变量。局部变量只在当前函数中有效。 各个函数之间的局部变量是互相独立&#xff0c;互不影响的。 首先看一段代码&#xff1a; def f…

java基础复习(第五日)

java基础复习(五) 1.如何在Map中遍历删除指定的 key? 如何在List 中遍历删除指定的元素? 两个方法都使用iterator解决 过程&#xff1a; 获取 map/list的iterator whlie&#xff08;iterator.hasNext&#xff09;{ //获取下一个元素 entry iterator.next(); if(entr…

小程序学习(五):WXSS模板语法

1.什么是WXSS WXSS是一套样式语言,用于美化WXML的组件样式,类似于网页开发中的CSS 2.WXSS和CSS的关系 WXSS模板样式-rpx 3.什么是rpx尺寸单位 4.rpx的实现原理 5.rpx与px之间的单位换算* WXSS模板样式-样式导入 6.什么是样式导入 使用WXSS提供的import语法,可以导入外联的样式…

前端js--剪刀石头布

效果图 代码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta name"viewport" content"widthdevice-width, initial-scale1.0" /><linkrel"stylesheet"href"ht…

微服务——操作索引库+文档操作+RestClient操作索引库和文档(java程序)

索引库操作 mapping属性 mapping是对文档的约束&#xff0c;常见约束属性包括: 创建索引库 #创建索引库 PUT /heima {"mappings": {"properties": {"info":{"type": "text","analyzer": "ik_smart"},…

带头循环双向链表详解

目录 一、什么是带头循环双向链表&#xff1f; 1.特点&#xff1a; 2.优点&#xff1a; 二、实现接口 1.前置准备 1.1需要的三个文件 1.2结构体的创建和头文件的引用 2.接口实现 2.1函数创建新节点 2.2打印链表内容 2.3尾插新节点 2.4头插新节点 2.5头删节点 2.6尾删…

软件测试新人入职新公司第一次分享

新公司每周都有分享会&#xff0c;本周轮到我&#xff0c;工作很多年&#xff0c;仍然处于社会主义中级阶段&#xff0c;上升高阶有待提升&#xff0c;如果想在测试的道路上继续走下去&#xff0c;还需要多多深入了解&#xff0c;多多加油将我分享的内容&#xff0c;想在这里标…