【大厂AI课学习笔记】【2.2机器学习开发任务实例】(7)特征构造

特征分析之后,就是特征构造。

特征构造第一步

特征构造往往要进行数据的归一化。

在本案例中,我们将所有的数据,将所有特征区间调整为0~1之间。

        

如上图。

那么,为什么要进行归一化,又如何将数据,调整为0-1的,如何计算呢。

归一化(Normalization)

归一化是一种数据预处理技术,用于调整数据的尺度,使其落入一个特定的范围,通常是0到1之间(或有时是-1到1之间)。归一化的主要目的是消除数据特征之间的量纲影响,使不同特征或指标之间具有可比性,同时使数据更加适应后续的机器学习算法或数据分析方法。

归一化通常指的是将数据集中的数值特征缩放到一个统一的范围,如[0,1],通过应用一定的数学变换来实现。对于任意特征x,其归一化后的值x'可以通过以下公式计算:

x' = (x - min) / (max - min)

其中,min和max分别是该特征在数据集中的最小值和最大值。经过这样的变换后,特征x'的值就会被压缩到0和1之间。

为什么将数据调整到0-1之间

  1. 尺度统一:不同的特征往往具有不同的量纲和单位,如身高(厘米)和体重(千克)。归一化可以消除这些量纲差异,使所有特征都在相同的尺度上,这有助于机器学习算法更好地理解和处理数据。
  2. 提升算法性能:许多机器学习算法(如支持向量机、神经网络等)在输入特征的尺度相似时表现更好。归一化可以确保所有特征都对算法有相似的影响,防止某些特征由于尺度过大而主导模型的训练。
  3. 防止数值问题:在进行数学运算(如梯度下降)时,过大的数值可能导致计算不稳定或溢出。归一化可以减少这种数值问题的风险。
  4. 解释性:归一化后的数据更容易解释和理解。例如,如果一个特征的归一化值是0.5,我们可以直观地知道它处于该特征的中间水平。
  5. 特征权重平衡:在机器学习模型中,特征的权重往往与其数值范围有关。归一化可以确保所有特征的权重在初始时都是相似的,这有助于模型更公平地考虑所有特征。

总的来说,归一化是数据预处理中非常重要的一步,它有助于提升机器学习模型的性能、稳定性和可解释性。

特征构造第二步

使用与价格关联度最大的“房间数”,和其他特征,构造二次特征。

例如,将房间数和税率进行关联,将房间数和环保指数进行关联等,发现更多的特征。

这时,我们要注意,要对训练集和测试集用进行相同的操作。

延伸学习:


特征构造在AI项目中的定义、方法、关键技术及其他重要内容

在人工智能(AI)项目中,特征构造是一个至关重要的步骤,它涉及到从原始数据中提取和创建有意义的特征,以用于机器学习模型的训练和预测。特征构造的目的是为了将原始数据转化为一种形式,这种形式能够更好地揭示数据内在的规律和模式,从而提高机器学习模型的性能。

一、特征构造的定义

特征构造可以定义为从原始数据中提取、转换或组合出新的特征变量的过程。这些新的特征变量能够更准确地描述数据的某些重要特性,或者是能够捕捉到数据中的非线性关系、交互作用等复杂模式。通过特征构造,我们可以将原始数据空间映射到一个更有利于模型学习的特征空间。

二、特征构造的方法

  1. 基于统计的特征构造:利用统计学的方法,如均值、方差、协方差、相关系数等,从原始数据中计算出新的特征。这些统计特征可以提供数据的集中趋势、离散程度以及不同特征之间的相关性等信息。

  2. 基于时间序列的特征构造:对于时间序列数据,可以通过计算滑动窗口内的统计量(如移动平均、移动方差等)、季节性分解、趋势提取等方法来构造特征。这些特征可以捕捉到时间序列数据中的周期性、趋势性和季节性等模式。

  3. 基于文本的特征构造:对于文本数据,可以通过词袋模型、TF-IDF、词嵌入等技术将文本转换为数值特征向量。这些特征向量可以捕捉到文本中的词汇频率、语义关系等信息。

  4. 基于图像的特征构造:对于图像数据,可以利用计算机视觉技术,如卷积神经网络(CNN)的特征提取层,从图像中提取出有意义的特征。这些特征可以捕捉到图像中的边缘、纹理、形状等视觉信息。

  5. 基于领域知识的特征构造:根据特定领域的知识和经验,手动设计和构造特征。这种方法需要深入理解数据和问题背景,但往往能够构造出非常有针对性的特征。

三、关键技术

  1. 特征选择:在构造了大量特征后,需要通过特征选择技术筛选出最有用的特征子集,以避免维度灾难和提高模型性能。常用的特征选择方法包括过滤式、包裹式和嵌入式等。

  2. 特征转换:将原始特征通过某种数学变换或编码方式转换为新的特征形式。例如,独热编码(One-Hot Encoding)可以将分类变量转换为二进制特征向量;主成分分析(PCA)可以将高维特征空间降维到低维空间等。

  3. 自动化特征构造:随着机器学习技术的发展,自动化特征构造(也称为特征工程自动化)逐渐成为研究热点。通过利用深度学习、强化学习等技术,可以自动地从原始数据中学习和构造有用的特征。

四、其他重要内容

  1. 数据清洗和预处理:在进行特征构造之前,需要对原始数据进行清洗和预处理,包括去除缺失值、异常值、重复值等,以及进行数据类型转换、归一化等操作。这些步骤对于保证特征构造的质量和效果至关重要。

  2. 特征与目标变量的相关性分析:在构造特征时,需要关注特征与目标变量之间的相关性。通过分析特征与目标变量之间的相关性,我们可以筛选出与目标变量高度相关的特征,从而提高模型的预测性能。

  3. 特征的可解释性:在构造特征时,还需要考虑特征的可解释性。可解释性强的特征有助于我们理解模型的决策过程和结果,提高模型的透明度和可信度。因此,在构造特征时,应尽量保持特征的直观性和可解释性。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/700193.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

QtCreator“设计”按钮灰色无法点击,如何解决

Mac中安装QML Designer插件: 首选项-> 关于插件 -> 勾选QT Quick下的QML Designer 点击确定安装插件,重启Qt Creator后生效

【Langchain多Agent实践】一个有推销功能的旅游聊天机器人

【LangchainStreamlit】旅游聊天机器人_langchain streamlit-CSDN博客 视频讲解地址:【Langchain Agent】带推销功能的旅游聊天机器人_哔哩哔哩_bilibili 体验地址: http://101.33.225.241:8503/ github地址:GitHub - jerry1900/langcha…

【达梦数据库】数据库的方言问题导致的启动失败

问题场景 在项目中采用了hibernate ,连接数据库原本为ORACLE,后续打算改造为国产数据库 达梦 链接配置: # 达梦写法, index:driver-class-name: dm.jdbc.driver.DmDriverjdbc-url: jdbc:dm://192.168.220.225:5236/IDX4username:…

【QT 5 +Linux下软件生成+qt软件生成使用工具+学习他人文章+第一篇:使用linuxdeployqt软件生成】

【QT 5 Linux下软件生成qt软件生成使用工具学习他人文章第一篇:使用linuxdeployqt软件生成】 1、前言2、实验环境3、自我学习总结-本篇总结1、新手的疑问,做这件事的目的2、了解工具:linuxdeployqt工具3、解决相关使用过程中问题 4、参照文章…

新手想要做好抖音小店,在开店前你需要知道这五点注意事项!

大家好,我是电商小布。 开抖店你说难吗,其实也不难,把需要的材料准备好就可以着手开店。 难的呢,是在小店的运营上边。 所以新手开店想要少出错,少踩坑,一定要提前把店铺的相关注意事项搞清楚。 今天&a…

将yolov8权重文件转为onnx格式并在c#中使用

yolo模型转ONNX 在yolov8中,我们将训练结果的.pt权重文件转换为onnx格式只需要使用ultralytics库中的YOLO类,使用pip安装ultralytics库,然后执行下面python代码 from ultralytics import YOLO# 加载YOLOv8模型 model YOLO("best.pt&q…

Selenium浏览器自动化测试框架详解

selenium简介 介绍 Selenium [1] 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google C…

深度学习中数据的转换

原始(文本、音频、图像、视频、传感器等)数据被转化成结构化且适合机器学习算法或深度学习模型使用的格式。 原始数据转化为结构化且适合机器学习和深度学习模型使用的格式,通常需要经历以下类型的预处理和转换: 文本数据&#xf…

台式电脑电源功率越大越费电吗?装机选购多少W电源

要组装一台电脑,我们首先需要选择硬件。 硬件搭配最关键的一点就是CPU和主板的兼容性。 硬件、电源等之间的平衡都需要仔细考虑。 那么台式电脑电源多大功率合适呢? 下面分享组装电脑电源瓦数选购指南,教您正确选择合适的电源瓦数。 让我们来…

消息中间件篇之RabbitMQ-消息不丢失

一、生产者确认机制 RabbitMQ提供了publisher confirm机制来避免消息发送到MQ过程中丢失。消息发送到MQ以后,会返回一个结果给发送者,表示消息是否处理成功。 当消息没有到交换机就失败了,就会返回publish-confirm。当消息没有到达MQ时&…

防御保护--VPN

目录 VPN的概述 VPN的分类 VPN的核心技术 --- 隧道技术 VPN其他常用技术 VPN的概述 VPN --- 虚拟专用网 --- 一般指依靠ISP或者其他NSP,也可以是企业自身,提供的一条虚拟网 络专线。这个虚拟的专线是逻辑上的,而不是物理上的,所…

LeetCode 2583. 二叉树中的第 K 大层和

题目链接https://leetcode.cn/problems/kth-largest-sum-in-a-binary-tree/?envTypedaily-question&envId2024-02-23 和我上一篇发的博客类似,通过广度优先遍历二叉树,使用队列存每层的节点值, 最后再做处理,输出第K大层和 …

书生·浦语大模型实战营第二节课作业

使用 InternLM-Chat-7B 模型生成 300 字的小故事(基础作业1)。 熟悉 hugging face 下载功能,使用 huggingface_hub python 包,下载 InternLM-20B 的 config.json 文件到本地(基础作业2)。 下载过程 进阶…

Nest.js权限管理系统开发(三)环境变量与配置文件

一般来说数据库的配置包含了一些敏感信息,不宜写在代码中提交到远程仓库,所以我们可以将配置写在配置文件中,然后提交 git 时候将生产环境的配置文件其忽略。我们可以新建.env和.env.prod两个文件分别存放开发与生产环境配置,也可以使用YAML等…

2024-2-22 作业

作业要求: 复习前面知识点(指针、结构体、函数)整理思维导图顺序表(按位置插入、按位置删除和去重、重新写)理解链表的代码,尝试写一下链表的尾插和输出 1.复习前面知识点(指针、结构体、函数) 2.整理思维导图 3.顺序表(按位置插入、按位置删除和去重、…

J7 - 对于ResNeXt-50算法的思考

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 | 接辅导、项目定制 J6周有一段代码如下 思考过程 首先看到这个问题的描述,想到的是可能使用了向量操作的广播机制然后就想想办法验证一下&…

Vue 图片轮播第三方库 介绍

Vue图片轮播是一种在网页上以自动或手动方式展示图片的组件,常用于产品展示、网站banner等场景。有许多第三方库可以帮助Vue开发者轻松实现图片轮播功能。以下是一些流行的Vue图片轮播第三方库的介绍: 1. Vue-awesome-swiper - **简介**:V…

数字化转型导师坚鹏:县域数字化转型案例研究

县域数字化转型案例研究 课程背景: 很多县级政府存在以下问题: 不清楚县域数字化转型的发展模式 不清楚县域数字化转型的成功案例 课程特色: 针对性强 实用性强 创新性强 学员收获: 学习县域数字化转型的发展模式。 学习县…

C/C++的内存管理(2)——new与delete的内核与本质

内存管理 operator new 与 operator delete函数回看new与delete的实现内置类型自定义类型 常见面试题 我们已经知道了new与delete的用法及其好处,发现它似乎与C语言中的动态内存开辟的函数(malloc/calloc/realloc)不同 在这里我们特别指出&am…

Word第一课

文章目录 1. 文件格式1.1 如何显示文件扩展名1.2 Word文档格式的演变1.3 常见的Word文档格式 3. 文档属性理解文档属性查看文档属性 4. 显示比例方式一: 手动调整方式二: 自动调整 5. 视图、窗口视图 1. 文件格式 1.1 如何显示文件扩展名 文档格式指的…