【机器学习】机器学习学习笔记 - 数据预处理 - 01

machine learning

  • 监督学习: 是指在有标记的样本(labeled samples)上建立机器学习的模型
  • 无监督学习: 是指在没有标记的样本上建立机器学习的模型
  • semi-supervised learning: 是指在部分标记样本上建立机器学习的模型
  • 强化学习: 是指在与环境交互的过程中,根据环境反馈来调整策略,以达到目标
  • 强化学习算法: 是指在与环境交互的过程中,根据环境反馈来调整策略,以达到目标的算法

pdf在线免费转word文档 https://orcc.online/pdf

数据预处理

  • 行: 样本; 列:特征

均值移除(标准化)

  • 均值移除(标准化): 平均值调整为 0, 标准差调整为 1
  • 由于一个样本的不同特征值差异较大,不利于使用现有机器学习算法进行样本处理
代码
# -*- coding: UTF-8 -*-import numpy as np
from sklearn import preprocessing# 导入数据
data = np.array([[3,-1.5,2,-5.4],[0,4,-0.3,2.1],[1,3.3,-1.9,-4.3]])
print("data:\n", data)# 数据预处理
data_standardized = preprocessing.scale(data)
print("preprocessing.scale:\n", data_standardized)
# 特征值的平均值, 几乎为0
print("Mean =", data_standardized.mean(axis=0))
# 标准差,都为1
print("Std deviation =", data_standardized.std(axis=0))
算法
均值为 0
a=17
b=20
c=23
# 计算均值
mean=(a+b+c)/3
# 例如有一列特征值表示年龄:[17,20,23]
mean=(17+20+23)/3=20
a1=17-20=-3
b1=20-20=0
c1=23-20=3
# 均值为0
方差为 1
a1=-3
b1=0
c1=3
s=std(a1,b1,c1)
result = [a1/s,b1/s,c1/s]

范围缩放

  • 数据点中每个特征的数值范围可能变化很大,因此,有时将特征的数值范围缩放到合理的大小是非常重要的
  • 特征缩放: 特征值缩放到 0~1 之间
代码
data_scaler = preprocessing.MinMaxScaler(feature_range=(0, 1))
data_scaled = data_scaler.fit_transform(data)
print("Min max scaled data =", data_scaled)

归一化

  • 归一化: 特征值缩放到 0~1 之间
  • 数据归一化用于需要对特征向量的值进行调整时,以保证每个特征向量的值都缩放到相同的数值范围。机器学习中最常用的归一化形式就是将特征向量调整为 L1 范数,使特征向量的数值之和为 1
  • 这个方法经常用于确保数据点没有因为特征的基本性质而产生较大差异,即确保数据处于同一数量级,提高不同特征数据的可比性
代码
data_scaler = preprocessing.normalizer(norm='l1').fit(data)
data_normalized = data_scaler.transform(data)
print("Normalized data =", data_normalized)

二值化

  • 二值化用于将数值特征向量转换为布尔类型向量
代码
data_binarized = preprocessing.Binarizer(threshold=1.4).transform(data)
print("Binarized data:\n", data_binarized)

独热编码

  • 独热编码是一种将离散型特征转换为二值型特征的技术,它将每个离散型特征的值转换为一个二值特征,并将其值设为 1,其他值设为 0
代码
encoder = preprocessing.OneHotEncoder()
encoder.fit([[0, 2, 1, 12], [1, 3, 5, 3], [2, 3, 2, 12], [1, 2, 4, 3]])
encoded_vector = encoder.transform([[2, 3, 5, 3]]).toarray()
print("Encoded vector =", encoded_vector)

标记编码

  • 标记编码: 给定一个类别,将其转换为一个整数
  • 标记编码的优点: 编码后的数据更加易于理解和处理
  • 标记编码的缺点: 编码后的数据不易于理解和处理
from sklearn import preprocessing# 标记编码器
print("#"*10,"标记编码器", "#"*10)
label_encoder = preprocessing.LabelEncoder()
# 创建标记
input_classes = ['audi', 'ford', 'audi', 'toyota', 'ford', 'bmw']
# 标记编码
label_encoder.fit(input_classes)for i, item in enumerate(label_encoder.classes_):print(item, "\t=>\t", i)print("#"*10,"标记转数字", "#"*10)
labels = ['toyota', 'ford', 'audi']
encoded_labels = label_encoder.transform(labels)
print("Labels =", labels)
print("Encoded labels =", list(encoded_labels))

划分训练集与测试集

# 方法一,直接用包划分
from sklearn.model_selection import train_test_split# 划分训练集与测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=7)# 方法二,手工划分
# 划分训练集与测试集
X_train, X_test, y_train, y_test = X[0:100], X[100:], y[0:100], y[100:]# 取80%的样本作为训练数据
num_training = int(0.8 * len(X))
num_test = len(X) - num_training# 训练数据 80% reshape:(行数,列数)
# 行数:样本数
# 列数:特征数
X_train = np.array(X[:num_training]).reshape((num_training,1))
y_train = np.array(y[:num_training])# 测试数据 20%
X_test = np.array(X[num_training:]).reshape((num_test,1))
y_test = np.array(y[num_training:])

IT免费在线工具网 https://orcc.online

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/1047.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024年适用于 Android 的最佳免费数据恢复应用程序

无论是系统崩溃、软件升级、病毒攻击还是任何其他故障,这些软件问题都可能导致手机上的数据丢失。可以使用免费的数据恢复应用程序修复数据故障并检索丢失或删除的文件。 数据恢复应用程序旨在从另一个存储设备中检索丢失或无法访问的数据。这些工具扫描 UFS 并尝试…

视频素材库哪里最好?8个视频素材免费商用

在视频创作的世界里,寻找那些能够完美匹配你的想法并加以实现的视频素材是一项既令人兴奋又充满挑战的任务。无论你的目标是提升视频质量、增强视觉效果,还是简单地想要让你的作品更加出色,这里有一系列全球精选的视频素材网站,它…

2024年主流生成视频的大模型有哪些,有哪些前景

当谈到2024年主流的生成视频的大模型时,我们可以进一步深入探讨它们的技术特点和应用前景。 OpenAI DALLE: 技术特点:DALLE 是一种基于 GPT 架构的生成模型,通过学习大规模的文本和图像数据,能够理解文本描述并生成相关…

Unity Editor编辑器扩展之创建脚本

前言 既然你看到这篇文章了,你是否也有需要使用代码创建脚本的需求?使用编辑器扩展工具根据不同的表格或者新增的内容去创建你想要的脚本。如果不使用工具,那么你只能不断去修改某个脚本,这项工作既繁琐也浪费时间。这个时候作为程…

PyTorch and Stable Diffusion on FreeBSD

Stable Diffusion在图像生成领域具有广泛的应用和显著的优势。它利用深度学习和扩散模型的原理,能够从随机噪声中生成高质量的图像。 官网:GitHub - verm/freebsd-stable-diffusion: Stable Diffusion on FreeBSD with CUDA support FreeBSD下难度主要…

UE5 Prediction 预测

在介绍预测功能前,先问个问题,为啥要有这个功能? 这个功能是在网络游戏所需的,单机游戏不需要。网络游戏主要牵扯到一个网络交互的问题,客户端和服务器之间交互是有延迟的,如果将操作数据提交等待服务器返回…

【Linux 杂货铺】进程间通信

1.进程为什么要通信呢? ①🍎 为了进程之间更好的协同工作,举个例子,在学校,学院的管理人员给教师安排课程的时候,必须事先知道该教师平常的上课情况,不然会将教师的课程安排到一起造成麻烦&…

偏微分方程算法之二维初边值问题(紧交替方向隐格式)

目录 一、研究对象 二、理论推导 2.1 二维紧差分格式 2.2 紧交替方向格式 2.2.1 紧Peaceman-Rachford格式 2.2.2 紧D’Yakonov格式 2.2.3 紧Douglas格式 三、算例实现 四、结论 一、研究对象 继续以二维抛物型方程初边值问题为研究对象: 为了确保连续性,公式…

Vitis AI 环境搭建 KV260 PYNQ 安装 要点总结

目录 1. 环境 2. 工具及版本介绍 2.1 工具版本兼容性 2.2 DPU结构 2.3 DPU命名规则 3. Vitis AI 配置要点 3.1 配置安装 Docker 库 3.2 Install Docker Engine 3.3 添加 Docker 用户组并测试 3.4 克隆 Vitis AI 库 3.5 构建 Docker (直接抓取&#xff09…

Python 潮流周刊#47:当你的老师希望你去做开源

本周刊由 Python猫 出品,精心筛选国内外的 250 信息源,为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景:帮助所有读者精进 Python 技术,并增长职业和副业的收入。 以下是周刊全文&#x…

OpenHarmony 网络与连接—RPC连接

介绍 本示例使用ohos.rpc 相关接口,实现了一个前台选择商品和数目,后台计算总价的功能,使用rpc进行前台和后台的通信。 效果预览 使用说明: 点击商品种类的空白方框,弹出商品选择列表,选择点击对应的商品…

语音转换中的扩散模型——DDDM-VC

DDDM-VC: Decoupled Denoising Diffusion Models with Disentangled Representation and Prior Mixup for Verifed Robust Voice Conversion https://ojs.aaai.org/index.php/AAAI/article/view/29740https://ojs.aaai.org/index.php/AAAI/article/view/29740 1.概述 首先,语…

Python 中整洁的并行输出

原文:https://bernsteinbear.com/blog/python-parallel-output/ 代码:https://gist.github.com/tekknolagi/4bee494a6e4483e4d849559ba53d067b Python 并行输出 使用进程和锁并行输出多个任务的状态。 注:以下代码在linux下可用&#xff0c…

win10 系统怎么开启 guest 账户?

win10 系统怎么开启 guest 账户? 段子手168 前言: guest 账户即所谓的来宾账户,我们可以通过该账户访问计算机,如打印机共享等,但会在一定程度上受到限制。下面分享 WIN10 系统开启 guest 来宾账户的几种方法。 方法…

详解Qt中的时间——QDateTime、QDate、QTime、QTimeZone

在软件开发中,准确、高效地处理时间信息是许多应用程序的核心需求。Qt框架作为一个功能强大的跨平台应用开发工具包,为开发者提供了丰富的类和函数来处理各种时间相关的任务。本文将深入探讨Qt中关于时间管理的关键类和方法,并通过详细的C代码…

面试题:Kafka中Controller的作用是什么?选举流程是怎样的?以及如何避免脑裂问题?

题目来源 网上冲浪:还不懂分布系统,速看深度剖析Kafka Controller选举过程 在查找关于Kafka单机分区的上限以及分区多了会有怎样的问题的时候,发现了这个比较有趣的问题,就记录了下来。 一般所有的分布式系统,都会涉及…

设备连接IoT云平台指南

一、简介 设备与IoT云间的通讯协议包含了MQTT,LwM2M/CoAP,HTTP/HTTP2,Modbus,OPC-UA,OPC-DA。而我们设备端与云端通讯主要用的协议是MQTT。那么设备端与IoT云间是如何创建通信的呢?以连接华为云IoT平台为例…

SpringBoot集成EasyExcel 3.x:高效实现Excel数据的优雅导入与导出

目录 介绍 快速开始 引入依赖 简单导出 定义实体类 自定义转换器 定义接口 测试接口 复杂导出 自定义注解 定义实体类 数据映射与平铺 自定义单元格合并策略 定义接口 测试接口 一对多导出 自定义单元格合并策略 测试数据 简单导入 定义接口 测试接口 参…

供应链系统搭建|主流电商平台商品采集|一键搬家|订单物流回传API接口

搭建供应链系统时,您可能需要与电商平台进行集成,以实现订单管理、库存同步、物流跟踪等功能。以下是一些常见的电商接口,可以帮助您构建供应链系统: 1. **淘宝开放平台接口**:淘宝开放平台提供了丰富的接口&#xff…

ssh-key关于authorized_keys电脑与linux互相认证

思路: 在A上生成公钥私钥。将公钥拷贝给server B,要重命名成authorized_keys(从英文名就知道含义了)Server A向Server B发送一个连接请求。Server B得到Server A的信息后,在authorized_key中查找,如果有相应的用户名和IP&#xf…