特征向量及算法

数据挖掘流程

  • 加载数据

    • 把需要的模型数据先计算出来
  • 特征工程 提取数据特征,对特征数据进行清洗转化

    • 数据的筛选和清洗
    • 数据转化 类型转为 性别 男,女 ----> 1,0
    • 特征交叉 性别/职业/收入 —> 新特这 优质男性程序员 将多个特征值组合在一起
    • 特征筛选 筛选和计算需求强关联的特征
    • 特征清洗 空值处理,重复值处理
    • 数据经过特征处理后会转为向量数据
  • 模型训练

    • 将特征工程的数据传递算法训练
    • 模型评估
      • 数据划分 100万 80万 训练 20万 评估
        • 样本数据 训练模型
        • 测试数据 评估模型
  • 模型的上线部署

    • 模型评估没有问题就可以上线部署

    spark实现机器学习

from pyspark.ml
  • 各类算法
    • 分类算法,聚类,协调过滤…
  • 特征处理方法
    • 特征抽取,转化,选择…
  • 管道
    • 传递数据方法
  • 持久化
    • 保存数据

特征工程

安装numpy模块

pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple

将字符串数据转为数值,在算法模型训练需要用到的是数值
根据需求选择

1、创建df数据

# 机器学习模块使用
from pyspark.sql import SparkSession
# 导入特征工程方法
from pyspark.ml.feature import StringIndexer# 创df数据
ss = SparkSession.builder.getOrCreate()
df = ss.createDataFrame([[1,'张三',20,'男'],[2,'韩梅梅',21,'女'],[3,'王五',19,'男'],[4,'蔡徐坤',28,'男'],[5,'蔡文姬',19,'女'],[6,'小乔',22,'女'],],schema='id int,name string,age int,gender string'
)
df.show()

2、特征工程处理

# 2- 特征转化 将男转为0 女转为1
# 特征转化  将字符串数据转为数值 StringIndexer
# inputCol指定需要转化的字段
# outputCol 指定输出字段
data_str = StringIndexer(inputCol='gender',outputCol='gender_index')
# fit() 添加df数据
data_fit = data_str.fit(df)
# transform() 转化df数据
df_gender = data_fit.transform(df)
df_gender.show()

3、特征交叉处理

# 3、特征交叉 将多个特征组合  将性别和年龄组合
# inputCols 指定多个字段
data_vector = VectorAssembler(inputCols=['age','gender_index'],outputCol='age_gender')
# 对上一步的df_gender交叉转化
# 将年龄和性别进行组合,转化成列表的形式
df_age_gender = data_vector.transform(df_gender)
df_age_gender.show()

4、特征缩放(归一处理)

# 3、特征缩放
# 多个特征数据量级保持一致,归一化处理(将数据转化为0-1的范围)
min_max = MinMaxScaler(inputCol='age_gender',outputCol='min_age_gender')
# 添加数据
m_fit = min_max.fit(df_age_gender)
# 转换
df_age_gender_min = m_fit.transform(df_age_gender)
df_age_gender_min.show(truncate=False)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/872484.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PyTorch张量拼接方式【附维度拼接/叠加的数学推导】

文章目录 1、简介2、torch.cat3、torch.stack4、数学过程4.1、维度拼接4.1.1、二维张量4.1.2、三维张量4.1.3、具体实例 4.2、维度叠加4.2.1、0维叠加4.2.2、1维叠加4.2.3、2维叠加(非常重要⭐) 🍃作者介绍:双非本科大三网络工程专…

什么是页分裂?insert 操作对 B+ 树结构的改变是什么样的?

什么是页分裂? 如果我们使用非自增主键,由于每次插入主键的索引值都是随机的(比如 UUID),因此每次插入新的数据时,就可能会插入到现有数据页中间的某个位置,这将不得不移动其它数据来满足新数据…

通讯的概念

通讯的概念 文章目录 通讯的概念1.通讯的基本概念2. 串行通讯与并行通讯2. 全双工、半双工及单工通讯3. 同步通讯与异步通讯4. 通讯速率 1.通讯的基本概念 通讯是指在嵌入式系统中实现数据交换的技术手段,它涉及到硬件与硬件、硬件与软件之间的信息传输。基本概念包…

数学基础【俗说矩阵】:齐次线性方程和非齐次线性方程求解-学习笔记

一、矩阵基础知识 二元一次方程的传统解法 不论是代入消元法还是加减消元法都统称 【高斯消元法】。 齐次方程组和非齐次方程组 线性方程组的解 线性方程的向量展示 向量规则 矩阵的高斯消元和初等行变行及其规则 高斯消元规则 初等行变换 矩阵经初等行变换成阶梯矩阵&…

opencv—常用函数学习_“干货“_3

目录 八、图像拼接 水平拼接图像 (hconcat) 垂直拼接图像 (vconcat) 全景图像拼接 (Stitcher) 九、颜色通道及数据格式 转换图像的颜色空间 (cvtColor) 转换图像的数据类型 (convertTo) 分离和合并颜色通道 (split 和 merge) 提取和插入颜色通道 (extractChannel 和 in…

BGP路径属性

路径属性分类 1. 公认属性(所有 BGP 路由器都能识别) (1) 公认必遵 a) AS path b)Origin c) Next hop (2) 公认任意 a) local preference b)atomic aggregate 2. 可选属性(…

Ubuntu搭建邮件服务器需要哪些步骤与方法?

Ubuntu搭建邮件服务器的注意事项?服务器的配置方法? 搭建自己的邮件服务器不仅可以增强隐私保护,还能提供更高的灵活性。AokSend将介绍在Ubuntu上搭建邮件服务器的详细步骤和方法,确保你能够顺利完成整个设置过程。 Ubuntu搭建邮…

热修复的原理

热修复的原理 水一篇哈,完事儿后删掉热修复的原理 水一篇哈,完事儿后删掉 热修复的原理 Java虚拟机 —— JVM 是加载类的class文件的,而Android虚拟机——Dalvik/ART VM 是加载类的dex文件,而他们加载类的时候都需要ClassLoader,…

昇思25天学习打卡营第六天|应用实践/计算机视觉/Vision Transformer图像分类

心得 运行模型似乎有点靠天意?每次跑模型之前先来个焚香沐浴?总之今天是机器视觉的最后一课了,尽管课程里强调模型跑得慢,可是我的这次运行,居然很快的就看到结果了。 如果一直看我这个系列文章的小伙伴,…

React@16.x(59)Redux@4.x(8)- 中间件

目录 1,介绍2,核心原理1,一个问题 3,Redux 使用中间件1,中间件的写法2,多个中间件的执行顺序 1,介绍 中间件:和插件的作用差不多,能够在不影响原本功能、不改动原本代码…

ubuntu24.04 linux bcm94352hmb 无线网卡(带蓝牙功能)无法连接蓝牙设备的解决办法

ubuntu24.04 linux bcm94352hmb 无线网卡(带蓝牙功能)无法连接蓝牙设备的解决办法 问题描述 小本是自己换装的bcm94352hmb,现在跑不动黑苹果了,换装ubuntu,该网卡在黑苹果上和windows上都能正常工作,到了…

亚信安全发布2024年第24期《勒索家族和勒索事件监控报告》

本周态势快速感知 本周,勒索软件LockBit涉嫌对美国一家生产乙烯基产品的公司(Homeland Vinyl)进行攻击。LockBit声称他们已窃取了销售、库存、财务交易数据及其他公司记录,并声明将于2024年7月19日公开这些被盗信息。本周全球共监…

防火墙-NAT策略和智能选路

一、背景技术 在日常网络环境,内部网络想要访问外网无法直接进行通信,这时候就需要进行NAT地址转换,而在防火墙上配置NAT和路由器上有点小区别,思路基本一致,这次主要就以防火防火墙配置NAT策略为例,防火墙…

Django任务管理:项目定时执行及简单管理界面

1、用django-admin命令创建一个Django项目 django-admin startproject task_manager 2、进入到项目下用命令创建一个应用 cd task_manager python manage.py startapp tasks 3、进入models.py定义数学模型 第2步得到的只是应用的必要空文件,要开始增加各文件实际…

Linux shell编程学习笔记64:vmstat命令 获取进程、内存、虚拟内存、IO、cpu等信息

0 前言 在系统安全检查中,通常要收集进程、内存、IO等信息。Linux提供了功能众多的命令来获取这些信息。今天我们先研究vmstat命令。 1.vmstat命令的功能、用法、选项说明和注意事项 1.1 vmstat命令的功能 vmstat是 Virtual Meomory Statistics(虚拟内…

JVM(day4)类加载机制

类加载过程 加载 通过一个类的全限定名来获取定义此类的二进制字节流。 将这个字节流所代表的静态存储结构转化为方法区的运行时数据结构。 在内存中生成一个代表这个类的java.lang.Class对象,作为方法区这个类的各种数据的访问入口。 验证 文件格式验证 元数…

防御笔记第七天(时需更新)

1.防火墙的可靠性: 因为防火墙不仅需要同步配置信息,还需要同步状态信息(会话表等),所以防火墙不能像路由器那样单纯靠动态协议来进行切换,还需要用到双击热备技术。 双机---目前双机技术仅仅支持两台防火…

CoCo_annotation_2017

【超级会员V4】通过百度网盘分享的文件:annotati… 链接:https://pan.baidu.com/s/14oipBkQCQ4FzN4gWNQ1oTw?pwdn827 提取码:n827 复制这段内容打开「百度网盘APP 即可获取」

环境配置|PyCharm——Pycharm本地项目打包上传到Github仓库的操作步骤

一、Pycharm端的设置操作 通过Ctrl+Alt+S快捷组合键的方式,打开设置,导航到版本控制一栏中的Git,在Git可执行文件路径中,输入Git.exe。 按照下图顺序,依次点击,完成测试。输出如图标④的结果,即可完成测试。 输出下图结果,配置Git成功,如本地未安装Git,需自行安装。

基于深度学习的游戏AI

基于深度学习的游戏AI涉及使用深度学习模型来提升游戏中的智能行为,包括自动化角色操作、环境交互、策略制定等。以下是这一领域的系统介绍: 1. 任务和目标 游戏AI的主要任务和目标包括: 角色控制:通过深度学习模型控制游戏中的…