聊聊基于Alink库的特征工程方法

独热编码

OneHotEncoder 是用于将类别型特征转换为独热编码的类。独热编码是一种常用的特征编码方式,特别适用于处理类别型特征,将其转换为数值型特征。
对于每个类别型特征,OneHotEncoder 将其编码成一个长度为类别数量的向量。
每个类别对应一个维度,如果样本的该特征值为该类别,则对应维度置1,其他维度置0。

示例:

List <Row> df = Arrays.asList(Row.of("a", 1),Row.of("b", 1),Row.of("c", 1),Row.of("e", 2),Row.of("a", 2),Row.of("b", 1),Row.of("c", 2),Row.of("d", 2),Row.of(null, 1)
);
BatchOperator <?> inOp = new MemSourceBatchOp(df, "query string, weight int");
OneHotEncoder one_hot = new OneHotEncoder().setSelectedCols("query").setEncode(Encode.VECTOR);
// 或者单独设置输出列
// OneHotEncoder one_hot = new OneHotEncoder().setSelectedCols("query").setOutputCols("output");
one_hot.fit(inOp).transform(inOp).print();

输出结果如下所示:

queryweight
$5$0:1.01
$5$1:1.01
$5$2:1.01
5 5 52
$5$0:1.02
$5$1:1.01
$5$2:1.02
$5$3:1.02
$5$4:1.01

向量聚合

VectorAssembler 是用于将多列特征合并为单列特征向量的类。它将多个特征列的值合并为一个特征向量,通常用于特征工程的最后阶段,以准备机器学习模型的输入特征。
对于每个样本,VectorAssembler 将选定的特征列的值合并成一个特征向量。特征向量的维度等于选定的特征列数,每个维度对应一个特征列的值。

合并的特征列仅支持数值类型。

示例:

List <Row> df = Arrays.asList(Row.of("0", "$6$1:2.0 2:3.0 5:4.3", "3.0 2.0 3.0"),Row.of("1", "$8$1:2.0 2:3.0 7:4.3", "3.0 2.0 3.0"),Row.of("2", "$8$1:2.0 2:3.0 7:4.3", "2.0 3.0 2.2")
);
MemSourceBatchOp data = new MemSourceBatchOp(df, "id string, c0 string, c1 string");
VectorAssembler res = new VectorAssembler().setSelectedCols("c0", "c1").setOutputCol("table2vec");
res.transform(data).print();

输出结果如下所示:

idc0c1table2vec
0$6$1:2.0 2:3.0 5:4.33.0 2.0 3.0$9$1:2.0 2:3.0 … 8:3.0
1$8$1:2.0 2:3.0 7:4.33.0 2.0 3.0$11$1:2.0 2:3.0 … 10:3.0
2$8$1:2.0 2:3.0 7:4.32.0 3.0 2.2$11$1:2.0 2:3.0 … 10:2.2

特征哈希

FeatureHasher 是用于将多列特征进行哈希映射,将特征合并成特征向量的类。
对于每个样本,将选定的特征列的值进行哈希映射,得到特征向量的维度。每个特征列的值经过哈希函数映射到特征向量的对应维度,形成一个特征向量。
这种方式可以降低特征维度,减少内存和计算资源的消耗,尤其适用于高维稀疏特征。

不限于数值类型的数据

示例:

List<Row> df1 = Arrays.asList(Row.of(1.1, true, 2, "A"),Row.of(1.1, false, 2, "B"),Row.of(1.1, true, 1, "B"),Row.of(2.2, true, 1, "A")
);
BatchOperator <?> inOp = new MemSourceBatchOp(df1, "double double, bool boolean, number int, str string");
FeatureHasher binarizer = new FeatureHasher().setSelectedCols("double", "bool", "number", "str").setOutputCol("output").setNumFeatures(3);

输出结果如下所示:

doubleboolnumberstroutput
1.1000true2A$3$0:3.0 1:1.1 2:1.0
1.1000false2B$3$0:3.0 1:1.1 2:1.0
1.1000true1B$3$0:2.0 1:1.1 2:1.0
2.2000true1A$3$0:2.0 1:2.2 2:1.0

文本特征生成

DocCountVectorizer 用于将文本数据转换为文本特征向量。它主要适用于文本数据的特征抽取和处理,以便进一步用于机器学习模型的训练和预测。主要用于自然语言处理(NLP)任务,如文本分类、情感分析、主题建模等。

特征抽取过程:

  • 对于每个文本数据,DocCountVectorizer 统计每个词汇在文本中的出现次数,作为特征向量的值。

  • 每个文本对应一个特征向量,特征向量的维度为词汇表的大小。

Alink库封装的DocCountVectorizer支持生成多种类型的特征向量,支持IDF/WORD_COUNT/TF_IDF/Binary/TF。默认是WORD_COUNT特征类型,即单词出现的频率。

示例:

List <Row> df = Arrays.asList(Row.of(0, "二手旧书:医学电磁成像"),Row.of(1, "二手美国文学选读( 下册 )李宜燮南开大学出版社 9787310003969"),Row.of(2, "二手正版图解象棋入门/谢恩思主编/华龄出版社"),Row.of(3, "二手中国糖尿病文献索引"),Row.of(4, "二手郁达夫文集( 国内版 )全十二册馆藏书")
);
BatchOperator <?> inOp = new MemSourceBatchOp(df, "id int, text string");
Pipeline pipeline = new Pipeline().add(new Segment().setSelectedCol("text")) // 分词.add(new DocCountVectorizer().setFeatureType("TF_IDF").setSelectedCol("text").setOutputCol("vec"));
pipeline.fit(inOp).transform(inOp).print();

输出结果如下所示:

idtextvec
0二手 旧书 : 医学 电磁 成像$37$10:0.1831020481113516 14:0.1831020481113516 … 34:0.1831020481113516
1二手 美国 文学 选读 ( 下册 ) 李宜燮 南开大学 出版社 9787310003969$37$0:0.04077336356234972 1:0.04077336356234972 … 35:0.06462425227459469
2二手 正版 图解 象棋 入门 / 谢恩 思 主编 / 华龄 出版社$37$5:0.0915510240556758 6:0.0915510240556758 … 36:0.1831020481113516
3二手 中国 糖尿病 文献 索引$37$8:0.21972245773362198 9:0.21972245773362198 … 32:0.21972245773362198
4二手 郁达夫 文集 ( 国内 版 ) 全 十二册 馆藏 书$37$0:0.046209812037329684 1:0.046209812037329684 … 30:0.07324081924454065

文本哈希特征生成

DocHashCountVectorizer 将文本数据中的每个词汇通过哈希函数映射到特征向量的维度,得到特征向量。
特征向量的维度由用户设置的参数 numFeatures 决定,通常较小以减少维度。

示例:

List <Row> df = Arrays.asList(Row.of(0, "二手旧书:医学电磁成像"),Row.of(1, "二手美国文学选读( 下册 )李宜燮南开大学出版社 9787310003969"),Row.of(2, "二手正版图解象棋入门/谢恩思主编/华龄出版社"),Row.of(3, "二手中国糖尿病文献索引"),Row.of(4, "二手郁达夫文集( 国内版 )全十二册馆藏书")
);
BatchOperator <?> inOp = new MemSourceBatchOp(df, "id int, text string");
Pipeline pipeline = new Pipeline().add(new Segment().setSelectedCol("text")).add(new DocHashCountVectorizer().setFeatureType("TF_IDF").setSelectedCol("text").setOutputCol("vec").setNumFeatures(3));
pipeline.fit(inOp).transform(inOp).print();

输出结果如下所示:

idtextvec
0二手 旧书 : 医学 电磁 成像$3$0:-0.7331685343967134 1:-0.5207269374140805
1二手 美国 文学 选读 ( 下册 ) 李宜燮 南开大学 出版社 9787310003969$3$0:-0.776296095243579 1:-0.24504797054780258 2:-0.21559781926450705
2二手 正版 图解 象棋 入门 / 谢恩 思 主编 / 华龄 出版社$3$0:-0.7331685343967134 1:-0.17357564580469348 2:-0.30543024395805163
3二手 中国 糖尿病 文献 索引$3$0:-0.2932674137586854 1:-0.4165815499312644 2:-0.366516292749662
4二手 郁达夫 文集 ( 国内 版 ) 全 十二册 馆藏 书$3$0:-0.5865348275173707 1:-0.34715129160938696 2:-0.24434419516644132

Word2Vec

Word2Vec是Google在2013年开源的一个将词表转为向量的算法,其利用神经网络,可以通过训练,将词映射到K维度空间向量,它主要用于将单词表示成高维空间中的向量,以便能够在计算机上更好地处理自然语言文本。Word2Vec 提供了一种有效的方式来捕获单词之间的语义关系,这对于自然语言处理任务非常有用。

Word2Vec有两种主要模型:Skip-gram和Continuous Bag of Words (CBOW)。
Skip-gram模型是预测上下文单词,而CBOW模型是预测中心单词。

示例:

List <Row> df = Arrays.asList(Row.of("A B C")
);
BatchOperator <?> inOp = new MemSourceBatchOp(df, "tokens string");
Word2Vec word2vec = new Word2Vec().setSelectedCol("tokens").setMinCount(1).setVectorSize(2).setOutputCol("vec");
word2vec.fit(inOp).transform(inOp).print();

输出结果如下所示:

tokensvec
A B C0.7309789158041142 0.40841706187852966

最后

感谢你们的阅读和喜欢,我收藏了很多技术干货,可以共享给喜欢我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你。

因为这个行业不同于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个普通人,无法全部学完,所以我们在提升技术的时候,首先需要明确一个目标,然后制定好完整的计划,同时找到好的学习方法,这样才能更快的提升自己。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

五、面试资料

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下。
在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/51432.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据库实验:SQL Server基本表单表查询

一、实验目的&#xff1a; 1、掌握使用SQL语法实现单表查询 二、实验内容&#xff1a; 1. 查询订购日期为2001年5月22日的订单情况。&#xff08;Orders&#xff09;&#xff08;时间日期的表达方式为 dOrderDate ‘2001-5-22’&#xff0c;类似字符串&#xff0c;使用单引号…

NumpyPandas:Pandas库(50%-100%)

目录 前言 一、排序 1.使用索引排序 2.使用变量值排序 二、计算新变量 1.新变量为常量 2.根据原变量新增列 3.基于一个原变量做函数运算 4.在指定位置插入新列 三、修改替换变量值 1.对应数值替换 2.指定范围替换 四、虚拟变量变换 五、数值变量分组 六、数据分组…

构建大规模账号池与本地部署:GitHub爬虫项目详解

账号池搭建 必要性 常见登录方式&#xff1a; 基于Session Cookie的登录基于JWT的登录&#xff1a;登录生成JWT字符串 账号池存储cookie或者JWT字符串 方便后续发请求爬取数据 本地部署 conda建立一个虚拟环境 conda create -n new_env python3.x # 替换 x 为你需要的 P…

Python3网络爬虫开发实战(7)JavaScript 动态渲染页面爬取

文章目录 一、Selenium1. 基本安装2. 基本使用3. 声明浏览器对象4. 访问页面5. 查找节点6. 节点交互7. 动作链8. 执行 JavaScript9. 获取节点信息10. 切换 Frame11. 延时等待12. 前进后退13. Cookies14. 选项卡管理15. 异常处理16. 反屏蔽17. 无头模式18. Pyppeteer&#xff0c…

ubuntu 配置opencv-python-imsow()报错

python调用imshow&#xff08;&#xff09;时出现下面的错误&#xff1a; error: (-2:Unspecified error) The function is not implemented. Rebuild the library with Windows, GTK 2.x or Cocoa support. If you are on Ubuntu or Debian, install libgtk2.0-dev and pkg-c…

PHP多功能投票系统源码小程序

&#x1f389;决策不再难&#xff01;「多功能投票小程序」一键搞定所有选择困难症✨ &#x1f914;选择困难&#xff1f;「多功能投票小程序」来救场&#xff01; 每次聚会、团队讨论还是日常小决策&#xff0c;是不是总有那么几个瞬间让你陷入“选哪个好呢&#xff1f;”的…

自动控制:带死区的PID控制算法

带死区的PID控制算法 在计算机控制系统中&#xff0c;为了避免控制动作过于频繁&#xff0c;消除因频繁动作所引起的振荡&#xff0c;可采用带死区的PID控制。带死区的PID控制通过引入一个死区&#xff0c;使得在误差较小的范围内不进行控制动作&#xff0c;从而减少控制系统的…

将nvim的配置 上传gitee

首先是创建仓库 接着进入这个界面 然后是上传代码&#xff0c; 结果&#xff1a; 可以看到已经是可以了。 然后是 拉取代码进行测试。 第一次 拉取 使用 git clone .&#xff08;家里&#xff09; 做一点修改&#xff0c;然后上传。&#xff08;公司&#xff09; 然后在git pu…

【ROS2】概念:中级-不同的 ROS 2 中间件供应商

目录 支持的 RMW 实现多种 RMW 实现默认 RMW 实现 ROS 2 构建在 DDS/RTPS 之上&#xff0c;作为其中间件&#xff0c;提供发现、序列化和传输。本文&#xff08; https://design.ros2.org/articles/ros_on_dds.html &#xff09;详细解释了使用 DDS 实现和/或 DDS 的 RTPS 有线…

Linux驱动开发——字符设备驱动开发

1 概述 1.1 说明 本文是学习rk3568开发板驱动开发的记录&#xff0c;代码依托于rk3568开发板 1.2 字符设备介绍 字符设备是 Linux 驱动中最基本的一类设备驱动&#xff0c;字符设备就是一个一个字节&#xff0c;按照字节流进行读写操作的设备&#xff0c;读写数据是分先后顺…

用 Manim 库来生成一个树形结构的动画

完整代码&#xff1a; from manim import * class LargeTreeGeneration01(MovingCameraScene): DEPTH 3 CHILDREN_PER_VERTEX 2 LAYOUT_CONFIG {"vertex_spacing": (0.8, 1)} VERTEX_CONF {"radius": 0.12, "color": BLUE_B, "fi…

java基础概念05-运算符

一、自增自减运算符 二、赋值运算符 2-1、注意 三、关系运算符 四、逻辑运算符 4-1、短路逻辑运算符 五、三元运算符 六、运算符的优先级

Catalyst优化器:让你的Spark SQL查询提速10倍

目录 1 逻辑优化阶段 2.1 逻辑计划解析 2.2 逻辑计划优化 2.2.1 Catalys的优化过程 2.2.2 Cache Manager优化 2 物理优化阶段 2.1 优化 Spark Plan 2.1.1 Catalyst 的 Join 策略 2.1.2 如何决定选择哪一种 Join 策略 2.2 Physical Plan 2.2.1 EnsureRequirements 规则 3 相关文…

Linux基本用法(上)

1.计算机主要由 硬件和软件 组成 2.操作系统是什么 ? 有什么作用&#xff1f; 操作系统是软件的一类 主要作用是协助用户调度硬件工作&#xff0c;充当用户和计算机之间的桥梁 3.常见的操作系统有哪些? PC端: Windows&#xff0c;Linux,MacOS 移动端: Android&#xff…

搭建cool-admin-java(前端vue)项目

为什么选择 Cool Admin&#xff1f;​ 随着技术不断地发展&#xff0c;特别是最近 Ai 相关的技术发展&#xff0c;以往的框架已经越来越不能满足现代化的开发需求。 Cool Admin 做为后来者有后发优势&#xff0c;主要特点&#xff1a; Ai 编码&#xff0c;从页面到后端代码&…

数据库实验:SQL Server创建数据库及基本表

一、实验目的&#xff1a; 1、掌握使用SQL SERVER Management Studio工具连接数据库引擎&#xff1b; 2、掌握使用CREATE TABLE 创建基本表的用法&#xff1b; 3、掌握使用ALTER TABLE 修改基本表的用法&#xff1b; 4、掌握使用DROP TABLE删除基本表的用法&#xff1b; 二…

姜夔,师法自然的不仕道人

姜夔&#xff08;ku&#xff09;&#xff0c;字尧章&#xff0c;号白石道人&#xff0c;约生于南宋绍兴二十四年&#xff08;公元1154年&#xff09;&#xff0c;卒于南宋嘉定十四年&#xff08;公元1221年&#xff09;&#xff0c;享年67岁。他的艺术成就涵盖了诗词、散文、书…

Rpi Zero W做的老头乐声控灯

祭图__|\0>历经各种尝试&#xff0c;最后选了docker 里装个rhasspy&#xff0c;配上paho-mqtt搞出了这个奇葩夜灯。各种曲折就不说了&#xff0c;直接分享捷径思路。 这个绿板子是respeaker hat with 2 mic 用的是seeed-voicecard&#xff0c;跟着github编译&#xff0c;不…

微信小程序开发(百货商战)实战项目的购物车和个人中心的创建

&#x1f468;‍&#x1f4bb;个人主页&#xff1a;开发者-曼亿点 &#x1f468;‍&#x1f4bb; hallo 欢迎 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍&#x1f4bb; 本文由 曼亿点 原创 &#x1f468;‍&#x1f4bb; 收录于专栏&#xff1a…

玩转usbserver之usbserver日志报警

一、graylog 介绍 graylog是一个简单易用、功能较全面的日志管理工具&#xff0c;graylog也采用Elasticsearch作为存储和索引以保障性能&#xff0c;MongoDB用来存储少量的自身配置信息&#xff0c;master-node模式具有很好的扩展性&#xff0c;UI上自带的基础查询与分析功能比…