从 Pandas 到 Polars 十五:对于特征工程,Polars的透视表(pivot)功能表现非常强大

最近在我的机器学习流程中,我发现自己会用自己编写的Polars表达式来替换一些更简单的scikit-learn指标,如均方根误差。这种方法省去了将数据复制到不同格式的麻烦,并确保我能够保持Polars的正常优势,如并行化、优化和扩展到大型数据集。

最近,我在研究数据透视时,我意识到CountVectorizer方法基于透视。我决定看看在Polars中重新实现这个方法需要多少努力。

对于不熟悉CountVectorizer的人来说,它是一种特征工程技术,其中二维数组的每一列对应一个单词,每一行对应一个文档。如果某个单词在该文档中,则单元格中的值为1,否则为0。以下是一个输出示例。

获取一些假数据

我需要一些假文本数据来进行这个练习,所以我请ChatGPT生成了一个包含假新闻文章、出版名称和标题的小数据集。它为我提供了一个真正的假数据集,包含来自《每日欺骗报》和《假新闻网络》的文章:

fake_news_df = pl.DataFrame({'publication': ['The Daily Deception', 'Faux News Network', 'The Fabricator', 'The Misleader', 'The Hoax Herald', ],'title': ['Scientists Discover New Species of Flying Elephant', 'Aliens Land on Earth and Offer to Solve All Our Problems', 'Study Shows That Eating Pizza Every Day Leads to Longer Life', 'New Study Finds That Smoking is Good for You', "World's Largest Iceberg Discovered in Florida"],'text': ['In a groundbreaking discovery, scientists have found a new species of elephant that can fly. The flying elephants, which were found in the Amazon rainforest, have wings that span over 50 feet and can reach speeds of up to 100 miles per hour. This is a game-changing discovery that could revolutionize the field of zoology.','In a historic moment for humanity, aliens have landed on Earth and offered to solve all our problems. The extraterrestrial visitors, who arrived in a giant spaceship that landed in Central Park, have advanced technology that can cure disease, end hunger, and reverse climate change. The world is waiting to see how this incredible offer will play out.','A new study has found that eating pizza every day can lead to a longer life. The study, which was conducted by a team of Italian researchers, looked at the eating habits of over 10,000 people and found that those who ate pizza regularly lived on average two years longer than those who didn\'t. The study has been hailed as a breakthrough in the field of nutrition.','In a surprising twist, a new study has found that smoking is actually good for you. The study, which was conducted by a team of British researchers, looked at the health outcomes of over 100,000 people and found that those who smoked regularly had lower rates of heart disease and cancer than those who didn\'t. The findings have sparked controversy among health experts.','In a bizarre turn of events, the world\'s largest iceberg has been discovered in Florida. The iceberg, which is over 100 miles long and 50 miles wide, was found off the coast of Miami by a group of tourists on a whale-watching tour. Scientists are baffled by the discovery and are scrambling to figure out how an iceberg of this size could have']}
)

拆分、展开和透视

首先,我们需要做的是将文本转换为小写,并将每篇文章拆分成单独的单词。我们使用来自str命名空间的表达式来完成这一操作。此外,我们还添加了一个名为placeholder的列,其值为1。这些1将稍后填充到我们的特征矩阵中。

(fake_news_df.with_columns(pl.col("text").str.to_lowercase().str.split(" "),pl.lit(1).alias("placeholder"))
)
shape: (5, 4)
┌─────────────────────┬───────────────────────────────┬──────────────────────────────┬─────────────┐
│ publication         ┆ title                         ┆ text                         ┆ placeholder │
│ ---                 ┆ ---                           ┆ ---                          ┆ ---         │
│ str                 ┆ str                           ┆ list[str]                    ┆ i32         │
╞═════════════════════╪═══════════════════════════════╪══════════════════════════════╪═════════════╡
│ The Daily Deception ┆ Scientists Discover New       ┆ ["in", "a", … "zoology."]    ┆ 1           │
│                     ┆ Species …                     ┆                              ┆             │
│ Faux News Network   ┆ Aliens Land on Earth and      ┆ ["in", "a", … "out."]        ┆ 1           │
│                     ┆ Offer t…                      ┆                              ┆             │
│ The Fabricator      ┆ Study Shows That Eating Pizza ┆ ["a", "new", … "nutrition."] ┆ 1           │
│                     ┆ Ev…                           ┆                              ┆             │
│ The Misleader       ┆ New Study Finds That Smoking  ┆ ["in", "a", … "experts."]    ┆ 1           │
│                     ┆ is …                          ┆                              ┆             │
│ The Hoax Herald     ┆ World's Largest Iceberg       ┆ ["in", "a", … "have"]        ┆ 1           │
│                     ┆ Discover…                     ┆                              ┆             │
└─────────────────────┴───────────────────────────────┴──────────────────────────────┴─────────────┘

通过将字符串值拆分,我们将字符串列转换为具有 Polars pl.List(str) 数据类型的列。在之前的文章中,我展示了 pl.List 类型如何允许快速操作,因为每行在底层都是一个 Polars Series,而不是缓慢的 Python 列表。

然而,最好还是将 pl.List 列展开,以便每个列表的每个元素都有一行。同时,我们还想保留原始文章的元数据,如出版名称和标题。

我们通过调用 text 列上的 explode 方法来实现这种展开,以便每个列表的每个元素都有一行。

(fake_news_df.with_columns(pl.col("text").str.to_lowercase().str.split(" "),pl.lit(1).alias("placeholder")).explode("text")
)
shape: (306, 4)
┌─────────────────────┬───────────────────────────────────┬────────────────┬─────────────┐
│ publication         ┆ title                             ┆ text           ┆ placeholder │
│ ---                 ┆ ---                               ┆ ---            ┆ ---         │
│ str                 ┆ str                               ┆ str            ┆ i32         │
╞═════════════════════╪═══════════════════════════════════╪════════════════╪═════════════╡
│ The Daily Deception ┆ Scientists Discover New Species … ┆ in             ┆ 1           │
│ The Daily Deception ┆ Scientists Discover New Species … ┆ a              ┆ 1           │
│ The Daily Deception ┆ Scientists Discover New Species … ┆ groundbreaking ┆ 1           │
│ The Daily Deception ┆ Scientists Discover New Species … ┆ discovery,     ┆ 1           │
│ …                   ┆ …                                 ┆ …              ┆ …           │
│ The Hoax Herald     ┆ World's Largest Iceberg Discover… ┆ this           ┆ 1           │
│ The Hoax Herald     ┆ World's Largest Iceberg Discover… ┆ size           ┆ 1           │
│ The Hoax Herald     ┆ World's Largest Iceberg Discover… ┆ could          ┆ 1           │
│ The Hoax Herald     ┆ World's Largest Iceberg Discover… ┆ have           ┆ 1           │
└─────────────────────┴───────────────────────────────────┴────────────────┴─────────────┘

请注意,explode方法可以与Polars的流式处理引擎一起使用,因此你可以用它来处理大于内存容量的数据集。

现在,是时候转换text列了,以便我们为每个不同的单词都有一个列,并为每篇文章都有一个行。我们通过调用pivot来实现这一点,使用元数据列(publication和title)作为每行的索引,text列来确定列名,并使用placeholder值作为值。

(fake_news_df.with_columns(pl.col("text").str.to_lowercase().str.split(" "),pl.lit(1).alias("placeholder")).explode("text").pivot(index=["publication","title"],columns="text",values="placeholder",sort_columns=True)
)
shape: (5, 166)
┌─────────────────────┬────────────────────┬────────┬──────┬───┬─────────┬───────┬──────┬──────────┐
│ publication         ┆ title              ┆ 10,000 ┆ 100  ┆ … ┆ world's ┆ years ┆ you. ┆ zoology. │
│ ---                 ┆ ---                ┆ ---    ┆ ---  ┆   ┆ ---     ┆ ---   ┆ ---  ┆ ---      │
│ str                 ┆ str                ┆ i32    ┆ i32  ┆   ┆ i32     ┆ i32   ┆ i32  ┆ i32      │
╞═════════════════════╪════════════════════╪════════╪══════╪═══╪═════════╪═══════╪══════╪══════════╡
│ The Daily Deception ┆ Scientists         ┆ null   ┆ 1    ┆ … ┆ null    ┆ null  ┆ null ┆ 1        │
│                     ┆ Discover New       ┆        ┆      ┆   ┆         ┆       ┆      ┆          │
│                     ┆ Species …          ┆        ┆      ┆   ┆         ┆       ┆      ┆          │
│ Faux News Network   ┆ Aliens Land on     ┆ null   ┆ null ┆ … ┆ null    ┆ null  ┆ null ┆ null     │
│                     ┆ Earth and Offer t… ┆        ┆      ┆   ┆         ┆       ┆      ┆          │
│ The Fabricator      ┆ Study Shows That   ┆ 1      ┆ null ┆ … ┆ null    ┆ 1     ┆ null ┆ null     │
│                     ┆ Eating Pizza Ev…   ┆        ┆      ┆   ┆         ┆       ┆      ┆          │
│ The Misleader       ┆ New Study Finds    ┆ null   ┆ null ┆ … ┆ null    ┆ null  ┆ 1    ┆ null     │
│                     ┆ That Smoking is …  ┆        ┆      ┆   ┆         ┆       ┆      ┆          │
│ The Hoax Herald     ┆ World's Largest    ┆ null   ┆ 1    ┆ … ┆ 1       ┆ null  ┆ null ┆ null     │
│                     ┆ Iceberg Discover…  ┆        ┆      ┆   ┆         ┆       ┆      ┆          │
└─────────────────────┴────────────────────┴────────┴──────┴───┴─────────┴───────┴──────┴──────────┘

请注意,我们使用sort_columns参数来按字母顺序对text列进行排序。

最后一步是将null值替换为0,以便明确我们如何处理这些值。

(fake_news_df.with_columns(pl.col("text").str.to_lowercase().str.split(" "),pl.lit(1).alias("placeholder")).explode("text").pivot(index=["publication","title"],columns="text",values="placeholder",sort_columns=True).fill_null(value=0)
)
shape: (5, 166)
┌─────────────────────┬─────────────────────┬────────┬─────┬───┬─────────┬───────┬──────┬──────────┐
│ publication         ┆ title               ┆ 10,000 ┆ 100 ┆ … ┆ world's ┆ years ┆ you. ┆ zoology. │
│ ---                 ┆ ---                 ┆ ---    ┆ --- ┆   ┆ ---     ┆ ---   ┆ ---  ┆ ---      │
│ str                 ┆ str                 ┆ i32    ┆ i32 ┆   ┆ i32     ┆ i32   ┆ i32  ┆ i32      │
╞═════════════════════╪═════════════════════╪════════╪═════╪═══╪═════════╪═══════╪══════╪══════════╡
│ The Daily Deception ┆ Scientists Discover ┆ 0      ┆ 1   ┆ … ┆ 0       ┆ 0     ┆ 0    ┆ 1        │
│                     ┆ New Species …       ┆        ┆     ┆   ┆         ┆       ┆      ┆          │
│ Faux News Network   ┆ Aliens Land on      ┆ 0      ┆ 0   ┆ … ┆ 0       ┆ 0     ┆ 0    ┆ 0        │
│                     ┆ Earth and Offer t…  ┆        ┆     ┆   ┆         ┆       ┆      ┆          │
│ The Fabricator      ┆ Study Shows That    ┆ 1      ┆ 0   ┆ … ┆ 0       ┆ 1     ┆ 0    ┆ 0        │
│                     ┆ Eating Pizza Ev…    ┆        ┆     ┆   ┆         ┆       ┆      ┆          │
│ The Misleader       ┆ New Study Finds     ┆ 0      ┆ 0   ┆ … ┆ 0       ┆ 0     ┆ 1    ┆ 0        │
│                     ┆ That Smoking is …   ┆        ┆     ┆   ┆         ┆       ┆      ┆          │
│ The Hoax Herald     ┆ World's Largest     ┆ 0      ┆ 1   ┆ … ┆ 1       ┆ 0     ┆ 0    ┆ 0        │
│                     ┆ Iceberg Discover…   ┆        ┆     ┆   ┆         ┆       ┆      ┆          │
└─────────────────────┴─────────────────────┴────────┴─────┴───┴─────────┴───────┴──────┴──────────┘

当然,与CountVectorizer的输出仍然存在一些差异——例如,CountVectorizer默认返回一个稀疏矩阵。此外,CountVectorizer使用更复杂的正则表达式来分隔单词——但我们可以通过使用str.extract_all而不是.str.split来重新实现这一点。

(fake_news_df.with_columns(pl.col("text").str.to_lowercase().str.extract_all('(?u)\\b\\w\\w+\\b'),pl.lit(1).alias("placeholder"))
)

因此,在这里我们已经看到了如何使用Polars快速实现一种经典的NLP(自然语言处理)特征工程方法。我确信在未来几年里,我们会看到更多Polars作为全能数据得力助手的例子。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/46082.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

科技云报道:产业为根大模型应用为擎,容联云推动企业营销服场景重塑

科技云报道原创。 “没有应用,光有一个基础模型,不管是开源还是闭源,一文不值。”在2024世界人工智能大会(WAIC 2024)现场,百度创始人、董事长兼首席执行官李彦宏直言。 国产大模型的种类越发丰富&#x…

纯净IP的重要性解析与测评分析

作为连接互联网世界的桥梁,IP地址的纯净度不仅关乎网络访问的速度与稳定性,更是影响着数据安全与隐私保护。今天,我们将带您深入探索纯净IP的重要性,并分享我们对芝麻HTTP与巨量IP这两家提供纯净SOCKS5代理服务的深度测评分析。 一…

AI算法15-弹性网络回归算法Elastic Net Regression | ENR

弹性网络回归算法简介 在机器学习领域中,弹性网络(Elastic Net)是一种结合了L1范数(套索回归)和L2范数(岭回归)的正则化方法。它综合了两者的优点,既可以实现特征选择,又…

ubuntu18修改文件打开数

Ubuntu18永久修改 最大文件打开数和最大线程数 1、查看操作系统: cat /etc/os-release2、查看当前用户设置: ulimit -a 或者: ulimit -nopen files 是当前最大文件打开数量 max user processes是当前最大线程数量 3、永久修改配置&#x…

【学习笔记】4、组合逻辑电路(下)

接前文《【学习笔记】4、组合逻辑电路(上)》 4.4.5 算术运算电路 1. 半加器和全加器 半加器和全加器是算术运算电路中的基本单元。半加器和全加器是1位相加的组合逻辑电路。 (1)半加器 半加器:只考虑两个加数本身,不考虑低位进…

【第27章】MyBatis-Plus之Mybatis X 插件

文章目录 前言一、安装指南二、核心功能1.XML 映射跳转2.代码生成3. 重置模板 三、JPA 风格提示四、常见问题解答1. JPA 提示功能无法使用?2. 生成的表名与预期不符? 五、代码生成模板配置1. 默认模板2. 重置默认模板3. 自定义模板内容3.1 实体类信息3.2…

暑期备考2024小学生古诗文大会:吃透历年真题和知识点(持续)

2024年上海市小学生古诗文大会的自由报名初赛将于10月19日(星期六)正式开始,还有3个多月的时间。 为帮助孩子们备考,我持续分享往年上海小学生古诗文大会真题,这些题目来自我去重、合并后的1700在线题库,每…

Python中的pytest的使用

使用pytest可以做测试 pip 安装 pip install pytest有可能得配置环境变量! 下面代码展示 文件名必须得是 test_ 开头 或者 _test 结尾 import pytestdef add(x, y):return x ydef test1():assert 3 add(1, 2)def test2():assert 2 add(1, 1)if __name__ __ma…

Python中的数据容器及其在大数据开发中的应用

在Python编程中,数据容器是存储和组织数据的基本工具。作为大数据开发者,了解并灵活运用各种容器类型对于高效处理大规模数据至关重要。今天,我们将从Set出发,探讨Python中的各种数据容器,以及它们在大数据处理中的应用…

思维+构造,CF 1059C - Sequence Transformation

一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 1059C - Sequence Transformation 二、解题报告 1、思路分析 n 1,2,3的情况从样例已知 考虑n > 4的情况 我们考虑要字典序最大,自然要最早出现非1的数,…

springboot+vue 开发记录(九)后端打包部署运行

本篇文章主要内容是后端项目写好了,怎么打包部署到服务器上运行。 文章目录 1. 在服务器上安装Docker2. 在Docker中装MySQL3. 在Docker中设置网桥,实现容器间的网络通信4. 修改后端配置文件5. 修改pom.xml文件6. 打包7. 编写DockerFile文件8. 上传文件到…

Java 如何不用再每次新建线程,直接使用公共线程池

前言 Hutool 是一个小而全的Java工具类库,通过静态方法封装,降低相关API的学习成本,提高工作效率,使Java拥有函数式语言般的优雅,让Java语言也可以“甜甜的”。 官网:https://www.hutool.cn/ 推荐说明 并发在Java中…

《昇思25天学习打卡营第17天|K近邻算法实现红酒聚类》

K近邻算法原理介绍 K近邻算法(K-Nearest-Neighbor, KNN)是一种用于分类和回归的非参数统计方法,最初由 Cover和Hart于1968年提出是机器学习最基础的算法之一。它正是基于以上思想:要确定一个样本的类别,可以计算它与所…

hot100

哈希 1.两数之和:求数组中两数的和为target,返回下标。用hash,key存数,value存下标,一次遍历,每次判断hash[taget-num]是否存在,存在就返回两个下标。 https://blog.csdn.net/midi666/article/…

WSGI 服务器教程:`full_dispatch_request` 方法解析

Python WSGI 服务器教程:full_dispatch_request 方法解析 在本文中,我们将详细解析一个用于 WSGI 服务器的 full_dispatch_request 方法。这个方法负责处理完整的请求调度,包括请求的前后处理、异常捕获和错误处理。我们将逐行解释该方法的工…

CSS【详解】文本相关样式(含 font 系列样式,文本颜色 color,三种颜色表示法,文本排版-含最佳实战范例,文本装饰,分散对齐,渐变色文本等)

文本风格 font-style font-style:italic 值描述normal默认值。浏览器显示一个标准的字体样式。italic加载对应字体的斜体字体文件,若找不到斜体字体文件,则进行物理上的倾斜。 标签默认font-style:italicoblique浏览器会显示一个倾斜的字体样式。 文本粗…

qt 一个继承object且使用Q_OBJECT宏的类有什么要求

一个继承自QObject且使用Q_OBJECT宏的类在Qt中有以下要求: 继承自QObject: 该类必须直接或间接继承自QObject类。这是使用Qt的信号槽机制、国际化机制以及Qt提供的不基于C RTTI的反射能力的基础。使用Q_OBJECT宏: 在类的定义中,必…

计算机网络——网络层(IP地址与MAC地址、地址解析协议ARP、IP数据报格式以及转发分组、ICMP、IPV6)

IP地址与MAC地址 由于MAC地址已固化在网卡上的ROM 中,因此常常将 MAC地址称为硬件地址或物理地址;物理地址的反义词就是虚拟地址、软件地址或逻辑地址,IP地址就属于这类地址。 从层次的角度看,MAC地址是数据链路层使用的地址&…

内存对齐的定义以及它的重要性

内存对齐是指数据在内存中存储时,按照一定的规则让数据排列在规定的地址上,以提高数据访问的效率和速度。具体来说,内存对齐是计算机体系结构、操作系统和编译器设计等多个层面共同要求的一种数据存储方式。以下是对内存对齐的详细解释以及它…

Java 面试相关问题(上)——基础问题集合问题

这里只会写Java相关的问题,包括Java基础问题、JVM问题、线程问题等。全文所使用图片,部分是自己画的,部分是自己百度的。如果发现雷同图片,联系作者,侵权立删。 1. Java基础面试问题1.1 基本概念相关问题1.1.1 Java语言…