sklearn 计算 tfidf 得到每个词分数

sklearn 计算 tfidf 得到每个词分数

news/2025/4/16 11:19:45/文章来源:https://blog.csdn.net/weixin_40994552/article/details/135936688

from sklearn.feature_extraction.text import TfidfVectorizer# 语料库 可以换为其它同样形式的单词
corpus = [list(range(-5, 5)),list(range(-6,4)),list(range(12)),list(range(13))]# corpus = [
#    ['Two', 'wrongs', 'don\'t', 'make', 'a', 'right', '.'],
#    ['The', 'pen', 'is', 'mightier', 'than', 'the', 'sword'],
#    ['Don\'t', 'put', 'all', 'your', 'eggs', 'in', 'one', 'basket', '.']]def dummy_fun(doc):return doctfidf_vec = TfidfVectorizer(analyzer='word',tokenizer=dummy_fun,preprocessor=dummy_fun,token_pattern=None)  # 使用 fit_transform() 得到 TF-IDF 矩阵。此为 scipy 稀疏矩阵
tfidf_matrix = tfidf_vec.fit_transform(corpus)
# print(tfidf_matrix)# 使用 get_feature_names() 得到不重复的单词
print(tfidf_vec.get_feature_names_out())# 得到每个单词对应的 ID
print(tfidf_vec.vocabulary_)

在这里插入图片描述

# 得到 corpus 中每个词得分
for i in range(len(corpus)):column_indexes = [tfidf_vec.vocabulary_[key] for key in corpus[i]]tf_idf = tfidf_matrix[i, column_indexes].toarray()[0]print(tf_idf)

在这里插入图片描述
参考：
Applying scikit-learn TfidfVectorizer on tokenized text
sklearn.feature_extraction.text.TfidfVectorizer

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/657460.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

CGAL5.4.1 边塌陷算法

CGAL5.4.1 边塌陷算法

目录 1、使用曲面网格的示例 2、使用默认多面体的示例 3、使用丰富多面体的示例主要对1、使用曲面网格的示例进行深度研究 CGAL编译与安装CGAL安装到验证到深入_cgal测试代码-CSDN博客参考资料CGAL 5.4.5 - Triangulated Surface Mesh Simplification: User Manual …

阅读更多...

云原生 k8s 可能使用到的端口整理【不定期更新】

云原生 k8s 可能使用到的端口整理【不定期更新】

k8s 因为涉及到的组件太多了，所以端口有很多，这里整理了日常所接触的接口，后续有新的再更新。如果是通过公网 IP 进行安装的时候需要根据实际情况有选择的进行放开；一般只有云厂商会提供公网 IP 访问，自建的话不建议 …

阅读更多...

通过WSL2来实现Windows10/11的深度学习模型GPU加速，TensorFlow项，Jupyter及其插件安装，CQF心得，金融量化

通过WSL2来实现Windows10/11的深度学习模型GPU加速，TensorFlow项，Jupyter及其插件安装，CQF心得，金融量化

通过WSL2来实现TF的GPU加速为什么要用WSL（Windows Subsystem Linux）安装WSL2，miniconda，cuda，cudnn，TA-Lib安装 WSL2安装 Miniconda3安装 CUDA安装 cuDNN安装 TensorFlow 库安装 TA-Lib 库安装其它CQF及金…

阅读更多...

Inventor 2024下载安装教程，免费使用，附安装包和工具，流程简单，小白也能轻松搞定

Inventor 2024下载安装教程，免费使用，附安装包和工具，流程简单，小白也能轻松搞定

前言 Inventor是一款专业的三维可视化实体建模软件，Inventor.主要用于各类二维机械制图、三维制图的设计和开发等操作，可以广泛地应用于零件设计、钣金设计、装配设计等领域。准备工作 1、Win7及以上系统 2、提前准备好 Inventor 2024 安装包没有…

阅读更多...

C++语法基础及入门使用案例

C++语法基础及入门使用案例

C语法基础及使用案例 1. 第一个C程序 #include <iostream> using namespace std; int main() {cout << "Hello World" << endl; }2. 输出不同类型（十进制、八进制、十六进制、浮点型、字符型） #include <iostream> …

阅读更多...

【操作系统】知识补漏

【操作系统】知识补漏

进程之间的关系： 1.独立 2.交互关系 2.1 竞争关系----互斥锁【解决】 2.2 协作关系----信号量【解决】 Linux调度策略的过程 linux 分为两个模型： 1 Normal 模式 sched_other[RR] 2. real-time 模式 real -time模式的进程优先级永远高于Normal模型查…

阅读更多...

springboot3整合swagger

springboot3整合swagger

JDK17 SpringBoot3.2.2 引入依赖 <dependency><groupId>org.springdoc</groupId><artifactId>springdoc-openapi-starter-webmvc-ui</artifactId><version>2.1.0</version> </dependency>现在已经可以使用，访问 …

阅读更多...

2401Idea用GradleKotlin编译Java控制台中文出乱码解决

2401Idea用GradleKotlin编译Java控制台中文出乱码解决

解决方法解决方法1 在项目 build.gradle.kts 文件中加入 tasks.withType<JavaCompile> {options.encoding "UTF-8" } tasks.withType<JavaExec> {systemProperty("file.encoding", "utf-8") }经测试, 只加 tasks.withType<…

阅读更多...

正则表达式（RE）

正则表达式（RE）

什么是正则表达式正则表达式，又称规则表达式（Regular Expression）。正则表达式通常被用来检索、替换那些符合某个规则的文本正则表达式的作用验证数据的有效性替换文本内容从字符串中提取子字符串匹配单个字符字符功能.匹配任意1个…

阅读更多...

0130-2-秋招面试—HTML篇

0130-2-秋招面试—HTML篇

2023 HTML面试题 1.src和href的区别 scr用于替换当前元素，href用于在当前文档和外部资源之间建立联系。 <script src"main.js"></script><link href"style.css" rel"stylesheet" />2.对HTML语义化的理解根据内…

阅读更多...

数列极限一基础篇-重点习题记录

数列极限一基础篇-重点习题记录

海涅定理与函数连续首先证明函数在X0处连续： X 利用归结原则（海涅定理）证明函数在x！0处不连续： 收获： 数列极限单调有界应用题1 题2 题3

阅读更多...

8个硬核的python入门项目

8个硬核的python入门项目

大家好，Python是一种通用编程语言，被广泛用于Web开发、数据分析、机器学习和自动化。提高Python技能的最佳方式之一是从事实际项目。本文将探索8个带有代码的Python项目，其涵盖了各种主题和难度级别，帮助大家增强编程能力。 1. U…

阅读更多...

华为---STP（二）---STP报文和STP端口状态

华为---STP（二）---STP报文和STP端口状态

目录 1. STP报文简介 1.1 Configuration BPDU 1.2 TCN BPDU 2. STP交换机端口状态 2.1 STP交换机端口状态表 2.2 STP交换机端口状态迁移过程图 2.3 STP交换机端口状态变化举例说明 3 引起的STP网络拓扑改变的示例 3.1 根桥出现故障 3.2 有阻塞端口的交换机根端口所在…

阅读更多...

web worker

web worker

（1）同源限制分配给 Worker 线程运行的脚本文件，必须与主线程的脚本文件同源。（2）DOM 限制 Worker 线程所在的全局对象，与主线程不一样，无法读取主线程所在网页的 DOM 对象，也无法使…

阅读更多...

爬虫学习笔记-selenium交互

爬虫学习笔记-selenium交互

1.导包 from selenium import webdriver import time from selenium.webdriver.common.by import By 2.打开浏览器访问百度页面,睡眠2秒 url https://www.baidu.com browser webdriver.Chrome() browser.get(url) time.sleep(2) 3.获取输入框,输入搜索的内容,睡眠2秒 i…

阅读更多...

6.1 内存模式概述

6.1 内存模式概述

Bruce Powel Douglass大师介绍-CSDN博客嵌入式软件开发从小工到专家-CSDN博客 C嵌入式编程设计模式源码-CSDN博客 “内存管理模式”介绍了几种内存管理的模式，每种模式都针对特定的系统需求和约束设计。 6.2 静态分配模式（Static Allocation Patter…

阅读更多...

[嵌入式系统-6]：龙芯1B 开发学习套件 -3-软件层次架构

[嵌入式系统-6]：龙芯1B 开发学习套件 -3-软件层次架构

目录一、龙芯软件架构 1.1 通用软件架构 1.2 龙芯软件架构 1.3 龙芯各种应用程序 1.4 龙芯SOC芯片硬件：龙芯1B 1.5 PMON软件 1.6 龙芯IDE管辖的软件 （1）CPU Core驱动程序 （2）SOC芯片外设驱动程序 &#xff…

阅读更多...

Linux（CentOS7）与用户电脑传输文件（sz与rz）云与云（scp）

Linux（CentOS7）与用户电脑传输文件（sz与rz）云与云（scp）

rz和sz是Linux/Unix同Windows进行Zmodem文件传输的命令工具 rz和sz中的z为Zmodem文件传输协议的首字母 s为send发送 r为receive接收，都是相对与Linux来看的接收和发送 Linux发送文件到电脑： sz命令把文件发送到Windows sz 文件直接按回车就可以选择发送…

阅读更多...

数据结构：大顶堆、小顶堆

数据结构：大顶堆、小顶堆

堆是其中一种非常重要且实用的数据结构。堆可以用于实现优先队列，进行堆排序，以及解决各种与查找和排序相关的问题。本文将深入探讨两种常见的堆结构：大顶堆和小顶堆，并通过 C 语言展示如何实现和使用它们。一、定义堆是一种完…

阅读更多...

利用操作符解题的精彩瞬间

利用操作符解题的精彩瞬间

下面是链接为了解释练习2的并且还有与操作符相关的知识。 C语言与操作符相关的经典例题-CSDN博客操作符详解（上）-CSDN博客操作符详解（下）-CSDN博客目录练习1：在一个整型数组中，只有一个数字出现一…

阅读更多...

最新文章