文本数据分析-(TF-IDF)(2)

文章目录

  • 一、TF-IDF与jieba库介绍
    • 1.TF-IDF概述
    • 2.jieba库概述
  • 二、TF-IDF与jieba库的结合
    • 1.结合
    • 2.提取步骤
  • 三,代码实现
    • 1.导入必要的库
    • 读取文件:
    • 3.将文件路径和内容存储到DataFrame
    • 4.加载自定义词典和停用词
    • 5.分词并去除停用词

TF-IDF(Term Frequency-Inverse Document Frequency)与jieba库在文本处理领域有着紧密的联系,尤其是在中文文本分析中。

一、TF-IDF与jieba库介绍

1.TF-IDF概述

TF-IDF是一种统计方法,用于评估一个词语对于一个文件集或一个语料库中的其中一份文件的重要程度。它通过结合词频(TF)和逆文档频率(IDF)两个因素来计算词语的权重。词频(TF)表示某个词在文档中出现的频率,逆文档频率(IDF)则度量了该词在整个文本集合中的重要性。TF-IDF值越高,表示该词在文档中的重要性越大,越能代表文档的主题。

2.jieba库概述

jieba库是一个流行的中文分词库,它支持三种分词模式:精确模式、全模式和搜索引擎模式。除了分词功能外,jieba库还提供了词性标注、关键词提取、添加自定义词典等丰富的功能。其中,关键词提取功能就是基于TF-IDF算法实现的。

二、TF-IDF与jieba库的结合

1.结合

在jieba库中,TF-IDF算法被用于关键词提取。jieba提供了jieba.analyse.extract_tags函数,该函数通过计算文本中每个词的TF-IDF值,并按降序排列,从而提取出最重要的关键词。用户可以通过设置参数来控制返回的关键词数量和是否返回关键词的权重值。
此外,jieba库还支持自定义IDF频率文件,允许用户根据自己的需求调整IDF的计算方式。这为用户提供了更大的灵活性,以适应不同的文本分析场景。

2.提取步骤

使用jieba库进行TF-IDF关键词提取的步骤
安装jieba库:在Python环境中使用pip安装jieba库,例如pip install jieba。
导入jieba库:在Python脚本中导入jieba库,例如import jieba.analyse。
准备文本:准备要提取关键词的文本。
提取关键词:使用jieba.analyse.extract_tags函数提取关键词。
输出结果:根据需求输出关键词列表或带权重的关键词列表。

三,代码实现

1.导入必要的库

import pandas as pd
import os
import jieba
  • pandas:用于数据处理和分析。
  • os:用于与操作系统交互,如遍历目录和文件。
  • jieba:一个流行的中文分词库。

读取文件:

filePaths = []
fileContents = []
for root, dirs, files in os.walk(r"./红楼梦/分卷"):for name in files:filePath = os.path.join(root, name)  # 获取每个分卷的路径print(filePath)filePaths.append(filePath)  # 卷文件路径添加刀列表filePaths中f = open(filePath, 'r', encoding='utf-8')fileContent = f.read() # 读取每一卷中文件的内容f.close()fileContents.append(fileContent)
  • 遍历列表:使用os.walk遍历指定目录下的所有文件和子目录。
  • 获取内容:对于每个文件,获取其完整路径(filePath),并读取文件内容(fileContent)。
  • 添加文件内容:将文件路径和内容分别添加到两个列表(filePaths和fileContents)中。

3.将文件路径和内容存储到DataFrame

corpos = pd.DataFrame({   # 将文件内容添加到DataFrame框架'filePath': filePaths,'fileContent': fileContents
})
  • 使用pandas.DataFrame创建一个新的DataFrame(corpos),其中包含两列:filePath和fileContent。这使得后续的数据处理(如分词和去除停用词)可以更方便地通过行迭代进行。

4.加载自定义词典和停用词

jieba.load_userdict(r"./红楼梦/红楼梦词库.txt")
stopwords = pd.read_csv(r"./红楼梦/StopwordsCN.txt",encoding='utf-8', engine='python', index_col=False)
  • 使用jieba.load_userdict加载自定义的《红楼梦》词库,以提高分词的准确性。
  • 使用pandas.read_csv读取停用词列表,并存储在stopwords中。注意,这里StopwordsCN.txt文件中有一个名为stopword的列,包含了所有的停用词。

5.分词并去除停用词

file_to_jieba = open(r"./红楼梦/分词后汇总.txt", 'w', encoding='utf-8')
for index, row in corpos.iterrows():juan_ci = ''filePath = row['filePath']fileContent = row['fileContent']segs = jieba.cut(fileContent) # 对文本内容进行分词,返回一个可遍历的迭代器for seg in segs:if seg not in stopwords.stopword.values and len(seg.strip()) > 0: # 剔除停用词和字符为0的内容juan_ci += seg + ' 'file_to_jieba.write(juan_ci + '\n')
file_to_jieba.close()
  • 分词:遍历corpos的每一行,对每行的fileContent进行分词。对于分词结果中的每个词,检查它是否不在停用词列表中,并且不是空字符串。如果满足条件,则将该词添加到juan_ci字符串中,并在词之间添加空格作为分隔符。
  • 保存结果:将每个文件处理后的文本写入到新的文件中,每个文件的处理结果占一行。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/52758.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Servlet 简介+ Cookie和session+过滤器Filter和监听器Listener

目录 1.Servlet 介绍 1.1 什么是Servlet 1.2 Servlet的使用方法 1.3 Servlet接口的继承结构 2.Servlet的生命周期 2.1 servlet生命周期中重要的方法 3.获得前端提交数据 4.中文乱码的解决方案 5.重定向和转发 5.1 重定向 5.2 转发 6. Request对象 7. Response对象…

Linux上启动redis

1.默认启动方式:在系统的任意位置执行 redis-server即可启动 ps:这是前端界面启动,无法直接连接redis,想要连接的话只能另外启动一个窗口,因此下面我们介绍后台启动redis 2.指定配置启动: redis的配置文件位置&#xff1a…

华为手机数据丢失如何恢复?

在智能手机普及的今天,华为手机凭借其卓越的性能和用户体验赢得了众多用户的青睐。然而,在使用过程中,我们难免会遇到数据丢失或误删除的情况。面对这一困境,许多用户可能会感到束手无策。别担心,本文将为你提供一份全…

FastGPT:利用大模型重新定义传统知识库

引言 传统知识库的痛点 传统知识库广泛应用于企业文档管理、客户支持等场景,但随着信息量和复杂度的增加,存在以下显著问题: 数据难整合: 结构化与非结构化数据分散,更新维护成本高。检索不精准: 依赖关…

PostgreSQL分区表原理、案例的灵活应用

PostgreSQL分区表的灵活应用 通常情况下,扫描一个大表会很慢,需要扫描整张表格,如果能够把大表分拆成小表,查询数据的时猴,只扫描数据所属的小表,就能大大降低扫描时间,提高查询速度。 1、简介 PostgreS…

【前端开发必备小技巧】前端代码规范Vue篇

文章目录 🟢 前端代码规范🟢 一、前端代码规范Vue篇👉1、Vue编码基础👉1.1、组件规范👉1.2、模板中使用简单的表达式👉1.3、指令都使用缩写形式👉1.4、 标签顺序保持一致👉1.5、必须…

【Kotlin设计模式】Kotlin实现适配器模式

前言 适配器模式(Adapter Pattern)的核心将某个类的接口转换成客户端期望的另一个接口表示,使得客户端能够通过自己期望的接口与不兼容的类进行交互。适配器模式有三种实现方式,分别是类适配器模式、对象适配器模式、 接口适配器模式。 我们假设有个视频…

mysql 创建数据库和表,以及对表字段的操作

目录 前言1. 创建数据库2. 选择数据库3. 创建表4. 添加字段5. 修改字段6. 删除字段总结 前言 在MySQL中,你可以通过SQL语句来创建数据库、表,以及在表中添加、修改、删除字段。下面我将分别展示这些操作的示例。 1. 创建数据库 首先,你需要…

3D Tiles的4x4的仿射变换矩阵

前言 项目需要,使用Cesium技术,把STL格式模型加载进去。 一、格式转换 第一步,先将STL文件转换为glTF格式 第二步,将glTF文件转换为3D Tiles格式,使用Cesium ion 二、矩阵整体结构 这个矩阵是一个4x4的仿射变换矩阵&…

3154. 到达第 K 级台阶的方案数

3154. 到达第 K 级台阶的方案数 题目链接:3154. 到达第 K 级台阶的方案数 代码如下: //参考链接:https://leetcode.cn/problems/find-number-of-ways-to-reach-the-k-th-stair/solutions/2782792/liang-chong-fang-fa-ji-yi-hua-sou-suo-zu…

LeetCode题练习与总结:单词搜索Ⅱ--212

一、题目描述 给定一个 m x n 二维字符网格 board 和一个单词(字符串)列表 words, 返回所有二维网格上的单词 。 单词必须按照字母顺序,通过 相邻的单元格 内的字母构成,其中“相邻”单元格是那些水平相邻或垂直相邻…

中智科学技术评价研究中心与中企数研究院实现全面合作

8月29日,中智科学技术评价研究中心与《中国企业报》集团数字化发展研究院在北京顺喜山庄成功举办“数字经济GBC生态系统管理平台”项目实施落地座谈会及研究院高层管理集训班,并签署了项目合作协议。此次合作标志着双方将在“数字中国发展战略”的大背景…

人工智能领域正经历模型规模变革,小型语言模型(SLM)崛起,挑战“规模至上”观念。

在人工智能领域,一场关于模型规模的深刻变革正在悄然发生。长久以来,科技巨头们热衷于庞大语言模型(LLM)的开发竞赛,但如今,小型语言模型(SLM)正以其独特的优势逐步崭露头角&#xf…

WordNet介绍——一个英语词汇数据库

传统语义知识库最常见的更新方法是依赖人工手动更新,使用这种更新方法的语义知识库包括最早的 WordNet、FrameNet和 ILD,以及包含丰富内容的 ConceptNet和 DBPedia。此类语义知识库的特点是以单词作为语义知识库的基本构成元素,以及使用预先设…

Linux安装Hadoop(单机版)详细教程

目录 一、JDK安装 1、下载JDK安装包 2、解压下载的JDK安装包 3、移动并重命名JDK包 4、配置Java环境变量 5、验证安装是否成功 二、Hadoop安装 1、下载Hadoop安装包 2、解压Hadoop安装包 3、配置Hadoop环境变量 4、修改配置文件 5、验证Hadoop是否安装成功 三&…

代码随想录——回文子串(Leetcode 647)

题目链接 我的题解(双指针) 思路: 当然,以下是对您提供的代码的解释: class Solution {public int countSubstrings(String s) {// 初始化回文子字符串的数量int count 0;// 遍历字符串的每个字符,使用…

sicp每日一题[1.38]

Exercise 1.38 In 1737, the Swiss mathematician Leonhard Euler published a memoir D e F r a c t i o n i b u s C o n t i n u i s De\ Fractionibus\ Continuis De Fractionibus Continuis, which included a continued fraction expansion for e − 2 e − 2 e−2, wh…

NCH DrawPad Pro for Mac/Win:强大的图像编辑处理软件

NCH DrawPad Pro for Mac/Win是一款功能全面的图像编辑和设计软件,专为Mac和Windows用户设计。它不仅适用于专业设计师,也深受业余爱好者和创意工作者的喜爱。DrawPad Pro凭借其丰富的绘图工具、强大的编辑功能和便捷的模板库,为用户提供了卓…

Android JNI 设置环境变量

setenv 在 Android JNI 中&#xff0c;setenv 是一个 C 标准库函数&#xff0c;用于设置环境变量。你可以通过 JNI 调用这个函数来设置或修改环境变量&#xff1a; #include <jni.h> #include <cstdlib> // For setenvextern "C" JNIEXPORT void JNICA…

OpenCV杂项图像变换(2)线性混合函数blendLinear()的使用

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 执行两个图像的线性混合&#xff1a; dst ( i , j ) weights1 ( i , j ) ∗ src1 ( i , j ) weights2 ( i , j ) ∗ src2 ( i , j ) \texttt{…