中文自然语言处理库(SnowNLP)的简单使用

snownlp 是一个简单易用的 Python 库,专为处理中文文本而设计。它基于自然语言处理技术,提供了多种功能,包括分词、词性标注、情感分析、文本转换(简繁转换)等。这个库的核心优势在于对中文文本的处理能力,尤其是情感分析功能。

主要功能

  1. 分词(Tokenization):将长文本划分为单独的词汇。

  2. 词性标注(Part-of-Speech Tagging):标注文本中每个词汇的词性,如名词、动词等。

  3. 情感分析(Sentiment Analysis):判断文本的情感倾向是正面还是负面。

  4. 文本转换(Text Conversion):实现简体和繁体中文之间的转换。

  5. 关键词提取(Keywords Extraction):提取文本中的关键词。

  6. 摘要生成(Summarization):从文本中提取关键句生成摘要。

  7. 短语提取(Phrase Extraction):从文本中提取短语。

安装

snownlp 可以通过 pip 安装:

pip install snownlp

示例

以下是使用snownlp进行各种处理的一些基本示例:

分词
from snownlp import SnowNLPtext = """
中新社北京2023年12月29日电(记者 刘育英)中国工信部12月29日发布的《工业和信息化部等八部门关于加快传统制造业转型升级的指导意见》提出,到2027年,中国传统制造业在全球产业分工中的地位和竞争力进一步巩固增强。传统制造业是中国制造业的主体,石化化工、钢铁、有色、建材、机械、汽车、轻工、纺织等传统制造业增加值占中国全部制造业的比重近80%。但中国传统制造业“大而不强”“全而不精”问题仍然突出,低端供给过剩和高端供给不足并存,创新能力不强,产业基础不牢,资源约束趋紧,要素成本上升,巩固提升竞争优势面临较大挑战。指导意见提出,到2027年,传统制造业高端化、智能化、绿色化、融合化发展水平明显提升,有效支撑制造业比重保持基本稳定,在全球产业分工中的地位和竞争力进一步巩固增强。工业企业数字化研发设计工具普及率、关键工序数控化率分别超过90%、70%,工业能耗强度和二氧化碳排放强度持续下降,万元人民币工业增加值用水量较2023年下降13%左右,大宗工业固体废物综合利用率超过57%。
"""
#分词
s = SnowNLP(text)
print(s.words)

 

词性标注
tags = [word.tag for word in SnowNLP(text).tags]
print(tags)

 

 

情感分析
#情感分析
sentiment = SnowNLP(text).sentiments
print(sentiment)

 

s.sentimentsSnowNLP库中用于情感分析的功能。这个情感分数是一个介于0到1之间的浮点数,用于表示文本的情感倾向。分数越接近1,表示文本的情感倾向越正面;分数越接近0,表示文本的情感倾向越负面。 

文本转换(简繁转换)
#简繁转化
traditional = SnowNLP(text).han
print(traditional)

 

还是简体,这个功能不一定有效。。。

关键词提取
#提取关键词
keywords = SnowNLP(text).keywords(limit=5)
print(keywords)

 

摘要生成

#总结摘要
summary = SnowNLP(text).summary(3)# 提取3个句子作为摘要
print(summary)

 提取关键词和生成摘要的效果还不错。

依存句法分析

分析文本中词语之间的依存关系。

s = SnowNLP(text)
dependency = s.tags  # 获取依存关系
for item in dependency:print(item)

 就是词性标注。没啥区别。

文本分类

对文本进行分类(需要自行训练模型)。

#文本分类:对文本进行分类(需要自行训练模型)。# 首先需要有一些标注好的数据进行训练
# 例如:snownlp.SnowNLP([[words, tags], ...])
# 然后使用save方法保存训练好的模型

# 首先需要有一些标注好的数据进行训练 

转换成拼音

将中文文本转换成拼音。

s = SnowNLP(text)
pinyin = s.pinyin
print(pinyin)

这个功能还挺实用的。

词频统计

对文本中的词频进行统计。

s = SnowNLP(text)
words_count = s.tf
print(words_count)

这个...不是词频是字频吧


注意事项

  • snownlp 对于情感分析提供了预训练模型,但这个模型可能不适用于所有类型的文本。对于特定领域或特定文体的文本,可能需要额外的训练来优化结果。
  • 库的准确性在很大程度上依赖于数据质量和数据量,对于复杂或特殊的文本内容,可能需要进一步的自定义处理或训练。

snownlp 是处理中文文本的强大工具,但它的功能和准确性可能会受限于所使用的数据和特定应用场景。


虽然代码是gpt写的,但是我都运行了的,是可以跑的,这篇算是这个库的简单使用。其中的一些功能,词频统计,关键词提取,情感分析,生成摘要,转化拼音。还是很实用的功能。以后会有场景用得上的。


创作不易,看官觉得写得还不错的话点个关注和赞吧,本人会持续更新python数据分析领域的代码文章~(需要定制代码可私信)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/595011.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Navicat 技术干货 | 聚合查询的介绍

基础 SQL 查询可以检索、插入、更新和删除记录,而聚合查询可通过提供求和、平均值或最大/最小值等的大型结果集,将数据库交互提升到一个新的水平。本文中,我们将探索聚合 SQL 查询的基础知识,并研究如何有效的利用他们来分析和汇总…

C++类和对象介绍

介绍 在C语言中,类和对象是面向对象编程(OOP)的核心概念。类定义了对象的模板或蓝图,而对象则是根据类的定义创建的实例。 看了定义,是不是感觉还是感觉不清楚,想学编程的都想看着代码学习,那就…

复试 || 就业day08(2024.01.03)算法篇

文章目录 前言亲密字符串两句话中的不常见单词公平的糖果交换卡牌分组独特的电子邮件地址 前言 💫你好,我是辰chen,本文旨在准备考研复试或就业 💫文章题目大多来自于 leetcode,当然也可能来自洛谷或其他刷题平台 &…

Python 遍历某文件夹下所有文件夹或文件

1、使用os库中的listdir方法 os.listdir(path) 方法用于返回指定的文件夹包含的文件或文件夹的名字的列表(不包含子文件夹里的文件夹和文件) os.path.isfile(path)判断路径是否为文件。os.path.isdir(path)判断路径是否为目录 os.path.join(path1[, path2[, ...]])把目录和文…

14.1 Linux 并发与竞争

一、并发与竞争 并发:多个执行单元同时、并行执行。 竞争:并发的执行单元同时访问共享资源(硬件资源和软件上的全局变量等)易导致竞态。 二、原子操作 1. 原子操作简介 原子操作:不能再进一步分割的操作,一般用于变量或位操作。 …

关于设计模式的一点总结

一、GoF 23种设计模式 1.分类 GoF 23种设计模式可分为几类:创建型、结构型和行为型。如下表 分类设计模式创建型单例模式、工厂方法模式、抽象工厂模式、原型模式、建造者模式结构型代理模式、适配器模式、装饰者模式、桥接模式、组合模式、门面模式、享元模式行…

基于多反应堆的高并发服务器【C/C++/Reactor】(中)添加 删除 修改 释放

在上篇文章(处理任务队列中的任务)中我们讲解了处理任务队列中的任务的具体流程,eventLoopProcessTask函数的作用: 处理队列中的任务,需要遍历链表并根据type进行对应处理,也就是处理dispatcher中的任务。 // 处理任…

Idea启动运行“错误:java: 无效的源发行版: 13”,如何解决?

以上是以JDK1.8的项目作为举例,如果您用的是其他版本请选择对应的language level idea中项目的language level的含义 language level指的是编译项目代码所用的jdk版本。那么,从这个定义出发会有两个小问题。 ❶ 如果project sdk是jdk8,那么la…

2020年认证杯SPSSPRO杯数学建模C题(第一阶段)抗击疫情,我们能做什么全过程文档及程序

2020年认证杯SPSSPRO杯数学建模 C题 抗击疫情,我们能做什么 原题再现: 2020 年 3 月 12 日,世界卫生组织(WHO)宣布,席卷全球的冠状病毒引发的病毒性肺炎(COVID-19)是一种大流行病。…

Qt之设置QLabel的背景色和前景色

方法有两种,一种是使用调色板,一种是使用样式表。 方法一:调色板 QPalette palette ; // 设置黑底绿字 palette .setColor(QPalette::Background, Qt::black); palette .setColor(QPalette::WindowText, Qt::green); // 这句不能少,否则没效果 ui->label->setAutoF…

解析大语言模型LLM的幻觉问题:消除错觉、提高认知

文章目录 前言一、幻觉介绍二、幻觉产生的原因三、幻觉的现象四、幻觉的分类五、幻觉解决方案六、幻觉待解决问题后记 前言 在人类的感知和认知过程中,幻觉一直是一个被广泛讨论和研究的问题。幻觉指的是一种虚假的感知或认知经验,使我们看到、听到或感…

前端配置笔记

文章目录 nvm 操作nvm in cmdnpm in node.jsyarn in node.jsyarn node.js 是 js 文件的运行环境nodist, nvm 是 node.js 的管理器Releases coreybutler/nvm-windows (github.com)下载nvmyarn, npm 都是 node.js 的包的管理工具下载yarn: npm install -g yarn nvm 操作 ## 镜…

企业微信开发:自建应用:应用形态(网页,小程序,默认页面)

概述 问题: 企业微信,自建应用,应该实现成什么样子?应用里是一个网页应用吗? 企业微信自建应用可以实现为多种形态,根据实际需求和功能设计,它可以是一个网页应用、一个小程序或者结合企业微信提…

【Pytorch】学习记录分享9——新闻数据集文本分类任务实战

【Pytorch】学习记录分享9——PyTorch新闻数据集文本分类任务 1. 认为主流程code2. NLP 对话和预测基本均属于分类任务详细见3. Tensorborad 1. 认为主流程code import time import torch import numpy as np from train_eval import train, init_network from importlib impo…

Python基础-05(输出输入、if、if else和elif)

文章目录 前言一、输出(print())和输入(input())二、if、if else、elif1.if2.if else3.关于输入input的默认值4.elif 前言 今天复习一些非常基础的内容,以及if、if else和elif语句 一、输出(print()&…

python3.x读写文件及BOM处理

1 python3.x读写文件及BOM处理 1.1 python3.x读取和写入Unicode python3.x的字符串为unicode,可以调用encode()方法手动将字符串编码为字节串(原始字节),也可以通过文件输入输出自动编码。 1.1.1 手动编码 描述 python3.x的字符串通过encode(编码名…

CMake入门教程【核心篇】添加应用程序(add_executable)

😈「CSDN主页」:传送门 😈「Bilibil首页」:传送门 😈「本文的内容」:CMake入门教程 😈「动动你的小手」:点赞👍收藏⭐️评论📝 文章目录 1. 概述2. 使用方法2…

ARM Cortex-A学习(3):MMU内存管理单元

内存管理单元(MMU)负责虚拟地址到物理地址的转换。MMU通过翻译表将程序使用的虚拟地址映射到实际的物理内存位置,实现对内存的动态管理和隔离。这不仅允许更灵活的内存分配,还提高了系统的安全性和稳定性。了解MMU的工作原理对于开发底层代码、BootLoade…

k8s---Pod的生命周期

Pod是什么? pod是k8s中最小的资源管理组件。 pod也是最小化运行容器化应用的资源管理对象。 pod是一个抽象的概念,可以理解为一个或者多个容器化应用的集合 在一个pod当中运行一个容器是最常用的方式 在一个pod当中可以同时运行多个容器&#xff0c…

【数据结构】二叉树的创建和遍历:前序遍历,中序遍历,后序遍历,层次遍历

目录 一、二叉树的定义 1、二叉树的定义 2、二叉树的五种形态 二叉树的子树 : 3、满二叉树与完全二叉树 4、二叉树的性质 5、二叉树的存储结构 1、顺序存储 ​编辑 2、链式存储 二、二叉树的遍历 按照前序序列构建二叉树 1、前 (先) 序遍历(Preorder …