使用NLTK进行自然语言处理:英文和中文示例

Natural Language Toolkit(NLTK)是一个强大的自然语言处理工具包,提供了许多有用的功能,可用于处理英文和中文文本数据。本文将介绍一些基本的NLTK用法,并提供代码示例,展示如何在英文和中文文本中应用这些功能。

1. 分词(Tokenization)

分词是将文本拆分为单词或子句的过程。NLTK提供了适用于英文和中文的分词工具。

英文分词示例:

import nltk
from nltk.tokenize import word_tokenizeenglish_sentence = "NLTK is a powerful library for natural language processing."
english_tokens = word_tokenize(english_sentence)
print(english_tokens)

结果:

['NLTK', 'is', 'a', 'powerful', 'library', 'for', 'natural', 'language', 'processing', '.']

中文分词示例:

import jiebachinese_sentence = "自然语言处理是一门重要的研究领域。"
chinese_tokens = jieba.lcut(chinese_sentence)
print(chinese_tokens)

2. 句子分割(Sentence Tokenization)

句子分割是将文本拆分为句子的过程。

英文句子分割示例:

from nltk.tokenize import sent_tokenizeenglish_text = "NLTK is a powerful library for natural language processing. It provides various tools for text analysis."
english_sentences = sent_tokenize(english_text)
print(english_sentences)

结果:

['NLTK is a powerful library for natural language processing.', 'It provides various tools for text analysis.']

中文句子分割示例:

import rechinese_text = "自然语言处理是一门重要的研究领域。NLTK 和 jieba 是常用的工具库。"
chinese_sentences = re.split('(?<!\\w\\.\\w.)(?<![A-Z][a-z]\\.)(?<=\\.|\\?)\\s', chinese_text)
print(chinese_sentences)

请注意,中文句子分割通常需要更复杂的规则,这里使用了正则表达式作为一个简单的例子。实际中,可能需要更复杂的算法或中文分句库

3. 词干提取(Stemming)

词干提取是将单词还原为其词干或词根的过程。

英文词干提取示例:

from nltk.stem import PorterStemmerenglish_words = ["running", "jumps", "quickly"]
stemmer = PorterStemmer()
english_stemmed_words = [stemmer.stem(word) for word in english_words]
print(english_stemmed_words)

结果:

['run', 'jump', 'quickli']

中文词干提取示例:

中文文本的词干提取通常需要复杂的处理,这里以英文为例。

4. 词性标注(Part-of-Speech Tagging)

词性标注是为文本中的每个单词确定其词性的过程。

英文词性标注示例:

from nltk import pos_tag
from nltk.tokenize import word_tokenizeenglish_sentence = "NLTK is great for part-of-speech tagging."
english_tokens = word_tokenize(english_sentence)
english_pos_tags = pos_tag(english_tokens)
print(english_pos_tags)

结果:

[('NLTK', 'NNP'), ('is', 'VBZ'), ('great', 'JJ'), ('for', 'IN'), ('part-of-speech', 'JJ'), ('tagging', 'NN'), ('.', '.')]

中文词性标注示例:

中文词性标注需要使用特定的中文语料库,这里以英文为例。

5. 情感分析(Sentiment Analysis)

情感分析是确定文本情感倾向的过程。

英文情感分析示例:

from nltk.sentiment import SentimentIntensityAnalyzerenglish_sentence = "NLTK makes natural language processing easy and fun."
sia = SentimentIntensityAnalyzer()
sentiment_score = sia.polarity_scores(english_sentence)if sentiment_score['compound'] >= 0.05:sentiment = 'Positive'
elif sentiment_score['compound'] <= -0.05:sentiment = 'Negative'
else:sentiment = 'Neutral'print(f"Sentiment: {sentiment}")

中文情感分析示例:

中文情感分析同样需要中文语料库和模型。这里以英文为例。

结论

NLTK是一个强大的工具包,可以应用于多种自然语言处理任务。通过本文提供的示例,您可以了解如何在英文和中文文本中使用NLTK的不同功能。

附加资源

  • NLTK官方文档
  • jieba中文分词库

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/664394.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HTTP MIME 类型

MIME - Multipurpose Internet Mail Extension, 多用途因特网邮件扩展&#xff0c;起初是为了解决不同的电子邮件系统之间搬移报文时存在的问题。MIME 在电子邮件系统中工作得非常好&#xff0c;因此 HTTP 也采纳了它&#xff0c;用它来描述并标记多媒体内容。 MIME 类…

cnpm : 无法加载文件 C:\Users\xxx\AppData\Roaming\npm\cnpm.ps1

cnpm命令被禁止使用 我已经安装cnpm &#xff0c;但是使用不了&#xff0c;重新安装也没用。 报错如下图&#xff1a; cnpm无法使用报错 解决问题 1、打开系统Windows PowerShell,使用管理员身份运行。 打开Windows PowerShell 2、输入set-ExecutionPolicy RemoteSigned&a…

第三篇:跨平台QT开发-元对象系统

元对象系统 元对象系统是一个基于 标准 C的扩展 &#xff0c;为 Qt 提供了信号与槽机制、实时类型信息,动态属性系统 元对象系统的三个基本条件&#xff1a;类必须继承自 QObject、类声明 Q_OBJECT 宏&#xff08;默认私有 有&#xff09;、元对象编译器 moc。 class ExamDia…

oracle 修改表结构语句

oracle 修改表结构语句 Oracle中可以使用ALTER TABLE语句来修改表的结构。 添加列&#xff1a; ALTER TABLE table_name ADD column_name data_type; 示例&#xff1a;ALTER TABLE employees ADD email VARCHAR2(50); 删除列&#xff1a; ALTER TABLE table_name DROP COL…

区分手机小程序以及电脑小程序;左滑、导航键返回拦截

1、区分电脑小程序和手机小程序 //区分电脑小程序、手机小程序&#xff08;目标&#xff1a;手机小程序&#xff09; // #ifdef MP-WEIXIN uni.getSystemInfo({success: (res) > {// windows | mac为pc端// android | ios为手机端// console.log(getSystemInfo,, res.plat…

Matplotlib雷达图教程:学会绘制炫酷多彩的多维数据可视化【第53篇—python:Seaborn大全】

文章目录 Matplotlib雷达图绘制指南&#xff1a;炫酷雷达图参数解析与实战1. 普通雷达图2. 堆叠雷达图3. 多个雷达图4. 矩阵雷达图5. 极坐标雷达图6. 定制化雷达图外观7. 调整雷达图坐标轴范围8. 雷达图的子图布局9. 导出雷达图总结 Matplotlib雷达图绘制指南&#xff1a;炫酷雷…

在flutter中集成Excel导入和导出

flutter中集成Excel导入和导出功能 1、需要的依赖 在pubspec.yaml #excel导出syncfusion_flutter_xlsio: ^24.1.45open_file: ^3.0.1#导入excelflutter_excel: ^1.0.1#选择文件的依赖file_picker: ^6.1.1&#xff08;1&#xff09;依赖说明 在测试时&#xff0c;我们在使用导…

pip安装tf-gpu=2.4的bug解决方案

背景:在centos7.9服务器上,v100单卡,cuda-11.7,驱动也是匹配的,安装torch不费劲,但是tf-gpu就是不行,conda安装失败,只有pip安装,然而pip失败。woc conda安装失败: conda install tensorflow-gpu==2.4 Collecting package metadata (current_repodata.json): done…

spring问题点

1.事务 1.1.事务传播 同一个类中 事务A调非事务B B抛异常 AB事务生效&#xff08;具有传播性&#xff09; 同一个类中 事务A调非事务B A抛异常 AB事务生效 也就是主方法加了事务注解 则方法内调用的其他本类方法无需加事务注解&#xff0c; 发生异常时可以保证事务的回滚 最常…

Docker极速入门掌握基本概念和用法

1、Docker概念 1.1什么是docker Docker是一个快速交付应用、运行应用的技术&#xff0c;具备以下优势 可将程序及其依赖、运行环境一起打包为一个镜像&#xff0c;可以迁移到任意Linux操作系统运行时利用沙箱机制形成隔离容器&#xff0c;各个应用互不干扰启动、移除都可以通…

【PTA浙大版《C语言程序设计(第4版)》编程题】练习7-4 找出不是两个数组共有的元素(附测试点)

目录 输入格式: 输出格式: 输入样例: 输出样例: 代码呈现 测试点 给定两个整型数组&#xff0c;本题要求找出不是两者共有的元素。 输入格式: 输入分别在两行中给出两个整型数组&#xff0c;每行先给出正整数N&#xff08;≤20&#xff09;&#xff0c;随后是N个整数&a…

小鱼深度产品测评之:阿里云一键部署幻兽帕鲁,真正1分钟部署,3分钟进入游戏,无限畅玩,双倍快乐。

阿里云一键部署幻兽帕鲁 一、 引言二、 部署过程2.1 进入游戏联机服务专题页2.2 服务购买2.3 服务创建 三、游戏体验3.1 进入Palword3.2 游戏体验3.3 服务器更新3.4 定时备份存档 三、 总结3.1 部署体验3.2 游戏体验 一、 引言 首先。感谢阿里云的运营小姐姐定邀我来参与这次幻…

机器学习 | 如何构建自己的决策树算法?

决策树思想的来源非常朴素&#xff0c;程序设计中的条件分支结构就是if-else结构&#xff0c;最早的决策树就是利用这类结构分割数据的一种分类学习方法 目录 初识决策树 决策树原理 cart剪枝 特征提取 泰坦尼克号乘客生存预测(实操) 回归决策树 初识决策树 决策树是一种…

idea 中 tomcat 乱码问题修复

之前是修改 Tomcat 目录下 conf/logging.properties 的配置&#xff0c;将 UTF-8 修改为 GBK&#xff0c;现在发现不用这样修改了。只需要修改 IDEA 中 Tomcat 的配置就可以了。 修改IDEA中Tomcat的配置&#xff1a;添加-Dfile.encodingUTF-8 本文结束

什么是单例模式与饿汉式单例模式的区别是什么?

什么是单例模式与饿汉式单例模式的区别是什么&#xff1f; 单例模式和饿汉式单例模式都是软件设计模式&#xff0c;它们的区别在于实例的创建时间和线程安全性。 单例模式是一种设计模式&#xff0c;确保一个类只有一个实例&#xff0c;并提供一个全局访问点。单例模式可以保…

嵌入式软件中常见的 8 种数据结构

数据结构是一种特殊的组织和存储数据的方式&#xff0c;可以使我们可以更高效地对存储的数据执行操作。数据结构在计算机科学和软件工程领域具有广泛而多样的用途。 几乎所有已开发的程序或软件系统都使用数据结构。此外&#xff0c;数据结构属于计算机科学和软件工程的基础。当…

pytorch创建tensor

目录 1. 从numpy创建2. 从list创建3. 创建未初始化tensor4. 设置默认tensor创建类型5. rand/rand_like, randint6. randn生成正态分布随机数7. full8. arange/range9. linspace/logspace10. Ones/zeros/eye11. randperm 1. 从numpy创建 2. 从list创建 3. 创建未初始化tensor T…

【iOS ARKit】2D肢体动作捕捉

人体肢体动作捕捉在动漫影视制作、游戏CG 动画、实时模型驱动中有着广泛的应用&#xff0c;利用 ARKit&#xff0c;无须额外的硬件设备即可实现 2D和3D人体一系列关节和骨骼的动态捕捉&#xff0c;由于移动AR 的便携性及低成本&#xff0c;必将促进相关产业的发展。 ARBody Tr…

物流自动化移动机器人|HEGERLS三维智能四向穿梭车助力优化企业供应链

智能化仓库/仓储贯穿于物流的各个环节&#xff0c;不局限于存储、输送、分拣、搬运等单一作业环节的自动化&#xff0c;更多的是利用科技手段实现整个物流供应链流程的自动化与智能化&#xff0c;将传统自动化仓储物流各环节进行多维度的有效融合。 例如在数智化物流仓储的建设…