python--jiaba库的基本使用

jieba 是一个用于中文分词的 Python 库。它使用基于统计的词典分词方法,能够支持三种分词模式:精确模式、全模式、搜索引擎模式,并且支持繁体分词和自定义词典。

以下是 jieba 库的基本使用步骤:

安装

首先,你需要安装 jieba 库。如果你还没有安装,可以通过 pip 来安装:

pip install jieba

1.基本使用

  • 精确模式:试图将句子最精确地切开,适合文本分析。

import jieba  
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)  
print("Default Mode: " + "/ ".join(seg_list))  # 输出: 我/ 来到/ 北京/ 清华大学
  • 全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义。

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)  
print("Full Mode: " + "/ ".join(seg_list))  # 输出: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
  • 搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

seg_list = jieba.cut_for_search("我来到北京清华大学", cut_all=False)  
print("Search Engine Mode: " + "/ ".join(seg_list))  # 输出: 我/ 来到/ 北京/ 清华/ 华大/ 大学/ 清华大学

 2.添加自定义词典

你可以通过 jieba.load_userdict(file_name) 函数来加载自定义词典。词典的每一行是一个词,词的后面是词频和词性(可省略),用空格隔开。

例如,假设你有一个名为 userdict.txt 的词典文件,内容如下:

清华大学 1 n  
北京大学 1 n

 你可以这样加载它:

jieba.load_userdict('userdict.txt')  
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)  
print(" ".join(seg_list))  # 输出: 我/ 来到/ 北京/ 清华大学

 3.其他功能

jieba 还提供了很多其他功能,如词性标注、关键词提取、并行分词等。

注意:在使用 jieba 时,请确保 Python 环境已经正确安装并配置了 jieba 库。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/35157.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一篇文章带你玩懂数据库的基础函数

数据库的函数 单行函数1.数据函数2.字符串函数3.时间函数4.流程函数 多行函数聚合函数 阅读指南: 本文章讲述了对于数据库的单行和多行函数,如果读者感兴趣,后续我们会更新高级的操作在我们的对于数据库教程的合集中,大家可以来很…

唐兴通:银行金融数字化转型营销客户销售个金对公讲师培训师

唐兴通 数字化转型顾问、金融产品营销专家、数字化销售增长教练、沃顿商学院演讲嘉宾。全球创新增长战略大家EM罗杰斯(创新的扩散)、杰弗里摩尔(跨越鸿沟)、亨利切萨布鲁夫(开放式创新)在中国合作者。《中…

服务接口请求 CORS跨域漏洞修复

通过nginx去对Origin请求头的来源地址去做逻辑处理,不在白名单内返回403 具体配置 location / {set $flag 0;if ($http_origin ){set $flag "${flag}1";}if ($http_origin !~* ^(http|https)://www\.abc\.com$){set $flag "${flag}1";}if ($f…

一位OpenAI大模型训练工程师繁忙的一天

早晨:迎接新的一天 7:00 AM - 起床 早晨七点起床。洗漱、吃早餐后,查看手机上的邮件和公司消息,以便提前了解今天的工作安排和任务优先级。 7:30 AM - 前往公司 乘坐地铁前往位于旧金山的OpenAI总部。在地铁上习惯性地阅读一些与人工智能和…

秋招倒计时?到底需要准备到什么程度?

秋招倒计时?需要准备到什么程度? 秋招,面向全国的毕业生,招聘的激烈程度可想而知!按照往年时间,秋招通常从八月初开始,九月黄金期,十月中后期。距今刚好差不多60天,时间其…

npm常用命令大全(非常详细)

npm(Node Package Manager)是Node.js的包管理工具,它允许你安装、更新、删除和管理Node.js项目的依赖。 以下是npm的一些常用命令,按照不同的功能进行分类和解释: 1. 初始化项目 init # 初始化一个新的npm项目&…

【.NET全栈】第16章 Web开发

文章目录 16.1 HTML概述16.1.1 HTML的基本概念16.1.2 HTML语言的基本元素16.1.3 格式设置16.1.4 超级链接16.1.5 图像16.1.6 表格16.1.7 框架16.1.8 表单 16.2 ASP.NET Web Forms的组织16.2.1 认识ASP.NET16.2.2 Web Forms的组织 16.3 Web服务器组件16.3.1 使用Label和TextBox控…

【PyScript】PyScript 基础入门

【PyScript】PyScript 基础入门 PyScript 是一个为了支持 Python 运行在浏览器的开源平台。 1.PyScript 应用程序的创建 PyScript 程序需要以下三个内容 一个提供给浏览器的 index.html 文件。PyScript 的运行环境描述,通常是一个 pyscript.json 或 pyscript.to…

陪诊小程序搭建:构建便捷医疗陪诊服务的创新实践

在当今快节奏的社会,医疗服务与人们的生活息息相关。然而,在医疗体系中,患者往往面临着信息不对称、流程繁琐、陪伴需求得不到满足等问题。为了解决这些问题,我们提出了一种创新的解决方案——陪诊小程序,旨在为患者提…

从零到一打造自己的大模型:模型训练

前言 最近看了很多大模型,也使用了很多大模型。对于大模型理论似乎很了解,但是好像又缺点什么,思来想去决定自己动手实现一个 toy 级别的模型,在实践中加深对大语言模型的理解。 在这个系列的文章中,我将通过亲手实践…

2734. 执行子串操作后的字典序最小字符串

Powered by:NEFU AB-IN Link 文章目录 2734. 执行子串操作后的字典序最小字符串题意思路代码 2734. 执行子串操作后的字典序最小字符串 题意 给你一个仅由小写英文字母组成的字符串 s 。在一步操作中,你可以完成以下行为: 选择 s 的任一非空子字符串…

Elasticsearch中的match_phrase_prefix、prefix和wildcard查询详解

Elasticsearch中的match_phrase_prefix、prefix和wildcard查询详解 match_phrase_prefix 查询示例优点缺点 prefix 查询示例优点缺点 wildcard 查询示例优点缺点 总结适用场景性能比较精度比较 在Elasticsearch中,对于以特定前缀开头的查询需求,常用的查…

入门篇:创建和运行Hello World

DevEco Studio安装完成后,可以通过运行Hello World工程来验证环境设置是否正确。接下来以创建一个支持Phone设备的工程为例进行介绍。 创建一个新工程 打开DevEco Studio,在欢迎页单击Create Project,创建一个新工程。根据工程创建向导&…

深度学习每周学习总结N2(词嵌入部分:Embeddingbag与Embedding详解)

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 | 接辅导、项目定制 目录 总结:one-hot编码和TF-IDF的区别与联系区别联系具体示例1. Embedding详解2. EmbeddingBag详解3. 任务描述4. 任务代码详细…

硬件开发笔记(二十二):AD21软件中创建元器件AXK5F80337YG原理图库、封装库和3D模型

若该文为原创文章,转载请注明原文出处 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/140007117 长沙红胖子Qt(长沙创微智科)博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV…

EE trade:贵金属投资的优点及缺点

贵金属(如黄金、白银、铂金和钯金)一直以来都是重要的投资和避险工具。它们具有独特的物理和化学特性,广泛应用于各种行业,同时也被视为财富储备。在进行贵金属投资时,了解其优点和缺点对于做出明智的投资决策至关重要。 一、贵金属投资的优…

240万亿巨量数据被洗出,足够训出18个GPT-4!全球23所机构联手,清洗秘籍公开

是时候把数据Scale Down了!Llama 3揭示了这个可怕的事实:数据量从2T增加到15T,就能大力出奇迹,所以要想要有GPT-3到GPT-4的提升,下一代模型至少还要150T的数据。好在,最近有团队从CommonCrawl里洗出了240T数…

算法刷题笔记--二叉树篇

感觉树这一章还是没搞清楚,可能是基础不扎实的缘故,学完C巩固底层知识后二刷 理论基础 确定递归函数的参数和返回值 :确定哪些参数是递归的过程中需要处理的,那么就在递归函数里加上这个参数, 并且还要明确每次递归的返回值是什么…

第二证券:美股市场新结算制度:T+2还是T+1?

美股商场新结算制度:T1结算。 从2024年5月28日开端,美国股票生意的结算周期将从之前的T2(生意日后两天)缩短为T1,即投资者当天卖出的股票,在生意后一个工作日就能收到结算的资金。 例如,假如生…

6.27数据分析实训作业1.4(python)

import pandas as pd import matplotlib.pyplot as plt import seaborn as sns # 读取数据 data pd.read_csv(rC:\Users\XXGC\Desktop\shiuxun3.csv) # 计算订单数量 order_count data["订单编号"].nunique() # 计算总金额 total_amount data["总金额"…