ik分词和jieba分词哪个好_Pubseg:一种单双字串的BiLSTM中文分词工具

中文分词是中文自然语言处理中的重要的步骤,有一个更高精度的中文分词模型会显著提升文档分类、情感预测、社交媒体处理等任务的效果[1]。

Pubseg是基于BiLSTM中文分词工具,基于ICWS2005PKU语料训练集训练而成,其优点在于在ICWS2005-PKU语料下训练精度达到99.99%,测试集上精度94.34%,召回94.21%, F1值94.26%。

分词模型是基于Keras设计,其详细描述见[2],其模型结构如图1:

1be553e81c470f5a76e14ef2904845d8.png
图1 PretrainedUnigram+Bigram+Context+Dropout+BiLSTM+BN网络

在ICWS2005PKU测试集下比较jieba、IK、pkuseg、Stanza的评价,其对比结果如图2所示:

76c999fd2c70c6bc4c6218a6511139b0.png
图2 ICWS2005PKU测试集下比较jieba、IK、pkuseg、Stanza与Pubseg比较

下面介绍如何安装使用Pubseg工具。准备工作,准备python3.6以上版本。安装依赖: numpy==1.18.1, keras==2.2.4, tensorflow-gpu==1.15.2
下载Pubseg中文分词模型,由于模型太大,结构文件与权重文件分开存储。下载地址如下:https://pan.baidu.com/s/1LnjZD9HVQ164uAe0-XpPsg;提取码:zm41;也可以扫码下载,下载地址见图3:

81e144fea55e52388a704cd14fdcd7cb.png
图3 Pubseg中文分词模型下载地址

模型下载后,需要下载Pubseg代码git clone https://github.com/ShenDezhou/LSTM

下面介绍基本用法,

首先,创建一个PUB_BiLSTM_BN类的对象bilstm;

其次,通过命令行指定字典文件和模型文件路径:-u <unigramfile> -b <bigramfile> -a <archfile> -w <weightfile>,默认路径为:

UNIGRAM = 'pku_dic/pku_dict.utf8'  #字典
BIGRAM = 'pku_dic/pku_bigram.utf8'  #二字词典
MODELARCH = 'keras/B20-E60-F5-PU-Bi-Bn-De.json'  #keras模型
MODELWEIGHT = "keras/B20-E60-F5-PU-Bi-Bn-De-weights.h5"  #keras权重

再次,调用对象bilstm的加载Keras模型函数loadKeras;

最后,调用对象bilstm的cut函数,入参为待分词中文文本,返回结果为空格分隔后的中文文本。

完整代码如下:

bilstm = PUB_BiLSTM_BN()
bilstm.loadKeras()
segs = bilstm.cut(["我昨天去清华大学。", "他明天去北京大学,再后天去麻省理工大学。"])

完整代码见[3]。

模型的性能如下,在ICWS2005-PKU语料下训练精度达到99.99%,测试集上精度94.34%,召回94.21%, F1-值94.26%。

模型加载性能、推理性能:
CPU:Intel i56300HQ 2.30Ghz
SSD: Samsung 970 EVO 1TB M.2 NVMe PCIe SSD
GPU:GeForce GTX 950M-DDR3
字典加载时间:176ms
模型及权重加载时间:1m45s664ms


推理性能:
47.47ms/字 #以"我 昨天 去 清华 大学 。他 明天 去 北京 大学 , 再 后天 去 麻省 理工大学 。"为测试条件;
13.30ms/行 #以PKUTEST1944行 为测试条件。

结论,本文提出了一种基于预训练字与二字向量的BiLSTM中文分词工具Pubseg,其性能在PKU测试集上取得了超过同类分词模型的效果。

[1]待论证。

[2]基于Pretrained-UnigramBigram的中文分词模型 https://zhuanlan.zhihu.com/p/111681404

[3]Pubseg:一种单双字串的BiLSTM中文分词工具 https://github.com/ShenDezhou/LSTM

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/393792.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小白做淘客店铺新玩法

微信淘客在朋友圈刷了将近两个月。有些大咖赚得盆满钵满&#xff0c;有些小白交了不少学费。有人日入几千几万&#xff0c;也有入不敷出。在此咖妹并没有褒贬之意&#xff0c;只是提醒大家&#xff0c;不光淘客如此&#xff0c;其他项目亦是如此&#xff0c;别人能做成功的项目…

python sum函数numpy_如何用numba加速python?

我把写好的markdown导入进来&#xff0c;但是没想到知乎的排版如此感人。如果对知乎排版不满想要看高清清爽版&#xff0c;请移步微信公众号原文 如何用numba加速python&#xff1f;同时欢迎关注前言说道现在最流行的语言&#xff0c;就不得不提python。可是python虽然容易上手…

[ZJOI2019]麻将

Luogu5279 , LOJ3042题意&#xff1a;给出初始13张手牌&#xff0c;求理论可以和牌的最小轮数的期望&#xff0e;定义和牌为&#xff1a;4句话1对乱将&#xff0c;不能有杠&#xff1b;七对 原始题解-shadowice 写得很好的题解 首先分析期望&#xff1a;\(<--\)所有和牌的步…

采样次数不同平均值不一样_不同的真石漆装饰效果也是不一样的

外墙真石漆真的是一件很好的产品&#xff0c;具有防火性、防水性、安全且环保、粘力强、永不褪色等特点&#xff0c;无疑是人们较好的选择&#xff0c;在很早之前就已经逐渐的取代了瓷砖和其他石材在人们心中的位置。真石漆的品种不止一种&#xff0c;按照装饰效果我们可以分为…

android项目方法数超过65536的解决办法

2019独角兽企业重金招聘Python工程师标准>>> 当项目的总方法数超过65536个&#xff0c;运行在手机上&#xff0c;指不定会报找不到哪个文件的错。 我把项目的PullRefresh框架切换为SmartRefresh框架出现了方法数超过65536。 此文只是做一下笔记&#xff0c;不多做解…

python快乐数字怎么表达_Python经典面试题:这些面试题你会了吗?

前言什么&#xff1f;你要去找工作&#xff1f;先别急着找工作&#xff0c;先把下面的python面试题先给看了吧&#xff0c;不然你就只是去面试而不是找工作。话说不打没准备的仗&#xff0c;下面这些基本的面试题都不会你怎么可能找到工作呢&#xff1f;还是先把下面的东西1、P…

【swift学习笔记】三.使用xib自定义UITableViewCell

使用xib自定义tableviewCell看一下效果图 1.自定义列 新建一个xib文件 carTblCell&#xff0c;拖放一个UITableViewCell,再拖放一个图片和一个文本框到tableviewcell上 并给我们的xib一个标识 为了学习&#xff0c;我这里的xib和后台的class是分开建的。我们再建一个cocoa touc…

命令模式(Command Pattern)

1命令模式是一个高内聚的模式。定义如下&#xff1a;将一个请求封装成一个对象&#xff0c;从而让你使用不同的请求把客户端参数化&#xff0c;对请求排队或者记录请求日志&#xff0c;可以提供命令的撤销和恢复功能。 2.角色说明&#xff1a; ● Receive接收者角色 该角色就…

graphpad7.04多组比较p值_同是折线图为何你却这么优秀,这才是多组数据作图应该有的样子...

相信大家对Excel做折线图应该不陌生&#xff0c;在展示数据的时候&#xff0c;图表是一种最好的展示方法。但是经常会碰到一种尴尬的事情就是&#xff0c;当数据维多比较多的时候&#xff0c;做出的图表就会显得非常难看。今天我们就来学习一下&#xff0c;多组数据怎么做折线图…

linux 运行 chom,Hadoop安装-单节点/伪分布(2.7.3)

1&#xff0c;下载Hadoop目前在Ubuntu的软件库里面 没有发现Hadoop的压缩包&#xff0c;没猜错Hadoop不是可执行文件 只是一个压缩包吧&#xff01;所以我们只能自己到官网下载(http://hadoop.apache.org/releases.html)&#xff1b;在Apache社区中&#xff0c;下载软件的时候…

app之---豆果美食

1.抓包 2.代码 抓取&#xff1a; #!/usr/bin/env python # -*- coding: utf-8 -*- #author tom import requests from multiprocessing import Queue from handle_pymongo import mongo from concurrent.futures import ThreadPoolExecutorclass Douguo():def __init__(self):s…

语言坐标度分秒的换算_测量位置度说明

测量位置度说明位置度是限制被测要素的实际位置对理想位置变动量的指标。它的定位尺寸为理论正确尺寸。位置度公差在评定实际要素位置的正确性, 是依据图样上给定的理想位置。位置度包括点的位置度、线的位置度和面的位置度。[1] 点的位置度:如公差带前加S&#xffe0;&#xf…

OpenStack创建win7实例遇到的问题(尚未解决,求帮助)

原地址在这里&#xff1a;&#xff08;作者也是我&#xff0c;害羞&#xff09;http://www.aboutyun.com/forum.php?modviewthread&tid22898 小白经过两天尝试&#xff0c;用fuel部署好了OpenStack的云平台&#xff0c;接下来想在Compute节点上创建一个win7 实例&#xff…

VMware使两台windows虚拟机能够互相ping通

如果以下内容测试无效&#xff0c;可参考另一篇&#xff1a;VMware虚拟机配置内网电脑能访问 1.关闭防火墙 cmd命令行里输入&#xff1a;netsh firewall set opmode disable 2.测试如果还不能ping通&#xff0c;就把网络类型选nat类型 3.测试&#xff1a;vmware网关默认是.2 转…

linux账号前有个base,安装 aconda 后Linux的终端界面前部出现(base)字样

aconda 是做什么用的这里就不说了&#xff0c;一般玩Python的都知道这东西&#xff0c;最早接触这东西是因为它把NVIDIA中cuda计算和Python互连的一个库拿下了&#xff0c;是买下来了还是专业&#xff0c;还是唯一合作的也就记不清了&#xff0c;那就是 numba , 那些年头Python…

Spring 学习教程(一): 认识 Spring 框架

Spring 框架是 Java 应用最广的框架&#xff0c;它的成功来源于理念&#xff0c;而不是技术本身&#xff0c;它的理念包括 IoC (Inversion of Control&#xff0c;控制反转) 和 AOP(Aspect Oriented Programming&#xff0c;面向切面编程)。 Spring 的框架结构 Data Access/Int…

小米网关控制空调伴侣_小米有品上架移动空调,支持语音控制

近日小米有品商城上架了一款互联网可移动空调&#xff0c;机身仅有小米空气净化器一般大小&#xff0c;底部安装了万向轮&#xff0c;支持多方位自由移动&#xff0c;拥有三大功能&#xff0c;兼顾去暑除湿能力&#xff0c;产品售价1599元&#xff0c;有需求的用户可以在小米有…

转载 JDK + Android-SDK + Python + MonkeyRunner 的安装

转载来自&#xff1a; 小海豚的博客 http://blog.sina.com.cn/u/1295334083 我只是搬运工。。。 JDK Android-SDK Python MonkeyRunner 的安装 1. Android-SDK介绍2. 安装 JDK, Android-SDK&#xff08;包含MonkeyRunner) , Python 3. 设置环境变量4. 验证是否安装成功1. …

模块怎么用_Android 组件化/模块化 的理解!

作者&#xff1a;前行的乌龟到现在组件化真的不是什么新鲜东西了&#xff0c;大公司都用的滚瓜烂熟&#xff0c;龙飞凤舞了&#xff0c;也就是现在部分中型项目和小项目在组件化的路上努力。所以同志们&#xff0c;组件化没玩过的&#xff0c;不熟悉的赶紧搞起来&#xff0c;说…

和get redis_SpringBoot整合Redis,你get了吗?

Our-task介绍本篇博客是我github上our-task&#xff1a;一个完整的清单管理系统的配套教程文档&#xff0c;这是SpringBootVue开发的前后端分离清单管理工具&#xff0c;仿滴答清单。目前已部署在阿里云ECS上&#xff0c;可进行在线预览&#xff0c;随意使用&#xff08;附详细…