spacy库的安装与使用_为 SpaCy 提供的中文数据模型

spacy库的安装与使用_为 SpaCy 提供的中文数据模型

news/2025/4/27 20:56:32/文章来源:https://blog.csdn.net/weixin_36190719/article/details/113541605

SpaCy 中文模型

为 SpaCy 提供的中文数据模型. 模型目前还处于 beta 公开测试的状态。

在线演示

基于 Jupyter notebook 的在线演示在 68747470733a2f2f6d7962696e6465722e6f72672f62616467652e737667 。

特性

部分王小明在北京的清华大学读书这个 Doc 对象的属性信息:

NER (New!)

部分王小明在北京的清华大学读书这个 Doc 对象的 NER 信息:

开始使用

模型用二进制文件的形式进行分发, 用户应该具备基础的 SpaCy (version > 2) 的基础知识.

系统要求

Python 3 (也许支持 python2, 但未经过良好测试)

安装

下载模型

从 releases 页面下载模型 (New! 为中国地区的用户提供了加速下载的链接)。假设所下载的模型名为 zh_core_web_sm-2.x.x.tar.gz。

安装模型

pip install zh_core_web_sm-2.x.x.tar.gz

为了方便后续在 Rasa NLU 等框架中使用，需要再为这个模型建立一个链接，by 执行以下命令：

spacy link zh_core_web_sm zh

运行完成后就可以使用 zh 这个别名来访问这个模型了。

运行 Demo 代码

Demo 代码位于 test.py. 在安装好模型后，用户下载或者克隆本仓库的代码，然后可以直接执行

python3 ./test.py

打开地址 http://127.0.0.1:5000, 将看到如下：

如何从零构造这个模型

语料库

本项目使用的语料库是 OntoNotes 5.0。

由于 OntoNotes 5.0 是 LDC (Linguistic Data Consortium) 的版权材料，无法直接包含在本项目中。好消息是，OntoNotes 5.0 对于团体用户(包含企业和学术组织)是完全免费的。用户可以建立一个企业或者学术组织账号，然后免费获取 OntoNotes 5.0。

TODO list

属性 pos_ 不正确. 这个和 SpaCy 中中文语言 Class 相关。

属性 shape_ and is_alpha 似乎对中文并无意义, 但需要权威信息确认一下.

属性 is_stop 不正确. 这个和 SpaCy 中中文语言 Class 相关。

属性 vector 似乎没有训练的很好。

属性 is_oov 完全错误. 第一优先级修复。

NER 模型，因为缺少 LDC 语料库，目前不可用. 正在解决中正在训练中。

将训练中所用的中间结果 release 出来, 方便用户自行定制模型

使用的组件

TODO

如何贡献

请阅读 CONTRIBUTING.md , 然后提交 pull requests 给我们.

版本化控制

我们使用 SemVer 做版本化的标准. 查看 tags 以了解所有的版本.

作者

Xiaoquan Kong - Initial work - howl-anderson

更多贡献者信息，请参考 contributors.

版权

MIT License - 详见 LICENSE.md

致谢

TODO

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/264023.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

ASP对很长的文章做分页输出

ASP对很长的文章做分页输出

阅读: 1 评论: 0 作者: eng308 发表于 2010-02-03 10:33 原文链接利用统计文章字数，然后达到一定字数就截断输出，但是分页的内容就会在莫名其妙的地方截断，不是很友好。很简单，在要截断的地方附近找下面的符号:；’”&a…

阅读更多...

RH124-3 目录结构_转

RH124-3 目录结构_转

在linux里安装的时候，是可以指定某分区装在某文件夹里目录意义 /bin 存放命令，不可以在装系统单独挂载分区/home/dev 存放硬件设备不可以单独挂载分区/boot 500M 和系统启动相关文件不能放在逻辑卷里面/etc 不可以单独创建分区/lib /lib64 存放模块/me…

阅读更多...

软件性能测试的本质

软件性能测试的本质

为什么80%的码农都做不了架构师？>>> ‍ 淘宝网每年的双11活动都是对其服务器性能的挑战。因为在这一天所有商品半价，购物的用户量剧增。做为淘宝网的高层更多的关心在线用户数，用户交易量，总交易金额等，做…

阅读更多...

AGILE

AGILE

AGILE CMMI的理解在最佳实践的态度上非常类似自下而上的草根性,相比更侧重完善自身理论的CMMI更具实用性软件工程工具的作用理想和现实,艺术与工业期望与代价,灵活性,易用性CMMI实施为何没有软件工程工具的适用性评估?有没有建议换工具的?它与制造业以SAP这样的工具来做ERP实…

阅读更多...

算法整理

算法整理

1.冒泡排序 $arr array(5,2,6,2,3,1); for($i0;$i<count($arr);$i){ for($jcount($arr);$j>$i;$j--){ if($arr[$i]>$arr[$j-1]){ $b $arr[$i]; $arr[$i] $arr[$j-1]; $arr[$j-1] $b; } } } 2.快速排序， 取一个值，比他大的放一边&#xff0c…

阅读更多...

无废话XML--XML约束（DTD）

无废话XML--XML约束（DTD）

基本术语一、序言Prolog：包括XML声明(XML Declaration)和文档类型声明(Document Type Declaration)。二、良构(well-formed 规范的)：符合W3C定义的XML文档。为什么XML需要验证？ 对XML文件施加额外的约束，以便交流。举个…

阅读更多...

c# 流，字节数组及字符串之间的转换

c# 流，字节数组及字符串之间的转换

//1.流转换为字节数组，fileUpload为.net上传控件Stream stream fileUpload.FileContent;byte[] fileBuffer new byte[stream.Length];stream.Read(fileBuffer,0,(int)stream.Length);//2.字节数组转换为字符串string fileBody System.Text.Encoding.Default.GetS…

阅读更多...

mysql周报内容范文_Mysql各种报表查询含实例，日报，周报，月报，时间差自动计算...

mysql周报内容范文_Mysql各种报表查询含实例，日报，周报，月报，时间差自动计算...

public List retrieve(IReport report) {List list new ArrayList();Map map new HashMap();// 设置结束日期if (null ! report.getEndTime()) {map.put(ReportMeta.PROP_ENDTIME, report.getEndTime());// 设置名称if (null ! report.getName()) {map.put(ReportMeta.PROP_N…

阅读更多...

路由器01---k2刷Pandora

路由器01---k2刷Pandora

1.固件固件(Firmware)就是写入EPROM（可擦写可编程只读存储器）或EEPROM(电可擦可编程只读存储器)中的程序。对于独立可操作的电子产品，固件一般指它的操作系统（“担任着一个数码产品最基础、最底层工作的软件才可以称之为固件”&…

阅读更多...

windows mac 安装lua

windows mac 安装lua

mac从源码编译安装是最方便的，lua源码不足两万行，编译几秒钟的事。打开terminal，依次输入以下命令： curl -R -O http://www.lua.org/ftp/lua-5.2.3.tar.gz tar zxf lua-5.2.3.tar.gz cd lua-5.2.3 make macosx test sudo make in…

阅读更多...

python中squeeze函数_详解pytorch中squeeze()和unsqueeze()函数介绍

python中squeeze函数_详解pytorch中squeeze()和unsqueeze()函数介绍

squeeze的用法主要就是对数据的维度进行压缩或者解压。先看torch.squeeze() 这个函数主要对数据的维度进行压缩，去掉维数为1的的维度，比如是一行或者一列这种，一个一行三列(1,3)的数去掉第一个维数为一的维度之后就变成(3)行。squeeze(a)就是…

阅读更多...

新闻网大数据实时分析可视化系统项目——7、Kafka分布式集群部署

新闻网大数据实时分析可视化系统项目——7、Kafka分布式集群部署

Kafka是由LinkedIn开发的一个分布式的消息系统，使用Scala编写，它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。 1.下载Kafka并安装 1）下载Apache版本的Kafka。 …

阅读更多...

关于Excel导入的问题记录

关于Excel导入的问题记录

当Excel导入成为需要时，之前的导出Excel为html方式的方法就受阻了，于是，需要开始新的百度与google来解决问题。前提为OLEDBExcel。根据需求，多数是对于表的数据的导入。于是产生这么一个需求过程： 1。准备一个空的标…

阅读更多...

vux 地图插件_基于vue的移动端组件vux的安装及使用

vux 地图插件_基于vue的移动端组件vux的安装及使用

一、安装<1>. 在项目里安装vuxnpm install vux --save<2>. 安装vux-loader (这个vux文档似乎没介绍，当初没安装结果报了一堆错误)npm install vux-loader --save-dev<3>. 安装less-loader (这个是用以正确编译less源码，否则会出现 Ca…

阅读更多...

代码优化

代码优化

代码优化并非所有的处理器级优化策略仅限于汇编。即使C这样的高级语言中，也由不少适用的规则。减少上下文依赖看如下程序： double list[100]; double sum 0; for (int i 0; i < 100; i) {sum list[i]; } 上面这段代码还可以优化吗？站…

阅读更多...

3.3.10 动态SQL

3.3.10 动态SQL

十、动态SQL 根据条件的不同, SQL 语句也会随之动态的改变. MyBatis 中,提供了一组标签用于实现动态 SQL. 1. <if> 用于进行条件判断, test 属性用于指定判断条件. 为了拼接条件, 在 SQL 语句后强行添加 11 的恒成立条件. <select id"sel" resultType"…

阅读更多...

无法载入 mysql 扩展

无法载入 mysql 扩展

今天弄了一天，总算把win2003下的问题给解决了， LoadModule php5_module E:\server\php528\php5apache2_2.dll 可能有些朋友也知道，添加这句后，就不用把php.ini拷贝到系统目录： PHPIniDir E:\server\php528\php.ini 现在…

阅读更多...

订阅mysql的二进制日志_MySQL二进制日志

订阅mysql的二进制日志_MySQL二进制日志

一、二进制日志(The Binary Log)1、简介包含所有更新了的数据或者已经潜在更新了的数据(比如一条没有匹配任何行的delete语句)包含所有更新语句执行时间的信息不记录没有修改数据的语句例如select，show主要作用一：主从复制主要作用二：恢复数据…

阅读更多...

AIX-vi操作-提示Unknown terminal type的问题解决方法

AIX-vi操作-提示Unknown terminal type的问题解决方法

AIX-vi操作-提示Unknown terminal type的问题解决方法AIX Version 5.3$ vi /etc/profilelinux: Unknown terminal type[Hit return to continue] :q!I dont know what kind of terminal you are on - all I have is linux.[Using open mode]……临时办法，下次启动失…

阅读更多...

javaEE jdbc编程步骤

javaEE jdbc编程步骤

版权声明：本文为博主原创文章。未经博主同意不得转载。 https://blog.csdn.net/qilixiang012/article/details/25925647 1.载入数据库驱动(jar文件) //须要下载一个数据库的jar包，并导入对应的JDBC项目中。创建路径！ Class.forName("co…

阅读更多...

最新文章