spacy库的安装与使用_为 SpaCy 提供的中文数据模型

SpaCy 中文模型

为 SpaCy 提供的中文数据模型. 模型目前还处于 beta 公开测试的状态 。

在线演示

基于 Jupyter notebook 的在线演示在 68747470733a2f2f6d7962696e6465722e6f72672f62616467652e737667

特性

部分 王小明在北京的清华大学读书 这个 Doc 对象的属性信息:

attributes_of_doc.png

NER (New!)

部分 王小明在北京的清华大学读书 这个 Doc 对象的 NER 信息:

ner_of_doc.png

开始使用

模型用二进制文件的形式进行分发, 用户应该具备基础的 SpaCy (version > 2) 的基础知识.

系统要求

Python 3 (也许支持 python2, 但未经过良好测试)

安装

下载模型

从 releases 页面下载模型 (New! 为中国地区的用户提供了加速下载的链接)。假设所下载的模型名为 zh_core_web_sm-2.x.x.tar.gz。

安装模型

pip install zh_core_web_sm-2.x.x.tar.gz

为了方便后续在 Rasa NLU 等框架中使用,需要再为这个模型建立一个链接,by 执行以下命令:

spacy link zh_core_web_sm zh

运行完成后就可以使用 zh 这个别名来访问这个模型了。

运行 Demo 代码

Demo 代码位于 test.py. 在安装好模型后,用户下载或者克隆本仓库的代码,然后可以直接执行

python3 ./test.py

打开地址 http://127.0.0.1:5000, 将看到如下:

dependency_of_doc.png

如何从零构造这个模型

语料库

本项目使用的语料库是 OntoNotes 5.0。

由于 OntoNotes 5.0 是 LDC (Linguistic Data Consortium) 的版权材料,无法直接包含在本项目中。好消息是,OntoNotes 5.0 对于 团体用户(包含企业和学术组织)是完全免费的。用户可以建立一个企业或者学术组织账号,然后免费获取 OntoNotes 5.0。

TODO list

属性 pos_ 不正确. 这个和 SpaCy 中中文语言 Class 相关。

属性 shape_ and is_alpha 似乎对中文并无意义, 但需要权威信息确认一下.

属性 is_stop 不正确. 这个和 SpaCy 中中文语言 Class 相关。

属性 vector 似乎没有训练的很好。

属性 is_oov 完全错误. 第一优先级修复。

NER 模型,因为缺少 LDC 语料库,目前不可用. 正在解决中正在训练中。

将训练中所用的中间结果 release 出来, 方便用户自行定制模型

使用的组件

TODO

如何贡献

请阅读 CONTRIBUTING.md , 然后提交 pull requests 给我们.

版本化控制

我们使用 SemVer 做版本化的标准. 查看 tags 以了解所有的版本.

作者

Xiaoquan Kong - Initial work - howl-anderson

更多贡献者信息,请参考 contributors.

版权

MIT License - 详见 LICENSE.md

致谢

TODO

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/264023.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ASP对很长的文章做分页输出

阅读: 1 评论: 0 作者: eng308 发表于 2010-02-03 10:33 原文链接利用统计文章字数,然后达到一定字数就截断输出,但是分页的内容就会在莫名其妙的地方截断,不是很友好。很简单,在要截断的地方附近找下面的符号:;’”&a…

RH124-3 目录结构_转

在linux里安装的时候,是可以指定某分区装在某文件夹里目录意义 /bin 存放命令,不可以在装系统单独挂载分区/home/dev 存放硬件设备 不可以单独挂载分区/boot 500M 和系统启动相关文件 不能放在逻辑卷里面/etc 不可以单独创建分区/lib /lib64 存放模块/me…

软件性能测试的本质

为什么80%的码农都做不了架构师?>>> ‍ 淘宝网每年的双11活动都是对其服务器性能的挑战。因为在这一天所有商品半价,购物的用户量剧增。做为淘宝网的高层更多的关心在线用户数,用户交易量,总交易金额等,做…

AGILE

AGILE CMMI的理解在最佳实践的态度上非常类似自下而上的草根性,相比更侧重完善自身理论的CMMI更具实用性软件工程工具的作用理想和现实,艺术与工业期望与代价,灵活性,易用性CMMI实施为何没有软件工程工具的适用性评估?有没有建议换工具的?它与制造业以SAP这样的工具来做ERP实…

算法整理

1.冒泡排序 $arr array(5,2,6,2,3,1); for($i0;$i<count($arr);$i){ for($jcount($arr);$j>$i;$j--){ if($arr[$i]>$arr[$j-1]){ $b $arr[$i]; $arr[$i] $arr[$j-1]; $arr[$j-1] $b; } } } 2.快速排序&#xff0c; 取一个值&#xff0c;比他大的放一边&#xff0c…

无废话XML--XML约束(DTD)

基本术语一、序言Prolog&#xff1a;包括XML声明(XML Declaration)和文档类型声明(Document Type Declaration)。 二、良构(well-formed 规范的)&#xff1a;符合W3C定义的XML文档。 为什么XML需要验证&#xff1f; 对XML文件施加额外的约束&#xff0c;以便交流。举个…

c# 流,字节数组及字符串之间的转换

//1.流转换为字节数组&#xff0c;fileUpload为.net上传控件Stream stream fileUpload.FileContent;byte[] fileBuffer new byte[stream.Length];stream.Read(fileBuffer,0,(int)stream.Length);//2.字节数组转换为字符串string fileBody System.Text.Encoding.Default.GetS…

mysql周报内容范文_Mysql各种报表查询含实例,日报,周报,月报,时间差自动计算...

public List retrieve(IReport report) {List list new ArrayList();Map map new HashMap();// 设置结束日期if (null ! report.getEndTime()) {map.put(ReportMeta.PROP_ENDTIME, report.getEndTime());// 设置名称if (null ! report.getName()) {map.put(ReportMeta.PROP_N…

路由器01---k2刷Pandora

1.固件 固件(Firmware)就是写入EPROM&#xff08;可擦写可编程只读存储器&#xff09;或EEPROM(电可擦可编程只读存储器)中的程序。 对于独立可操作的电子产品&#xff0c;固件一般指它的操作系统&#xff08;“担任着一个数码产品最基础、最底层工作的软件才可以称之为固件”&…

windows mac 安装lua

mac从源码编译安装是最方便的&#xff0c;lua源码不足两万行&#xff0c;编译几秒钟的事。 打开terminal&#xff0c;依次输入以下命令&#xff1a; curl -R -O http://www.lua.org/ftp/lua-5.2.3.tar.gz tar zxf lua-5.2.3.tar.gz cd lua-5.2.3 make macosx test sudo make in…

python中squeeze函数_详解pytorch中squeeze()和unsqueeze()函数介绍

squeeze的用法主要就是对数据的维度进行压缩或者解压。先看torch.squeeze() 这个函数主要对数据的维度进行压缩&#xff0c;去掉维数为1的的维度&#xff0c;比如是一行或者一列这种&#xff0c;一个一行三列(1,3)的数去掉第一个维数为一的维度之后就变成(3)行。squeeze(a)就是…

新闻网大数据实时分析可视化系统项目——7、Kafka分布式集群部署

Kafka是由LinkedIn开发的一个分布式的消息系统&#xff0c;使用Scala编写&#xff0c;它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。 1.下载Kafka并安装 1&#xff09;下载Apache版本的Kafka。 …

关于Excel导入的问题记录

当Excel导入成为需要时&#xff0c;之前的导出Excel为html方式的方法就受阻了&#xff0c;于是&#xff0c;需要开始新的百度与google来解决问题。 前提为OLEDBExcel。 根据需求&#xff0c;多数是对于表的数据的导入。于是产生这么一个需求过程&#xff1a; 1。准备一个空的标…

vux 地图插件_基于vue的移动端组件vux的安装及使用

一、安装<1>. 在项目里安装vuxnpm install vux --save<2>. 安装vux-loader (这个vux文档似乎没介绍&#xff0c;当初没安装结果报了一堆错误)npm install vux-loader --save-dev<3>. 安装less-loader (这个是用以正确编译less源码&#xff0c;否则会出现 Ca…

代码优化

代码优化 并非所有的处理器级优化策略仅限于汇编。即使C这样的高级语言中&#xff0c;也由不少适用的规则。 减少上下文依赖 看如下程序&#xff1a; double list[100]; double sum 0; for (int i 0; i < 100; i) {sum list[i]; } 上面这段代码还可以优化吗&#xff1f;站…

3.3.10 动态SQL

十、动态SQL 根据条件的不同, SQL 语句也会随之动态的改变. MyBatis 中,提供了一组标签用于实现动态 SQL. 1. <if> 用于进行条件判断, test 属性用于指定判断条件. 为了拼接条件, 在 SQL 语句后强行添加 11 的恒成立条件. <select id"sel" resultType"…

无法载入 mysql 扩展

今天弄了一天&#xff0c;总算把win2003下的问题给解决了&#xff0c; LoadModule php5_module E:\server\php528\php5apache2_2.dll 可能有些朋友也知道&#xff0c;添加这句后&#xff0c;就不用把php.ini拷贝到系统目录&#xff1a; PHPIniDir E:\server\php528\php.ini 现在…

订阅mysql的二进制日志_MySQL二进制日志

一、二进制日志(The Binary Log)1、简介包含所有更新了的数据或者已经潜在更新了的数据(比如一条没有匹配任何行的delete语句)包含所有更新语句执行时间的信息不记录没有修改数据的语句例如select&#xff0c;show主要作用一&#xff1a;主从复制主要作用二&#xff1a;恢复数据…

AIX-vi操作-提示Unknown terminal type的问题解决方法

AIX-vi操作-提示Unknown terminal type的问题解决方法AIX Version 5.3$ vi /etc/profilelinux: Unknown terminal type[Hit return to continue] :q!I dont know what kind of terminal you are on - all I have is linux.[Using open mode]……临时办法&#xff0c;下次启动失…

javaEE jdbc编程步骤

版权声明&#xff1a;本文为博主原创文章。未经博主同意不得转载。 https://blog.csdn.net/qilixiang012/article/details/25925647 1.载入数据库驱动(jar文件) //须要下载一个数据库的jar包&#xff0c;并导入对应的JDBC项目中。创建路径&#xff01; Class.forName("co…