Spacy小笔记:zh_core_web_trf、zh_core_web_lg、zh_core_web_md 和 zh_core_web_sm区别

Spacy小笔记

最近频繁用到spacy,就小记一下。
2024.11.29

zh_core_web_trf、zh_core_web_lg、zh_core_web_md 和 zh_core_web_sm区别

首先,它们都是预训练的中文模型:

  • zh_core_web_trf:395M
    架构: 基于 Transformer 架构(bert-base-chinese)。
    大小: 较大,通常在几十到几百 MB 之间。
    性能: 最高,尤其在复杂的自然语言处理任务上表现优秀,如命名实体识别、依存关系解析等。
    资源需求: 需要较多的计算资源和时间来加载和运行。
    适用场景: 需要最高准确性的复杂任务,如情感分析、机器翻译等。
  • zh_core_web_lg:575M
    架构: 基于传统的统计方法。
    大小: 较大,通常在几十 MB 到 100 MB 之间。
    性能: 较好,适用于大多数常见的自然语言处理任务。
    资源需求: 需要的计算资源比 trf 模型少,但比 md 模型多。
    适用场景: 一般用途的任务,如文本分类、实体识别等。
  • zh_core_web_md:74M
    架构: 基于传统的统计方法。
    大小: 中等,通常在几十 MB 之间。
    性能: 适中,适用于大多数常见的自然语言处理任务。
    资源需求: 需要的计算资源较少,适合资源受限的环境。
    适用场景: 一般用途的任务,如文本分类、实体识别等。
  • zh_core_web_sm:46M
    架构: 基于传统的统计方法。
    大小: 较小,通常在几 MB 到十几 MB 之间。
    性能: 较低,但在某些简单任务上仍然有效。
    资源需求: 需要的计算资源最少,适合资源非常有限的环境。
    适用场景: 简单的任务,如基本的分词、词性标注等。

下载地址:https://github.com/explosion/spacy-models/

上面这些库下载后都通过pip安装,注意要和对应版本的spacy匹配!

实际使用过程中,发现md、lg、trf三者的区别并不大,也许md是性价比最高的选择?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/62482.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

芯片测试-RF中的S参数,return loss, VSWR,反射系数,插入损耗,隔离度等

RF中的S参数,return loss, VSWR,反射系数,插入损耗,隔离度 💢S参数💢💢S11与return loss,VSWR,反射系数💢💢S21,插入损耗和增益&#…

Rust个人认为将抢占C和C++市场,逐渐成为主流的开发语言

本人使用C开发8年、C#开发15年、中间使用JAVA开发过项目、后期在学习过程中发现了Rust语言说它是最安全的语言,能够解决C、C的痛点、于是抽出一部分时间网上买书,看网上资料进行学习,这一学习起来发现和其它语言比较起来,在编码的…

解析类的泛型参数 Spring之GenericTypeResolver.resolveTypeArgument

GenericTypeResolver 是 Spring 的一个实用类,提供了在运行时解析泛型类型信息的能力。它包含了若干静态方法,可以用于解析类的泛型参数。GenericTypeResolver.resolveTypeArgument 方法可以用于解析一个具体类实现指定的泛型接口时,实际的泛…

tensorflow.python.framework.errors_impl.FailedPreconditionError

以下是我的报错 Traceback (most recent call last):File "e:\tool\anaconda\envs\openmmlab\lib\runpy.py", line 194, in _run_module_as_mainreturn _run_code(code, main_globals, None,File "e:\tool\anaconda\envs\openmmlab\lib\runpy.py", line 8…

一个开源轻量级的服务器资源监控平台,支持告警推送

大家好,今天给大家分享一款开源的轻量级服务器资源监控工具Beszel,提供历史数据记录、Docker容器统计信息监控以及多种警报功能,用于监控服务器资源。 项目介绍 Beszel由hub(中心服务器端应用,基于PocketBase构建&…

linux centos nginx编译安装

编译安装nginx(Centos) 编译需要的基础环境yum -y install pcre-devel openssl openssl-devel gd-devel gcc gcc-c1.下载nginx源码包 Nginx源码包下载地址:nginx源码包下载 2. 上传nginx源码包到服务器 我上传的地址是/home/chenhao/nginx…

性能监控框架的底层原理

性能监控框架的原理可以分为数据采集、数据传输、数据分析与展示三个主要步骤。本质上,这些框架通过与应用程序运行的底层系统(如CPU、内存、线程、网络等)以及语言级机制(如字节码、虚拟机、操作系统接口等)交互&…

【面试重难点问题】c++中为什么可以函数重载,但是c语言中不可以

本文章是对于“c中为什么可以函数重载,但是c语言中不可以”这个问题的探究: 当然这是一个值得深入探讨的问题。在面对难题时,我们常常会竭尽全力寻找答案,不惜挖掘三尺以探究竟。面对上面这个问题时,理解计算机系统的…

Linux,如何将文件从一台服务器传到另一台服务器上

摘要 将文件从一台服务器上传到另一台服务器上用到了scp命令。 scp(Secure Copy Protocol)命令用于在本地和远程主机之间或两个远程主机之间安全地复制文件或目录。它基于SSH协议,因此文件传输过程中会进行加密。以下是scp命令的详细解释及…

日常应用开发遇到的小问题二三则

文章目录 前言Redis问题启用碎片自动回收失败启动Redis未脱离终端 Vercel问题未在Vecel团队的人提交无法触发自动部署更新package.json后部署Vercel时报错 Android问题主动请求通知权限网络状态变化的监听不能使用静态注册各种Service介绍和对比 总结 前言 这两天的工作又相对…

AI实践项目——图片视频自动上色系统,让旧照片焕然一新

1.主要内容 (1)项目概述 在图片处理的世界中,AI不仅用于识别和分析,还可以赋予灰度照片色彩,为其注入新的生命。今天,我们将探讨一种通过深度学习模型为灰度图片上色的技术。 ①参考文献 Colorful Image…

评分规则的建模,用户全选就是满分10分(分数可自定义), 选2个5分, 选2个以下0分

子夜(603***854) 15:11:40 和各位讨论一下设计问题: 有个有业务场景: 有一组产品共4个产品(数目用户可自定义), 需要一套规则,比如如果用户全选就是满分10分(分数可自定义), 选2个5分, 选2个以下0分 又比如另一组产品 产品有个必选属性,如果选了其中所有的必选则5分, 其他项每1…

uniapp连接mqtt频繁断开原因和解决方法

mqtt参考文档:MQTT.js 入门教程 | EMQ、MQTT.js 入门教程 - EMQX - 博客园 uniapp引用MQTT频繁断开的问题可能由于以下几个原因导致: 网络不稳定:频繁断开可能是由于网络不稳定导致的,可以尝试优化网络连接。 心跳机制问题&…

计算机网络:数据链路层(二)

网课资源: 湖科大教书匠 1、网络适配器和MAC地址 习题1 1 以下哪个地址是广播MAC地址 A. 00-00-00-00-00-00 B. AB-CD-EF-11-22-33 C. FF-FF-FF-FF-FF-FF D. 29-29-29-29-29-29 2 以下哪个地址是多播MAC地址 A. 00-00-00-00-00-00 B. A9-8B-7C-6D-5E-4F C. FF-FF-…

机载视频流回传+编解码方案

无线网络,低带宽场景。不能直接转发ROS raw image(10MB/s),而要压缩(编码)后再传输。可以用rtsp的udp传输或者直接传输话题,压缩方法有theora(ROS image_transport默认支持&#xff…

# issue 6 网络编程基础

一、网络的物理结构和光纤千兆网络 首先,我们需要知道网络的物理结构——数据是如何从一台机器传输到另外一台机器的 这个过程是非常重要的。现在很多人做软件开发,只会软件角度,这导致讲软件原理头头是道,但是连数据线都不会接&a…

vscode添加环境变量(mujoco)

文章目录 前言一、创建.env文件二、编写setting.jason 前言 之前一直用pycharm,最近改用cursor了,在pycharm中设置环境变量修改运行配置就行了,vscode要麻烦一些,记录一下。 一、创建.env文件 以mujoco环境变量为例,…

【MySQL】关于查询和KILL进程的权限

在 MySQL 中,如果你希望某个用户能够查询数据库的当前进程(查询正在运行的查询和线程)以及终止(KILL)特定进程,你需要为该用户授予以下权限: 查询进程的权限:用户需要 PROCESS 权限&…

彻底理解quadtree四叉树、Octree八叉树 —— 点云的空间划分的标准做法

1.参考文章: (1)https://www.zhihu.com/question/25111128 这里面的第一个回答,有一幅图: 只要理解的四叉树的构建,对于八叉树的构建原理类比方法完全一样:对于二维平面内的随机分布的这些点&…

uniapp在小程序连接webScoket实现余额支付

webScoket文档:uni.connectSocket(OBJECT) | uni-app官网 /plugins/event.js const Dep function() {this.Evens Object.create(null); } class Event {constructor({dep new Dep()} {}) {if (dep.constructor Object && Object.keys(dep).length 0…