NLP专业术语及工具【hanlp、jiolp】

NLP专业术语

缩写术语中文描述
tokTokenization分词将文本切分成独立的语义单位,通常是单词或标点符号等。
posPart-of-Speech Tagging词性标注每个单词标注语法类别,例如名词、动词、形容词等。
nerNamed Entiy Recognition命名实体识别识别文本中的专有名词,如人名、地名、机构名等。
depDependency Parsing依存句法分析分析单词之间的语法依赖关系,确定它们在句子中的功能和关系。
conConsituency Parsing成分句法分析分析句子在语法上的递归构成,通常表示为树形结构。
srlSemantic Role Labeling语义角色标注分析句子的谓词论元结构,即识别谓词和其对应的论元(如施事者、受事者等)。
sdpSemantic Dependency Parsing语义依存分析分析句子中单词之间的语义关系,通常表示为有向无环图。
amrAbstract Meaning Representation抽象意义表示将句子的意义表示为以概念为节点的单源有向无环图,用于跨语言的语义表示。
lemLemmatization词形还原将单词转换为其基本形式或词根形式的过程。
例如,将动词的过去式、现在分词和过去分词等形式还原为基本动词形式。这有助于减少单词的不同形式带来的复杂性,使得文本处理更加一致和高效。
feaFeature特征通常指单词或短语的属性或属性集合
- 形态学特征:如词性(名词、动词、形容词等)、时态(过去时、现在时、将来时)、格(主格、宾格等)、数(单数、复数)等。
- 语义特征:如词义、词义关系(同义、反义、上下义等)。
- 句法特征:如依存关系、句法角色(主语、宾语、定语等)。
- 文本特征:如词频、TF-IDF(词频-逆文档频率)等,这些特征常用于文本分类、文本聚类等任务。
stsSemantic Textual Similarity语义文本相似性从语义上比较2段文本的相似性
word2vecWord2Vec是一系列模型架构和优化,可用于从大型未标记数据集中学习词嵌入。在本文中,它被狭义地定义为将离散词映射到密集向量的分布式表示的组件。
word2vec.most_similar(‘上海’) – 广州、北京、上海
word2vec.most_similar(‘非常寒冷’, doc2vec=True)–阴冷
gloveGlobal Vectors for Word Representation一种用于生成词嵌入(word embeddings)的无监督学习算法。GloVe模型由斯坦福大学和Google的研究人员在2014年提出。它旨在捕捉单词之间的语义关系,并将这些关系表示为向量空间中的点。
FastText由Facebook AI Research团队在2016年提出的一个词嵌入算法,它旨在提高文本分类和词向量学习的速度和效率

hanlp

hanlp 2.x功能

功能RESTful多任务单任务模型标注标准
分词教程教程教程tok粗分、细分
词性标注教程教程教程posCTB、PKU、863
命名实体识别教程教程教程nerPKU、MSRA、OntoNotes
依存句法分析教程教程教程depSD、UD、PMT
成分句法分析教程教程教程conChinese Tree Bank
语义依存分析教程教程教程sdpCSDP
语义角色标注教程教程教程srlChinese Proposition Bank
抽象意义表示教程暂无教程amrCAMR
指代消解教程暂无暂无暂无OntoNotes
语义文本相似度教程暂无教程sts暂无
文本风格转换教程暂无暂无暂无暂无
关键词短语提取教程暂无暂无暂无暂无
抽取式自动摘要教程暂无暂无暂无暂无
生成式自动摘要教程暂无暂无暂无暂无
文本语法纠错教程暂无暂无暂无暂无
文本分类教程暂无暂无暂无暂无
情感分析教程暂无暂无暂无[-1,+1]
语种检测教程暂无教程暂无ISO 639-1编码

hanlp 1.x功能

  • 中文分词
    • HMM-Bigram(速度与精度最佳平衡;一百兆内存)
      • 最短路分词、N-最短路分词
    • 由字构词(侧重精度,全世界最大语料库,可识别新词;适合NLP任务)
      • 感知机分词、CRF分词
    • 词典分词(侧重速度,每秒数千万字符;省内存)
      • 极速词典分词
    • 所有分词器都支持:
      • 索引全切分模式
      • 用户自定义词典
      • 兼容繁体中文
      • 训练用户自己的领域模型
  • 词性标注
    • HMM词性标注(速度快)
    • 感知机词性标注、CRF词性标注(精度高)
  • 命名实体识别
    • 基于HMM角色标注的命名实体识别 (速度快)
      • 中国人名识别、音译人名识别、日本人名识别、地名识别、实体机构名识别
    • 基于线性模型的命名实体识别(精度高)
      • 感知机命名实体识别、CRF命名实体识别
  • 关键词提取
    • TextRank关键词提取
  • 自动摘要
    • TextRank自动摘要
  • 短语提取
    • 基于互信息和左右信息熵的短语提取
  • 拼音转换
    • 多音字、声母、韵母、声调
  • 简繁转换
    • 简繁分歧词(简体、繁体、臺灣正體、香港繁體)
  • 文本推荐
    • 语义推荐、拼音推荐、字词推荐
  • 依存句法分析
    • 基于神经网络的高性能依存句法分析器
    • 基于ArcEager转移系统的柱搜索依存句法分析器
  • 文本分类
    • 情感分析
  • 文本聚类
    • KMeans、Repeated Bisection、自动推断聚类数目k
  • word2vec
    • 词向量训练、加载、词语相似度计算、语义运算、查询、KMeans聚类
    • 文档语义相似度计算
  • 语料库工具
    • 部分默认模型训练自小型语料库,鼓励用户自行训练。所有模块提供训练接口,语料可参考98年人民日报语料库。

JioNLP

JioNLP 是一个面向 NLP 开发者的工具包,提供 NLP 任务预处理、解析功能,准确、高效、零使用门槛。

功能函数描述星级
查找帮助help若不知道 JioNLP 有哪些功能,可根据命令行提示键入若干关键词做搜索
车牌号解析parse_motor_vehicle_licence_plate给定一个车牌号,对其进行解析
时间语义解析parse_time给定时间文本,解析其时间语义(时间戳、时长)等
关键短语抽取extract_keyphrase给定一篇文本,抽取其对应关键短语
抽取式文本摘要extract_summary给定一篇文本,抽取其对应文摘
停用词过滤remove_stopwords给定一个文本被分词后的词 list,去除其中的停用词
分句split_sentence对文本按标点分句
地址解析parse_location给定一个包含国内地址字符串,识别其中的省、市、县区、乡镇街道、村社等信息
电话号码归属地
运营商解析
phone_location
cell_phone_location
landline_phone_location
给定一个电话号码(手机号、座机号)字符串,识别其中的省、市、运营商
新闻地名识别recognize_location给定新闻文本,识别其中的国内省、市、县,国外国家、城市等信息
公历农历日期互转lunar2solar
solar2lunar
给定某公(农)历日期,将其转换为农(公)历
身份证号解析parse_id_card给定一个身份证号,识别对应的省、市、县、出生年月、
性别、校验码等信息
成语接龙idiom_solitaire成语接龙,即前一成语的尾字和后一成语的首字(读音)相同
色情数据过滤--
反动数据过滤--
体转tra2sim繁体转简体,支持逐字转最大匹配两种模式
体转sim2tra简体转繁体,支持逐字转最大匹配两种模式
汉字转拼音pinyin找出中文文本对应的汉语拼音,并可返回声母韵母声调
汉字转偏旁与字形char_radical找出中文文本对应的汉字字形结构信息,
包括偏旁部首(“河”氵)、字形结构(“河”左右结构)、
四角编码(“河”31120)、汉字拆解(“河”水可)、
五笔编码(“河”ISKG)
金额数字转汉字money_num2char给定一条数字金额,返回其汉字大写结果
新词发现new_word_discovery给定一语料文本文件,统计其中高可能成词

参考

hanlp预训练模型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/48735.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前端八股文 $set

为什么会有$set vue2中对数组中新增的属性是监听不到的 如图 vue 插件中有但是 视图中没有刷新 解决方法 解决就是 $set() 就是在数组中新增属性的时候可以重新渲染视图 具体的写法 写法 就是 第一个 是在那个对象上新增 第二个参数 是新增的属性 第三个参数是 新增的属性…

R语言画散点图-饼图-折线图-柱状图-箱线图-等高线图-曲线图-热力图-雷达图-韦恩图(三D)

R语言画散点图-饼图-折线图-柱状图-箱线图-等高线图-曲线图-热力图-雷达图-韦恩图(三D) 散点图使用 plotly 包示例解析效果 使用 scatterplot3d 包示例解析效果 饼图使用 plotly 包示例解析效果 使用 plotrix 包示例解析效果 折线图使用 plotly 包示例解…

在STM32嵌入式中C/C++语言对栈空间的使用

像STM32这样的微控制器在进入main函数之前需要对栈进行初始化。可以说栈是C语言运行时的必要条件。我们知道栈实际上是一块内存空间,那么这块空间都用来存储什么呢?有什么办法能够优化栈空间的使用? 栈空间保存的内容 栈是一个先入后出的数据…

mac无法清空废纸篓怎么办 mac废纸篓清空了如何找回 cleanmymac误删文件怎么恢复

废纸篓相当于“一颗后悔药”,用于临时存储用户删除的文件。我们从从Mac上删除的文件,一般会进入废纸篓中。如果我们后悔了,可以从废纸篓中找回来。然而,有时我们会发现mac无法清空废纸篓,这是怎么回事?本文将探讨一些…

【数据结构初阶】顺序表

hi,我们又见面啦!happy~~~ 目录 前言: 一、线性表 二、顺序表 1、概念 2、与数组的区别 3、分类 4、动态顺序表的实现 SeqList.h 见下 SeqList.c 见下 test.c 见下 【注意】 ————————————— 致回不去的童年 ———…

前端调试技巧:动态高亮渲染区域

效果: 前端界面的渲染过程、次数,会通过高亮变化来显示,通过这种效果排除一些BUG 高亮 打开方式 F12进入后点击ESC,进入rendering,选择前三个即可(如果没有rendering,点击橘色部分勾选上&…

swiftui使用ScrollView实现左右滑动和上下滑动的效果,仿小红书页面

实现的效果如果所示,顶部的关注用户列表可以左右滑动,中间的内容区域是可以上下滚动的效果,点击顶部的toolbar也可以切换关注/发现/附近不同页面,实现翻页效果。 首页布局 这里使用了NavigationStack组件和tabViewStyle样式配置…

zerotier安装后设备在线,两个设备无法ping通

来源 组 NAS, 软路由,内网穿透,远程访问,安装了 zerotier,无法ping通 方法 修改windows防火墙,Configure the Windows firewall to allow pings。 Search for and open Windows Firewall.Select Advance…

Node.js快速入门

Node.js 1、Node.js介绍与安装 官网:https://nodejs.cn/ 介绍:简单的说 Node.js 就是运行在服务端的 JavaScript。 Node.js 是一个基于 Chrome JavaScript 运行时建立的一个平台。 Node.js 是一个事件驱动 I/O 服务端 JavaScript 环境,基…

Python | Leetcode Python题解之第274题H指数

题目&#xff1a; 题解&#xff1a; class Solution:def hIndex(self, citations: List[int]) -> int:left,right 0,len(citations)while left<right:# 1 防止死循环mid (leftright1)>>1cnt 0for v in citations:if v>mid:cnt1if cnt>mid:# 要找的答案在…

php并发提高20倍

opcache扩展 负责 opcode 缓存&#xff0c;专注于提高 PHP 代码的执行效率 apcu扩展 用于应用级数据缓存&#xff0c;专注于减少 I/O 操作和计算密集型任务的重复执行 大杀器swoole扩展 在实际应用中&#xff0c;Swoole 能够将 PHP 服务器的并发处理能力提升数十倍到数百倍…

哈希 -- 简单实现

在STL库中&#xff0c;有map和set两个关联式容器&#xff0c;这两个容器的底层都是以红黑树为底层。但是在后续的发展过程中&#xff0c;我们发现有些场景的数据不适合用红黑树进行存储&#xff0c;所以有人就发明了底层为哈希表的map和set,称为unordered_map 和 unordered_set…

C语言中的控制语句(一):if语句

文章目录 &#x1f34a;自我介绍&#x1f34a;if 的单分支语句&#x1f34a;a.if 单分支判断&#x1f34a;b.if单分支选择判断 &#x1f34a;if多分支语句&#x1f34a;if多分支选择判断 你的点赞评论就是对博主最大的鼓励 当然喜欢的小伙伴可以&#xff1a;点赞关注评论收藏&a…

web前端 React 框架面试200题(七)

面试题 185. 如果想要在组件第一次加载后获取该组件的dom元素&#xff0c;应当在以下哪个生命周期中进行 &#xff1f; A&#xff1a;componentDidUpdate() B&#xff1a;componentDidMount() C&#xff1a;componentWillUnmount() D&#xff1a;shouldComponentUpdate()答案&…

HarmonyOS应用开发者高级认证,Next版本发布后最新题库 - 多选题序号2

基础认证题库请移步&#xff1a;HarmonyOS应用开发者基础认证题库 注&#xff1a;有读者反馈&#xff0c;题库的代码块比较多&#xff0c;打开文章时会卡死。所以笔者将题库拆分&#xff0c;单选题20个为一组&#xff0c;多选题10个为一组&#xff0c;题库目录如下&#xff0c;…

MMCV 核心组件分析(一):整体概述

概述 MMCV 是计算机视觉研究的基础库&#xff0c;并提供以下功能。

(11)Python引领金融前沿:投资组合优化实战案例

1. 前言 本篇文章为 Python 对金融的投资组合优化的示例。投资组合优化是从一组可用的投资组合中选择最佳投资组合的过程&#xff0c;目的是最大限度地提高回报和降低风险。 投资组合优化是从一组可用的投资组合中选择最佳投资组合的过程&#xff0c;目的是最大限度地提高回报…

订单管理系统需求规范

1. 引言 1.1 目的 本文档旨在明确描述订单管理系统的功能、非功能性需求以及约束条件&#xff0c;以指导系统的分析、设计、开发、测试和部署。 1.2 范围 本系统将支持在线订单处理&#xff0c;从客户下单到完成配送的全过程管理&#xff0c;包括库存管理、支付处理、订单跟…

TypeScript与面向对象编程

引言 TypeScript简介 TypeScript是JavaScript的一个超集&#xff0c;由微软开发&#xff0c;它在JavaScript的基础上添加了类型系统和对ES6的新特性的支持。TypeScript最终会被编译成纯JavaScript代码&#xff0c;以便在任何支持JavaScript的环境中运行。 面向对象编程&…

单例模式_Golang

目录 一、单例模式 1.1 基本概念 1.2 使用场景 二、Golang实现 2.1 懒汉模式&#xff08;Lazy Loading&#xff09; 一、单例模式 1.1 基本概念 一个类只能生成一个实例&#xff0c;且该类能自行创建这个实例的一种模式,这个定义个人感觉可以拆的通俗一些,在项目的生命周…