开源自然语言处理工具包hanlp中CRF分词实现详解


 CRF简介

CRF是序列标注场景中常用的模型,比HMM能利用更多的特征,比MEMM更能抵抗标记偏置的问题。

[gerative-discriminative.png] 

CRF训练

这类耗时的任务,还是交给了用C++实现的CRF++。关于CRF++输出的CRF模型,请参考《CRF++模型格式说明》。 

CRF解码

解码采用维特比算法实现。并且稍有改进,用中文伪码与白话描述如下:

首先任何字的标签不仅取决于它自己的参数,还取决于前一个字的标签。但是第一个字前面并没有字,何来标签?所以第一个字的处理稍有不同,假设第0个字的标签为X,遍历X计算第一个字的标签,取分数最大的那一个。

如何计算一个字的某个标签的分数呢?某个字根据CRF模型提供的模板生成了一系列特征函数,这些函数的输出值乘以该函数的权值最后求和得出了一个分数。该分数只是“点函数”的得分,还需加上“边函数”的得分。边函数在本分词模型中简化为f(s’,s),其中s’为前一个字的标签,s为当前字的标签。于是该边函数就可以用一个4*4的矩阵描述,相当于HMM中的转移概率。

实现了评分函数后,从第二字开始即可运用维特比后向解码,为所有字打上BEMS标签。 

实例

还是取经典的“商品和服务”为例,首先HanLP的CRFSegment分词器将其拆分为一张表:

 

 1088cd91b908bd246812442ce245e201dc94410b

null表示分词器还没有对该字标注。

代码

上面说了这么多,其实我的实现非常简练:

93ad379f5b89a281995ea97833a9b70ab698af0b 

9709491694b9b15cf705b5502f5dd89339919e40 

2034a6a2fff22c293e50617d42bfba8cacb39d32 


标注结果

标注后将table打印出来:

1889d10113a2ad6c50452b640ee79addd7a87f17 


最终处理

 

将BEMS该合并的合并,得到:

[商品/null, 和/null, 服务/null]

然后将词语送到词典中查询一下,没查到的暂时当作nx,并记下位置(因为这是个新词,为了表示它的特殊性,最后词性设为null),再次使用维特比标注词性:

[商品/n, 和/cc, 服务/vn]

新词识别

 

CRF对新词有很好的识别能力,比如:

CRFSegment segment = new CRFSegment();

segment.enablePartOfSpeechTagging(true);

System.out.println(segment.seg("你看过穆赫兰道吗"));

输出

 

CRF标注结果

你   S   

看   S   

过   S   

穆   B   

赫   M   

兰   M   

道   E   

吗   S   

[你/rr, 看/v, 过/uguo, 穆赫兰道/null, 吗/y]

 

null表示新词。

 


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/275742.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java 素数欧拉筛选_[C++]欧拉素数筛的理解与实现

在传统的素数筛法中,我们使用了对于每一个数n,在 1~(√n) 范围内进行取模检查,这样逐一判断的复杂度为n(√n)。但如果我们需要更快的筛法时怎么办?于是著名的欧拉筛诞生了。它能将复杂度降为**O(n)**级别。1.关键理解:…

交互规则_您必须永不中断的10条交互设计规则

交互规则重点 (Top highlight)In life, there are certain rules you must never break. If you do there will be hell to pay. In User Interface design there are also rules to live by. They are called “heuristics” or general principles that improve usability in…

一个帮助我100%拿offer的面试学习法

大家好,我是若川。今天周日,再分享一篇相对轻松的文章。文中说的面试学习法有一定的借鉴意义。另外我也推荐大家每隔一段时间不为跳槽的更新自己简历,也是对自己一阶段的梳理总结,毕竟功在平时。哈喽大家好,我是大圣&a…

2010年终总结

还有两天2010就要结束了,写下自己的年终总结吧,以总结自己,展望明年。2010对我来说是怎样的一年呢?忙碌的一年,鸭梨更大的一年,折腾的一年,复杂的一年,梦游的一年,痛并快…

java获取apk启动activity_兼容 Android 10 启动 APK 实现方案

背景我们想启动 APK 程序,有很多种方法,可以使用 Intent,也可以使用 adb shell 命令来启动,还有通过反射来启动 APk 程序。我们这里主要讨论通过反射的方式来启动 apk 程序。Android10 之前,我们通过反射来启动 APK&am…

Android Studio中解决jar包重复依赖导致的代码编译错误

在原本的代码中已经使用了OKHTTP和rxjava,然后今天依赖retrofit的时候一直报错 Program type already present: okhttp3.internal.ws.RealWebSocket$1.class 说是我重复添加了OKHTTP的包,但其实我直接把OKHTTP的依赖注释掉都没用,只要依赖ret…

面试被问项目经验不用慌,按这个步骤回答绝对惊艳

大家好,我是若川。常有小伙伴问,面试时项目经验怎么回答,经常会分享这篇文章给TA。本文经授权转载。面试、学习源码系列、年度总结、JS基础系列前言本篇文章的作者是来自阿里淘系用户增长前端团队的“亦逊”,18年作为双非本科生通…

使用概念模型 和心智模型的_为什么要使用模型?

使用概念模型 和心智模型的In a former life, I studied critical feminist theory. This included the field of Semiotics — the study of signs and the production of meaning, as well as Deconstruction —the unpacking of meaning to question assumptions.在过去的生…

长效密钥与临时密钥JAVA判断_MSBuild无法使用临时密钥签署ClickOnce清单(错误MSB3326和MSB3321)...

我正在尝试在Windows Server计算机上构建ClickOnce Windows Forms项目(.NET 3.5 / Visual Studio 2010) . (为了使用Hudson CI自动化构建过程 . )为了对ClickOnce清单进行签名,我在Visual Studio中创建了一个临时密钥 temp.pfx . 我可以在我的工作站上从Visual Stud…

URL some

** 路由系统:URL配置(URLconf)就像Django所支撑网站的目录. 本质是URL与该URL要调用的函数的映射表 基本格式 : from django.conf.urls import url urlpatterns [url(正则表达式,views视图,参数,别名) ] 参数 -- 传给函数视图的默认参数 (字典形式) 别名 -- 一个可选的name参…

什么?在 VSCode 里也能用 Postman了?

大家好,我是若川。VSCode中有很多好用的插件,今天推荐 Postcode。面试、学习源码系列、年度总结、JS基础系列以前一直在用postman做API测试,如果你同时在使用vscode开发时,每次切出去可能比较烦,其实就是太懒了。。。作…

根据窗口名称查找关键字弹性域用到的表,列等信息

/*根据窗口名称查找关键字弹性域用到的表,列等信息*/--selectc.id_flex_name, a.id_flex_structure_name, b.form_left_prompt, c.application_table_name, b.application_column_name, b.flex_value_set_id fromfnd_id_flex_struct…

英语 动画 教学 字母_字母形式在阅读教学中的作用

英语 动画 教学 字母Note: this essay may also be found on Design Observer.注意:这篇文章也可以在 Design Observer 上找到 。 My first-grade reading tutor gave the best stickers. Puffy, smelly, sparkly — she even had a few that were fuzzy. At that …

java中自定义表单和流程_让驰骋工作流程引擎 ccbpm使用自定义表单来实现自己的业务逻辑....

1.1.1.1: SDK表单概要说明:我们把流程引擎与表单引擎统称为ccbpm,但是有一些用户并不想使用表单引擎,而是用自己的表单,仅仅使用流程引擎,这样的方式就要采用ccbpm的sdk表单开发模式。关于ccbpm的SDK:ccbpm的sdk就是cc…

乘风破浪的前端小姐姐,是如何一步步走向成功的?

大家好,我是若川。名校毕业的被删大佬也经历了社会的毒打,但她没有放弃。面试、学习源码系列、年度总结、JS基础系列王贝珊,腾讯高级工程师,腾讯 AlloyTeam 成员,现腾讯文档网络层技术负责人。毕业于中山大学。工作 6 …

【译】为什么我更喜欢对象而不是switch语句

原文自工程师Enmanuel Durn博客,传送门 最近(或者不是最近,这完全取决于您什么时候阅读这边文章),我正在跟我的团队伙伴讨论如何去处理这种需要根据不同的值去处理不同的情况的方法,通常对于这种情况下&…

摩托罗拉周二将正式分拆为两经营实体

据华尔街中文网消息称,摩托罗拉公司周二将正式分拆为两个经营实体——摩托罗拉移动控股(MMI)和摩托罗拉解决方案公司(MSI)。前者由主要面向消费者的智能手机和机机顶盒业务组成,后者则专注于公共安全无线电和手持扫描仪业务。 上述两家公司的股票均已于…

如何创建和谐的色彩系统

拥有和谐的色彩系统的好处 (The benefits of having a harmonious color system) Consistent branding express across all platform 在所有平台上表达一致的品牌 The consistent interface creates a better user experience 一致的界面创建了更好的用户体验 More productive …

java restful接口测试_详解SpringBoot restful api的单元测试

现在我们来利用Spring Boot来构建一个RestFul API,具体如下:1.添加Springboot测试注解RunWith(SpringRunner.class)SpringBootTestpublic class UserControllerTest {}2.伪造mvc环境// 注入Spring 工厂Autowiredprivate WebApplicationContext wac;//伪造…

老姚浅谈:怎么学JavaScript?

大家好,我是若川。当初我就是看本文深受启发,开始看书读源码。所以现在联系了作者老姚 授权转载分享给大家。我按照文中的做法敲完了《JavaScript语言精粹 修订版》,在2017年7月23日写出了我的第一篇文章《读书笔记》。看完了《JavaScript面向…