python爬取电子病历_一种基于中文电子病历的实体识别方法技术

本发明专利技术提供了一种基于中文电子病历的实体识别方法,涉及医疗实体识别技术领域。针对目前国内缺少公开中文电子病历标注语料库的缺陷,本发明专利技术通过构建整理医学词典,提出了一种半自动语料库标注方法,节省了人工标注的复杂度。其次目前基于特征的电子病历实体识别方法大部分都是针对普通文本或者一般的电子病历文本,没有考虑到中文电子病历的特有特征。本发明专利技术提取的特征除了一般文本具有的基本特征外,还提取了中文电子病历特有的章节信息特征,通过对收集到的词典进行单字和词切分后统计字频和词频得到核心词特征加入扩展特征中,并且通过对词向量进行聚类把词与词之间的联系也加入了扩展特征,有效的提高了中文电子病历的实体识别准确率。

【技术实现步骤摘要】

一种基于中文电子病历的实体识别方法

本专利技术涉及自然语言处理领域,尤其涉及电子病历的命名实体识别。

技术介绍

最早的电子病历信息抽取通常采用词典与规则相结合的方法。而随着电子病历标注语料的构建,基于机器方法的电子病历信息抽取研究逐渐开展起来。美国国家集成生物与临床信息学研究中心I2B2在2010年引入了英文电子病历的信息抽取任务,该评测包含3个子任务,分别是医疗问题、检查、治疗等实体的识别、实体修饰识别以及实体关系抽取,并提供了349份人工标注的电子病历和827份未标注电子病历。为英文电子病历命名实体识别及关系识别打下了坚实的基础。对于电子病历命名实体研究,DingchengLi等人分别采用了条件随机域(CRF)和支持向量机(SVM)两种方法,并结合SNOMED-CT词典进行电子病历命名实体识别,其中CRF模型达到了较好的效果。MinJiang等人引入一体化医学语言系统(UMLS)及三个自然语言处理系统(MedLEE,DST,KnowledgeMap)的结果作为特征,系统的评估了采用不同特征及机器学习算法的识别效果,并提出了一个集成规则与机器学习算法的实体抽取系统。SiddharthaJonnalagadd等人则是在基本特征的基础上,增加分布式语义特征,采用CRF模型对电子病历中的医疗问题、检查、治疗进行识别。中文电子病历命名实体研究仍处于起步阶段,叶枫等人基于CRF算法,对中文电子病历中的疾病、临床症状、手术操作3类命名实体进行智能识别,构建了覆盖25个疾病大类的250份病历。该研究是对中文电子病历命名实体识别研究的首次尝试,但该研究对实体类型定义不能够覆盖所有的医疗实体,语料规模也较小。LeiJianbo等人共选取了包含病程记录和出院小结在内的800份病历文本,以此构建了命名实体标注语料,他们共定义了四种医疗实体:医疗问题、检查、药物、手术,对比了CRF、SVM、ME、SSVM四种算法的效果,其中SSVM模型的表现最好,病程记录训练出的模型的F值可以达到93.53%,而出院小结的F值则为90.01%。XuYan等人构建了包含336份出院小结在内的标注语料,主要针对医疗问题、检查、治疗和药物四类实体,并提出了基于对分解的分词及命名实体识别联合模型。

技术实现思路

现有研究主要针对英文电子病历,在中文电子病历实体识别中,由于缺少公开中文电子病历标注语料库以及词典资源,使得其研究缓慢,同时一般的基于特征的实体识别方法都是对词进行直接分析,而没有深入分析到词向量,也忽略了实体间的一定相似度可以用聚类方法求得这一特点。电子病历实体识别是智能医疗推进的一项重要任务,将临床信息中的医疗信息提出来有助于医疗知识图谱的构建以及医疗自动问答的推进。目前的电子病历实体识别主要是针对英文电子病历的,中文研究由于缺少公开中文电子病历标注语料库以及词典资源,一般基于特征的方法中没有充分考虑到中文电子病历的特有特点。针对这些问题,本专利技术在进行一定规模的中文电子病历语料库标注后,给出了一种结合词向量和聚类从多方面进行特征扩展的中文电子病历实体识别方法。为了实现上述目的,本专利技术给出的技术方案为:本专利技术提供一种基于中文电子病历的实体识别方法,所述方法包括:半自动中文电子病历语料库标注;对使用jieba和nlpir两个分词器对中文电子病历进行分词,词、词性以及上下文信息构成实体识别的基本特征;提取电子病历的章节名字为章节信息特征;构建核心词词典,提取分词之后每个词的核心词特征;利用Word2Vector计算每个词的词向量,用k-means进行聚类,将每个词的聚类结果表示为词聚类特征;章节特征、核心词特征和词聚类特征组成了实体识别的扩展特征;将上述基本特征和扩展特征组成的特征向量输入已训练好的条件随机场分类器,抽取中文电子病历的实体。以上本专利技术给出一种针对中文电子病历的基于特征工程的综合性的实体识别方法,利用条件随机场CRF进行识别,将特征分为了基本特征和扩展特征,其中扩展特征针对中文电子病历的特有特点展开,包括电子病历文本差别于其它文本的特点和中文电子病历差别于英文电子病历的特点,同时通过词向量进行聚类,将聚类结果作为一个新特征加入很好的考虑了同一实体间的相似性特点。可选的,本专利技术给出了针对中文电子病历的标注,并收集了医学词典利用反向最大匹配算法(现有技术)进行自动标注,然后邀请医院的两名全科医生进行人工核对、查漏补缺,最后得到一定规模的中文电子病历标注语料库。特征选择特征选取对于机器学习方法及其重要,本专利技术所选用的特征分为两大类:基本特征和扩展特征。其中扩展特征针对中文电子病历的特点从两方面进行选择:电子病历文本区别于一般文本的特征和中文电子病历文本区别于英文电子病历文本的特性。1.语言符号特征:在这里表示词特征。由于中文不能像英文用空格进行分词,因此还需要选择分词器。本专利技术选用了jieba中文分词和哈工大的nlpir分词器两个分词工具,因为它们不是专门面向医学领域,将本文收集的医学词典加入了其用户字典。2.词性特征:即分词后的词性。词性特征在中文中对于识别实体的边界有很大作用,如在电子病历中“得”、“患”等动词指出了疾病实体的边界,“服用”等动词指出了治疗实体的边界等。本专利技术研究的词性标注工作将由分词工具jieba和nlpir完成。3.章节信息特征:电子病历章节标题名称。这是电子病历区别于其它文本的一个特征,也体现了电子病历的半结构化文本特点。在电子病历中不同章节对应的实体是有一定规律的。在病程记录中,“病例特点”章节中涵盖了疾病、症状、检查和治疗四个实体,而“初步诊断”章节中只存在疾病实体,“诊疗计划”章节中只存在治疗实体;在出院小结中,“入院诊断”和“出院诊断”章节只存在疾病实体,“入院情况”和“出院情况”主要有疾病、症状、检查实体等。因此,电子病历的章节标题对于实体类别的识别具有较大帮助。4.核心词特征:对标注的中文电子病历的实体以及收集到的医学词典进行统计分析可以分析出中文电子病历中出现的实体具有一定的特点。疾病名通常由修饰部分、身体部位、基本疾病名组成;症状名通常由身体部位、修饰部分、核心词组成;检查名通常由“细胞”、“查”、“病理”、“常规”等核心词组成;治疗名中手术名通常由“化疗”、“术”、“处理”、“护理”等核心词组成,药物名通常由“胶囊”、“丸”、“颗粒”、“片”等核心词组成。本专利技术以此构建了四个核心词词典用于指示核心词特征。5.词向量的聚类特征:一般命名实体识别通常将词本身作为最基本的特征用于模型的构建,而词本身并不能反映词与词之间的关系,因此可以将词表示作为特征加入模型。引入词表示方法主要有两种,一种是直接将词向量作为特征加入,另一种是通过词向量建立词与词之间的联系。词与词之间的联系可以通过聚类得到,每个词对象对应一个类别。本专利技术研究采用开源工具Word2Vector计算词向量,并通过k-means算法进行聚类。有益效果针对中文电子病历实体识别方法缺少公开标注语料库、一般基于特征的方法没有充分考虑到中文电子病历文本的特有特征等问题,实现了结合词向量和聚类并且从多方面进行特征扩展的中文电子病历实体识别方法,有助于深入挖掘电子病历文本中的医疗信息,从而构建医疗知识库、医疗知识图谱以及推进医疗自动问答。附图本文档来自技高网...

【技术保护点】

1.一种基于中文电子病历的实体识别方法,其特征在于,所述方法包括:步骤1、利用收集到的医学词典使用半自动标注方法对中文电子病历进行标注;步骤2、利用分词器Jieba中文分词和中科院的NLPIR进行分词,其词、词性和上下文信息构成实体识别的基本特征;步骤3、将无格式电子病历文本文件转化为xml格式文件,提取章节名信息;步骤4、统计分析整理疾病、症状、检查和治疗的核心词词库,提取每个词的核心词特征;步骤5、用开源工具Word2Vector计算每个词的词向量,根据词向量用k‑means算法进行聚类,获取词聚类特征,与步骤3获得的章节信息特征、步骤4获得的核心词特征构成实体识别的扩展特征;步骤6、将上述步骤2获得的基本特征和步骤5获得的扩展特征构成的特征向量输入已训练好的条件随机场分类器,抽取测试的电子病历中的实体。

【技术特征摘要】

1.一种基于中文电子病历的实体识别方法,其特征在于,所述方法包括:步骤1、利用收集到的医学词典使用半自动标注方法对中文电子病历进行标注;步骤2、利用分词器Jieba中文分词和中科院的NLPIR进行分词,其词、词性和上下文信息构成实体识别的基本特征;步骤3、将无格式电子病历文本文件转化为xml格式文件,提取章节名信息;步骤4、统计分析整理疾病、症状、检查和治疗的核心词词库,提取每个词的核心词特征;步骤5、用开源工具Word2Vector计算每个词的词向量,根据词向量用k-means算法进行聚类,获取词聚类特征,与步骤3获得的章节信息特征、步骤4获得的核心词特征构成实体识别的扩展特征;步骤6、将上述步骤2获得的基本特征和步骤5获得的扩展特征构成的特征向量输入已训练好的条件随机场分类器,抽取测试的电子病历中的实体。2.根据权利要求1所述的方法,其特征在于,步骤1中利用半自动标注方法对中文电子病历进行标注,方法步骤具体包括:步骤1.1、收集医学词典,将其整理为疾病词库、症状词库、检查词库、治疗词库;步骤1.2、使用高精度的反向自动匹配算法对中文电子病历进行自动标注;步骤1.3、医院若干名(实施例两名)全科医生进行人工核对、查漏...

【专利技术属性】

技术研发人员:闫凤麒,张贝贝,陆明名,

申请(专利权)人:上海熙业信息科技有限公司,

类型:发明

国别省市:上海,31

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/507545.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

推荐系统--矩阵分解(4)

推荐系统–矩阵分解(1) 推荐系统–矩阵分解(2) 推荐系统–矩阵分解(3) 推荐系统–矩阵分解(4) 推荐系统–矩阵分解(5) 推荐系统–矩阵分解(6) 7 基于情感分析的矩阵分解 7.1 引入 【摘要】推荐系统旨在基于丰富的信息预测用户的偏好,例如用户评分、人口统计和评论…

yarn 卸载包_0609-6.1.0-如何卸载CDH6.1

1.文档编写目的Fayson在两年前的文章中介绍过CDH的卸载,参考《如何卸载CDH(附一键卸载github源码)》。除非你是使用Cloudera官方提供的一键安装脚本安装的CDH,否则并没有现成的一键卸载的脚本供使用。为了更好的理解CDH的卸载,这里再次简单介…

推荐系统--矩阵分解(3)

推荐系统–矩阵分解(1) 推荐系统–矩阵分解(2) 推荐系统–矩阵分解(3) 推荐系统–矩阵分解(4) 推荐系统–矩阵分解(5) 推荐系统–矩阵分解(6) 5 TimeSVD:增加时间因素 物品的受欢迎度随着时间而改变,例如,电影可以因外部事件(如新电影中演员…

python安装不了是什么问题_安装不上python的模块怎么办?别怕,我这有妙招!

之前我们介绍过如何在Python中安装第三方的包:Python以第三方包丰富而著称,你想要的功能几乎都可以通过pip命令安装,避免什么都要自己重新造轮子尬尴。但是pip安装有两个常见问题,第一是下载慢,第二是无法安装。慢的原…

推荐系统--矩阵分解(5)

推荐系统–矩阵分解(1) 推荐系统–矩阵分解(2) 推荐系统–矩阵分解(3) 推荐系统–矩阵分解(4) 推荐系统–矩阵分解(5) 推荐系统–矩阵分解(6) 8 基于隐式反馈的矩阵分解 8.1 引入 相对于显示反馈的评分数据,隐式反馈有以下几方面的特征: 只有正反馈&…

xss跨站脚本攻击_网络安全xss跨站脚本攻击原理

以下在未经授权的网站操作均为违法行为XSS跨站脚本攻击xss的危害网络钓鱼,盗取各类账号密码我们先来看一下下面的案例:先来记住一下下面中的表我们来做一个转发上面页面显示已经登录,但是突然页面中提醒再此登录此时,我们并没有多…

推荐系统--联邦学习下的矩阵分解(6)

推荐系统–矩阵分解(1) 推荐系统–矩阵分解(2) 推荐系统–矩阵分解(3) 推荐系统–矩阵分解(4) 推荐系统–矩阵分解(5) 推荐系统–矩阵分解(6) 9 应用于联邦学习的矩阵分解 这个部分主要参考以下两篇论文: 2008-Collaborative Filtering for Implicit Feedback Dat…

python类的特殊方法汇总_Python笔记001-类的特殊方法

Python笔记001-类的特殊方法以下是我学习《流畅的Python》后的个人笔记,现在拿出来和大家共享,希望能帮到各位Python学习者。首次发表于: 微信公众号:科技老丁哥,ID: TechDing,敬请关注。本篇主要知识点:类…

什么是联邦学习

联邦学习 1.1 联邦学习的概念 历史:联邦学习最早在 2016 年由谷歌提出,原本用于解决安卓手机终端用户在本地更新模型的问题; 本质:联邦学习本质上是一种分布式机器学习技术,或机器学习框架。 目标:联邦学…

循环自增_大学C语言—循环结构及应用

基础知识常见循环结构及形式for循环for(设置初始值;循环条件判断;设置循环增减量){语句1;语句2;…… 语句n;}while循环while(条件判断){语句1;语句2;……语句n;}do-while循环d…

论文写作的辅助工具

1 英文翻译 translate.google.cn 2 英文句子 我们以前的做法是要求每个同学收集一些经典的句子,现在有一个网站已经把这个工作做好了,这个可以解决60%句子问题,接下来就是写作的逻辑 https://www.phrasebank.manchester.ac.uk/ 3 画图工具…

dac0832控制电机驱动流程图_某驱动电机控制器拆解实拍照片

小编作为一个电控专业100%小白,机缘巧合获得某纯电动汽车驱动电机控制器一台,拆解之,权为业内人士参考之用,文中显得外行、用词不对及谬误之处还请各位大神不吝赐教!外观标牌背面拆解固定托架侧面拆解固定托架拆解固定…

推荐系统--安全联邦矩阵分解(7)

相关论文: Secure Federated Matrix Factorization 论文源代码见: https://github.com/Di-Chai/FedMF 1 摘要 为了保护用户隐私和满足法律法规,联邦(机器)学习近年来获得了广泛的关注。 联邦学习的关键原则是在不需要知道每个用…

联邦学习--数据攻击(1)

参考论文:Deep Leakage from Gradients(NeurIPS 2019) 源代码: https://github.com/mit-han-lab/dlg 核心思想:作者通过实验得到,从梯度可以反推用户的个人信息。并验证了其在计算机视觉和自然语言处理任务…

python制作图_Python做图的方法

最近一直没有更新文章,在学习Machine learning。然后业余在kaggle那里瞎转,对Python常用的作图摸了个遍,本文将对这些作图方法做个简单介绍一般我们作图主要是为了看数据分布、数据趋势、以及比较大小。常用的图包括:line(折线图)…

联邦学习--数据攻击(2)

参考论文:See through Gradients: Image Batch Recovery via GradInversion(CVPR 2021 ) 源代码: 核心思想:解决了Deep Leakage from Gradients(NeurIPS 2019)中batch大于1效果无效的情况。 缺点…

python简单网络爬虫_【Python】 简单网络爬虫实现

介绍网络爬虫(英语:网络爬虫),也称为网络蜘蛛(蜘蛛)是一个Web机器人用于自动浏览万维网。其目的通常是为了编译web索引。\u2014\u2014维基百科web爬虫程序可以节省他们访问的页面,以便搜索引擎可以为用户搜索生成索引。一般来说,有两个步骤:1。获取网页内容2。准备获得web内容和…

对抗攻击(1)

本文是根据李宏毅老师在B站上的视频整理而来,视频地址为: https://www.bilibili.com/video/BV1n3411y7xD?p65 1 无目标和有目标攻击的区别 无目标攻击:攻击后的标签不确定,只要是和原始标签差别越大越好。 有目标攻击&#xff…

python爬虫隐藏ip_Python3网络爬虫之使用User Agent和代理IP隐藏身份

本文介绍了Python3网络爬虫之使用User Agent和代理IP隐藏身份,分享给大家,具体如下:运行平台:WindowsPython版本:Python3.xIDE:Sublime text3一、为何要设置User Agent有一些网站不喜欢被爬虫程序访问&…

对抗攻击(2)

本文将介绍一些经典的对抗攻击算法,未完待续…