基于深度学习的信息抽取技术

DeepIE: Deep Learning for Information Extraction

DeepIE: 基于深度学习的信息抽取技术(预计2020年8月31日前全部更新完毕)

TOP

  • 知乎专栏文章:nlp中的实体关系抽取方法总结
  • 知乎专栏文章:如何有效提升中文NER性能?词汇增强方法总结
  • 知乎专栏文章:如何解决Transformer在NER任务中效果不佳的问题?

Papers

  • ACL2020信息抽取相关论文汇总
  • IJCAI2020信息抽取相关论文汇总
  • 2019各顶会中的关系抽取论文汇总
  • 事件抽取论文汇总
  • 历年来NER论文汇总

Codes

1. 实体抽取

  • 各主流方法在主要中文NER数据集上的表现情况 具体说明
lexiconOntonotesMSRAResumeWeibo
biLSTM----71.8191.8794.4156.75
Lattice LSTM词表173.8893.1894.4658.79
WC-LSTM词表174.4393.3694.9649.86
LR-CNN词表174.4593.7195.1159.92
CGN词表274.7993.4794.1263.09
LGN词表174.8593.6395.4160.15
Simple-Lexicon词表175.5493.5095.5961.24
FLAT词表176.4594.1295.4560.32
FLAT词表275.7094.3594.9363.42
BERT----80.1494.9595.5368.20
BERT+FLAT词表181.8296.0995.8668.55
  • MSRA-NER
方法fpr
char+ lstm-crf86.18%88.43%83.10%
char-bigram + lstm-crf91.80%92.60%90.34%
char-bigram + adTransformer-crf92.98%93.25%92.72%
char-bigram + lexion-augment + lstm-crf93.33%94.26%92.43%
char-bigram-BERT + lstm-crf94.71%95.14%94.27%
char-bigram-BERT + lexion-augment + lstm-crf95.26%95.90%94.63%
  • CCKS2019-医疗实体抽取
方法fpr
char-bigram + lstm-crf81.76%82.91%80.6
+ domain transfer(from ccks2018 to 2019)82.54%83.43%81.81%
char-bigram + adTransformer-crf82.83%82.19%83.49%
char-bigram + lexion-augment + lstm-crf82.76%82.79%82.72%
BERT-finetune+crf83.49%84.11%82.89%
roBERTa-finetune+crf83.66%83.67%83.66%
char-bigram-BERT + lstm-crf83.37%83.51%83.22%
char-bigram-BERT + lexion-augment + lstm-crf84.15%84.29%84.01%
  • CCKS2020-医疗实体抽取

(注:测试集与ccks2019一致,去除ccks2020训练集中已经在2019测试集中的样本,下列指标未做规则处理和模型融合)

方法fpr
char-bigram + lstm-crf82.68%83.14%82.22%
char-bigram + lexion-augment + lstm-crf83.12%83.10%83.14%
char-bigram-BERT + lstm-crf83.12%83.04%83.21%
char-bigram-BERT-RoBerta_wwm + lstm-crf83.66%83.76%83.56%
char-bigram-BERT-XLNet + lstm-crf84.12%83.88%84.36%
char-bigram-BERT + lexion-augment + lstm-crf84.50%84.32%84.67%
  • CCKS2020-面向试验鉴定的命名实体识别任务:TODO

2. 实体关系联合抽取

具体使用说明

  • 2019语言与智能技术竞赛:关系抽取任务
方法f(dev)p(dev)r(dev)
multi head selection76.3679.2473.69
ETL-BIES77.07%77.13%77.06%
ETL-Span78.94%80.11%77.8%
ETL-Span + word2vec79.99%80.62%79.38%
ETL-Span + word2vec + adversarial training80.38%79.95%80.82%
ETL-Span + BERT81.88%82.35%81.42%
  • 2020语言与智能技术竞赛:关系抽取任务
方法f(dev)p(dev)r(dev)
ETL-Span + BERT74.5874.4474.71

3. 属性抽取

  • 领域数据集:瑞金医院糖尿病信息抽取数据
# 药物-属性
['药品-用药频率','药品-持续时间','药品-用药剂量','药品-用药方法','药品-不良反应']
# 疾病-属性
['疾病-检查方法','疾病-临床表现','疾病-非药治疗','疾病-药品名称','疾病-部位']
主体方法fpr
疾病lstm+ multi-label pointer network76.5574.3678.86
疾病bert + multi-label pointer network77.5977.4577.74
药物lstm+ multi-label pointer network81.1279.1583.19

4. 实体链接/标准化

5.事件抽取

  • CCKS2020-医疗事件抽取

  • CCKS2020:面向金融领域的篇章级事件主体抽取

  • CCKS2020:面向金融领域的篇章级事件要素抽取

6.信息抽取中的低资源解决方案

TODO-list

  • 信息抽取领域的数据资源汇总:

    • 医疗
    • 金融
    • 电商
    • 法律
  • 信息抽取相关竞赛汇总:

    • 百度-2020语言与智能技术竞赛:关系抽取任务
    • 百度-2020语言与智能技术竞赛:事件抽取任务
    • 百度-2019语言与智能技术竞赛:信息抽取
    • CCKS 2019 医疗命名实体识别
    • CHIP 2019 临床术语标准化任务
    • CCKS 2019 人物关系抽取
    • CCKS 2019 公众公司公告信息抽取
    • CCKS 2019 面向金融领域的事件主体抽取
  • 摘要抽取

  • 前沿技术在信息抽取中的应用

Reference

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479298.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

根因分析初探:一种报警聚类算法在业务系统的落地实施

背景 众所周知,日志是记录应用程序运行状态的一种重要工具,在业务服务中,日志更是十分重要。通常情况下,日志主要是记录关键执行点、程序执行错误时的现场信息等。系统出现故障时,运维人员一般先查看错误日志&#xff…

论文浅尝 | BAG:面向多跳推理问答得双向 Attention 实体图卷积网络

论文笔记整理:谭亦鸣,东南大学博士生,研究兴趣:知识图谱问答来源:NAACL 2019链接:https://www.aclweb.org/anthology/N19-1032/实现多跳推理问答需要模型能够充分理解文本和 query 之间的关系,本…

Android官方开发文档Training系列课程中文版:使用Fragment构建动态UI之构建灵活的UI

原文地址:http://android.xsoftlab.net/training/basics/fragments/fragment-ui.html 当设计应用程序时需要支持尺寸较大的宽屏设备时,可以基于可用的屏幕空间在不同的布局中配置并重新使用fragment来提升用户体验。 举个例子,手持设备在同…

LeetCode 669. 修剪二叉搜索树

1. 题目 给定一个二叉搜索树,同时给定最小边界L 和最大边界 R。通过修剪二叉搜索树,使得所有节点的值在[L, R]中 (R>L) 。你可能需要改变树的根节点,所以结果应当返回修剪好的二叉搜索树的新的根节点。 来源:力扣&#xff08…

Pytorch翻车记录:单卡改多卡踩坑记!

文 | 哟林小平知乎先说明一下背景,目前正在魔改以下这篇论文的代码:https://github.com/QipengGuo/GraphWriter-DGLgithub.com由于每次完成实验需要5个小时(baseline),自己的模型需要更久(2倍)&…

使用docker部署flask项目

前言 本次部署是把2个项目、mysql、redis、uwsgi封装在一个容器中,ngnix封装在一个容器中 实际应用中最好是: 项目和uwsgi封装在一个容器中mysql单独封装,可能还要读写分离,主从同步等redis单独封装,可能还要读写分离&…

论文浅尝 | DRUM:一种端到端的可微的知识图谱上的规则学习方法

论文笔记整理:张文,浙江大学在读博士,研究方向为知识图谱的表示学习,推理和可解释。现有的多数链接预测方法都不能处理新的实体,并且多为黑盒方法,使得其预测结果无法解释。本文提出了一种新的端到端的可微…

WSDM Cup 2019自然语言推理任务获奖解题思路

WSDM(Web Search and Data Mining,读音为Wisdom)是业界公认的高质量学术会议,注重前沿技术在工业界的落地应用,与SIGIR一起被称为信息检索领域的Top2。 刚刚在墨尔本结束的第12届WSDM大会传来一个好消息,由…

LeetCode 637. 二叉树的层平均值(层次遍历queue)

1. 题目 给定一个非空二叉树, 返回一个由每层节点平均值组成的数组. 输入:3/ \9 20/ \15 7 输出: [3, 14.5, 11] 解释: 第0层的平均值是 3, 第1层是 14.5, 第2层是 11. 因此返回 [3, 14.5, 11].2. 解题 queue按层遍历,每次进入循环记录队列长度n class So…

Android官方开发文档Training系列课程中文版:使用Fragment构建动态UI之与其它Fragment通信

原文地址:http://android.xsoftlab.net/training/basics/fragments/communicating.html 为了可以重复使用Fragment UI组件,你应该将fragment构建为一个完整的独立的模块化组件,并且它可以定义自己的布局和行为习惯。你只要定义了一次这类可复…

AI框架你只会调包,这种想法很危险!

深度学习神经网络正步入成熟,而深度学习框架目前众多,大都可以在图像识别、手写识别、视频识别、语音识别、目标识别和自然语言处理等诸多领域大显身手。深度学习框架平台占据人工智能产业生态的核心地位,具有统领产业进步节奏、带动终端场景…

Docker镜像大小

都说容器大法好,可是假设没有Docker镜像,Docker该是多无趣啊。 是否还记得第一个接触Docker的时候,你从Docker Hub下拉的那个镜像呢?在那个处女镜像的基础上。你执行了容器生涯的处女容器。镜像的基石作用已经非常明显。在Docker…

论文浅尝 | 机器阅读理解中常识知识的显式利用

论文笔记整理:吴林娟,天津大学硕士,自然语言处理方向。链接:https://arxiv.org/pdf/1809.03449.pdf动机机器阅读理解(MRC)和人类进行阅读理解之间还存在差距,作者认为主要体现在对于数据的需求和噪声鲁棒性上&#xff…

深度学习在美团配送ETA预估中的探索与实践

1.背景 ETA(Estimated Time of Arrival,“预计送达时间”),即用户下单后,配送人员在多长时间内将外卖送达到用户手中。送达时间预测的结果,将会以”预计送达时间”的形式,展现在用户的客户端页面…

在AndroidStudio中配置Gradle进行 “动态编译期间,根据远程服务器地址 ,生成多类安装包”

原文地址:http://www.cnblogs.com/vir56k/p/4763810.html 需求: 在产品开发中,经常需要发布各个版本,每个版本的服务器地址有不同的服务器地址。比如 开发 服务器使用 192.168.1.232服务器,测试 服务器使用 192.168.1.…

中科院博士整理的机器学习算法知识手册,完整 PDF 开放下载!

分享一份中科院博士总结的机器学习算法知识手册,文章已打包成压缩文件,感兴趣的同学可下载交流。文件包含了:机器学习基础,监督学习方法、非监督学习方法,Python数据科学和深度学习等相关知识,若初学者在自…

NLP算法落地相关的应用场景以及业界最新动态

1 百度NLP十年技术积累,最新发布5款产品,公布两大计划

论文浅尝 | 通过共享表示和结构化预测进行事件和事件时序关系的联合抽取

论文笔记整理:邓淑敏,浙江大学在读博士,研究方向为低资源条件下知识图谱自动化构建关键技术研究。Rujun Han, Qiang Ning, Nanyun Peng. Joint Event and Temporal Relation Extractionwith Shared Representations and Structured Predictio…

Android官方开发文档Training系列课程中文版:数据存储之键值对序列存储

原文地址:http://android.xsoftlab.net/training/basics/data-storage/index.html 引言 大多数的安卓APP需要保存数据,即使仅仅存储在onPause状态下的信息,这样的话,用户的进度信息就不会被丢失。大多数重量级的APP还需要保存用…

研发团队资源成本优化实践

背景 工程师主要面对的是技术挑战,更关注技术层面的目标。研发团队的管理者则会把实现项目成果和业务需求作为核心目标。实际项目中,研发团队所需资源(比如物理机器、内存、硬盘、网络带宽等)的成本,很容易被忽略&…