conll-2012-formatted-ontonotes-5.0中文数据格式说明

CoNLL-2012 数据格式是用于自然语言处理任务的一种常见格式,特别是在命名实体识别、词性标注、句法分析和语义角色标注等领域。这种格式在 CoNLL-2012 共享任务中被广泛使用,该任务主要集中在语义角色标注上。

CoNLL-2012 数据格式通常包括多列,每列包含不同类型的语言学信息。以下是一个典型的 CoNLL-2012 格式的例子,展示了它的列结构和类型:


bc/cnn/00/cnn_0000   0    0           而且    AD         (TOP(IP(ADVP*)  -    -   -    Paula_Zahn_#1E         *    (ARGM-DIS*)            *      -
bc/cnn/00/cnn_0000   0    1         国防部长    NN               (NP(NP*)  -    -   -    Paula_Zahn_#1E         *        (ARG0*             *   (195
bc/cnn/00/cnn_0000   0    2    唐纳德·拉姆斯菲尔    NR                 (NP*))  -    -   -    Paula_Zahn_#1E   (PERSON)            *)            *    195)
bc/cnn/00/cnn_0000   0    3            说    VV                  (VP*   -   01   7    Paula_Zahn_#1E         *           (V*)            *      -
bc/cnn/00/cnn_0000   0    4            更    AD   (IP(NP(DNP(QP(ADVP*)  -    -   -    Paula_Zahn_#1E         *        (ARG1*        (ARG0*   (247
bc/cnn/00/cnn_0000   0    5            多    CD                 (QP*))  -    -   3    Paula_Zahn_#1E         *             *             *      -
bc/cnn/00/cnn_0000   0    6            的   DEG                     *)  -    -   -    Paula_Zahn_#1E         *             *             *      -
bc/cnn/00/cnn_0000   0    7           美国    NR                  (NP*)  -    -   -    Paula_Zahn_#1E     (NORP)            *             *      -
bc/cnn/00/cnn_0000   0    8           士兵    NN                 (NP*))  -    -   -    Paula_Zahn_#1E         *             *             *)   247)
bc/cnn/00/cnn_0000   0    9           可能    AD             (VP(ADVP*)  -    -   -    Paula_Zahn_#1E         *             *    (ARGM-ADV*)     -
bc/cnn/00/cnn_0000   0   10           不久    AD                (ADVP*)  -    -   -    Paula_Zahn_#1E         *             *    (ARGM-TMP*)     -
bc/cnn/00/cnn_0000   0   11            将    AD                (ADVP*)  -    -   -    Paula_Zahn_#1E         *             *    (ARGM-ADV*)     -
bc/cnn/00/cnn_0000   0   12           启程    VV               (VP(VP*)  -    -   -    Paula_Zahn_#1E         *             *             *      -
bc/cnn/00/cnn_0000   0   13           前往    VV                  (VP*   -   01   -    Paula_Zahn_#1E         *             *           (V*)     -
bc/cnn/00/cnn_0000   0   14          伊拉克    NR             (NP*))))))  -    -   -    Paula_Zahn_#1E      (LOC)            *)       (ARG1*)     -
bc/cnn/00/cnn_0000   0   15            .    PU                    *))  -    -   -    Paula_Zahn_#1E         *             *             *      -bc/cnn/00/cnn_0000   0    0       他    PN      (TOP(IP(NP*)  -    -   -    Paula_Zahn_#1E       *    (ARG0*)            *         *        *      *      *    (195)
bc/cnn/00/cnn_0000   0    1       说    VV             (VP*   -   01   7    Paula_Zahn_#1E       *       (V*)            *         *        *      *      *       -
bc/cnn/00/cnn_0000   0    2       将    AD     (IP(VP(ADVP*)  -    -   -    Paula_Zahn_#1E       *    (ARG1*    (ARGM-ADV*)        *        *      *      *       -
bc/cnn/00/cnn_0000   0    3      暂时    AD           (ADVP*)  -    -   -    Paula_Zahn_#1E       *         *    (ARGM-ADV*)        *        *      *      *       -
bc/cnn/00/cnn_0000   0    4      需要    VV             (VP*   -   02   1    Paula_Zahn_#1E       *         *           (V*)        *        *      *      *       -
bc/cnn/00/cnn_0000   0    5      他们    PN          (IP(NP*)  -    -   -    Paula_Zahn_#1E       *         *        (ARG1*    (ARG0*)       *      *      *    (247)
bc/cnn/00/cnn_0000   0    6       来   MSP             (VP*   -    -   7    Paula_Zahn_#1E       *         *             *         *        *      *      *       -
bc/cnn/00/cnn_0000   0    7      防止    VV             (VP*   -   01   -    Paula_Zahn_#1E       *         *             *       (V*)       *      *      *       -
bc/cnn/00/cnn_0000   0    8    十二月份    NT   (NP(LCP(NP(NP*)  -    -   -    Paula_Zahn_#1E   (DATE)        *             *    (ARG1*        *      *      *       -
bc/cnn/00/cnn_0000   0    9     伊拉克    NR             (NP*)  -    -   -    Paula_Zahn_#1E   (ORG*         *             *         *        *      *      *    (206)
bc/cnn/00/cnn_0000   0   10      国会    NN             (NP*   -    -   -    Paula_Zahn_#1E       *)        *             *         *        *      *      *       -
bc/cnn/00/cnn_0000   0   11      选举    NN               *))  -    -   -    Paula_Zahn_#1E       *         *             *         *        *      *      *       -
bc/cnn/00/cnn_0000   0   12       前    LC                *)  -    -   -    Paula_Zahn_#1E       *         *             *         *        *      *      *       -
bc/cnn/00/cnn_0000   0   13      预料    VV    (CP(CP(IP(VP*   -   01   -    Paula_Zahn_#1E       *         *             *         *      (V*)     *      *       -
bc/cnn/00/cnn_0000   0   14       会    VV          (IP(VP*   -   02   -    Paula_Zahn_#1E       *         *             *         *   (ARG1*    (V*)     *       -
bc/cnn/00/cnn_0000   0   15      增长    VV         (VP*)))))  -   01   1    Paula_Zahn_#1E       *         *             *         *        *)     *    (V*)      -
bc/cnn/00/cnn_0000   0   16       的   DEC               *))  -    -   -    Paula_Zahn_#1E       *         *             *         *        *      *      *       -
bc/cnn/00/cnn_0000   0   17      叛乱    NN             (NP*   -    -   -    Paula_Zahn_#1E       *         *             *         *        *      *      *       -
bc/cnn/00/cnn_0000   0   18      袭击    NN        *)))))))))  -    -   -    Paula_Zahn_#1E       *         *)            *)        *)       *      *      *       -
bc/cnn/00/cnn_0000   0   19       .    PU               *))  -    -   -    Paula_Zahn_#1E       *         *             *         *        *      *      *       -

每列的含义为:

      第一列是文件名。

      第二列是文档片段iid,大部分是0。

     后面几列为:

  1. Word index: 句子中的词索引。
  2. Word form: 词的原形。
  3. Part-of-Speech tag: 词性标签。
  4. Parse tree: 句法分析树的部分信息。
  5. Predicate lemma: 如果当前词是谓词,则为谓词的原形;否则为一个连字符。
  6. Predicate Frameset ID: 如果当前词是谓词,则为框架ID;否则为一个连字符。
  7. Word sense: 词的语义编号,如果适用的话。
  8. Speaker/Author: 说话者或作者。
  9. Named Entities: 命名实体标记。
  10. Predicate Arguments: 与谓词相关的语义角色标注。
  11. Coreference: 共指解析标记。

其中,共指标记中,相同数字的表示同一指代簇。

/cctv/00/cctv_0000   0    4    熟知    VV         (VP*)))))  -   01   -   Speaker#1       *       (V*)           *         *      -
bc/cctv/00/cctv_0000   0    5     的   DEC               *))  -    -   -   Speaker#1       *         *            *         *      -
bc/cctv/00/cctv_0000   0    6    卡通    NN             (NP*   -    -   -   Speaker#1       *         *            *         *    (82
bc/cctv/00/cctv_0000   0    7    形象    NN               *))  -    -   -   Speaker#1       *         *            *)        *     82)
bc/cctv/00/cctv_0000   0    8     以     P          (VP(PP*   -    -   -   Speaker#1       *         *   (ARGM-MNR*         *      -
bc/cctv/00/cctv_0000   0    9     其    PN          (NP(NP*)  -    -   -   Speaker#1       *         *            *         *    (82)
bc/cctv/00/cctv_0000   0   10    独有    JJ       (DNP(ADJP*)  -    -   -   Speaker#1       *         *            *         *      -
bc/cctv/00/cctv_0000   0   11     的   DEG                *)  -    -   -   Speaker#1       *         *            *         *      -

这个示例中同一共指簇的信息为 [82, 9, 9], [82, 6, 7],表示第9个词“其”和第6和第7“卡通形象”,指代相同。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/833780.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python:画饼图

我现在因工作需要在写一篇中文文章,领导要我用python处理数据和画图,那我也刚好学习一下python画图。 import matplotlib.pyplot as plt # 饼图数据 labels [A, B, C, D] sizes [15, 30, 45, 10] # 每个部分的大小 # 绘制饼图 plt.figure(figsize(6,…

Python项目开发实战:俄罗斯方块游戏(案例教程)

一、项目概述 俄罗斯方块(Tetris)是一款经典的益智游戏,它以其简单易懂的游戏规则和丰富的变化吸引了无数玩家。本项目旨在使用Python编程语言及其图形库Pygame来开发一个基础的俄罗斯方块游戏。通过本项目,我们将了解游戏开发的基本流程,掌握Python和Pygame的基本用法,并…

MySQL sql_mode引发的异常

背景介绍 项目代码在多个环境运行,其中一个环境有问题。一直报错sqlalchemy.exc.InternalError: (pymysql.err.InternalError) (3065, "Expression #2 of ORDER BY clause is not in SELECT list, references column xxx which is not in SELECT list; this i…

紧跟生成式AI暴雨发布新时代推理服务器

近日,暴雨发布最新训推一体AI服务器,以大容量内存和灵活的高速互连选项满足各种AI应用场景,最大可能支持扩展插槽,从而大幅提升智能算力性能,以最优的性能和成本为企业的模型训练推理落地应用提供更好的通用算力。 AIG…

软考系列必过资料分享-系统架构师-系统分析师-信息系统项目管理师

建议,写在前面 知识点是公用的,原则上不分新旧。每年会有少部分的题目切合当前时间段(也是通过旧的知识演变的) 信息系统项目管理师证书 系统架构师证书 系统分析师证书 资料分享 关注公众号 回复 信息系统项目管理师资料 即可获取信息系统项目管理师资…

【RAG 论文】Dense X 检索:将“命题”作为检索粒度

论文:Dense X Retrieval: What Retrieval Granularity Should We Use? ⭐⭐⭐⭐ Code: github.com/ct123098/factoid-wiki 文章目录 一、论文速读二、命题(Proposition)三、FactoidWiki四、实验及分析4.1 Passage Retrieval 任务4.2 Open-Do…

数据结构-线性表-链表-2.3-7

设在一个带头结点的单链表中所有元素的数据值无序,试编写一个函数,删除表中所有介于给定的两个值(作为函数参数给出)之间的元素的元素(若存在)。 无序链表,逐个结点进行检查,执行删…

VSCode-vue3.0-安装与配置-export default简单例子

文章目录 1.下载VSCode2.修改语言为中文3.辅助插件列表4.vue3模板文件简单例子5.总结 1.下载VSCode 从官网下载VSCode,并按下一步安装成功。 2.修改语言为中文 点击确认修改,如下图所示: 或者打开命令面板:输入Configure Displ…

党建教育vr虚拟现实展厅真正实现了绿色、低碳的展示方式

在数字化浪潮席卷的今天,传统企业门户官网已难以满足企业日益增长的展示需求。面对这一挑战,北京华锐凭借深厚的行业经验和领先的技术实力,为您提供全新的元宇宙虚拟展厅制作服务,助您轻松打破现实与虚拟的界限,开启企…

如何让vim支持python3

首先删除旧的vim。 sudo apt-get remove vim //输入re按下tab直接显示remove sudo apt-get remove vim-runtime sudo apt-get remove vim -tiny sudo apt-get remove vim-common 然后下载vim8源码: git clone https://github.com/vim/vim.git 进行编译安装…

【NodeMCU实时天气时钟温湿度项目 5】获取关于城市天气实况和天气预报的JSON信息(心知天气版)

| 今天是第五专题内容,主要是介绍如何从心知天气官网,获取包含当前天气实况和未来 3 天天气预报的JSON数据信息。 在学习获取及显示天气信息前,我们务必要对JSON数据格式有个深入的了解。 如您需要了解其它专题的内容&#xf…

C语言----杨辉三角

各位看官们好。学习到这里想必大家应该对C语言的了解也是很深刻的了吧。但是我们也不能忘记我们一起学习的知识啊。在我们以前学习C语言的时候我想大家应该都听说过杨辉三角吧。虽然我们把其中的规律找到那么这个代码就简单很多了。那么接下里我们就来讲讲杨辉三角。 首先我们先…

UltralSO制作启动盘时报错:磁盘/映像容量太小解决办法

UltralSO制作启动盘时报错:磁盘/映像容量太小解决办法 发现网上随便下载的UltralSO制作启动盘时报错:磁盘/映像容量太小,导致制作启动盘出错 解决方案: 去这个地址下载:https://cn.ultraiso.net/xiazai.html 下载正版…

sql 注入 1

当前在email表 security库 查到user表 1、第一步,知道对方goods表有几列(email 2 列 good 三列,查的时候列必须得一样才可以查,所以创建个临时表,select 123 ) 但是你无法知道对方goods表有多少列 用order …

场外期权个股怎么对冲?

今天期权懂带你了解场外期权个股怎么对冲?场外个股期权是一种在非交易所市场进行的期权交易,它允许投资者针对特定的股票获得未来买入或卖出的权利。 场外期权个股怎么对冲? 持有相反方向的期权:这是最直接的对冲方法&#xff0c…

Elasticsearch中的三种分页策略深度解析:原理、使用及对比

码到三十五 : 个人主页 在Elasticsearch中,分页是查询操作中不可或缺的一部分。随着数据量的增长,如何高效地分页查询数据急需需要面对的问题。Elasticsearch提供了三种主要的分页方式:from size、scroll和search_after。下面详细…

STM32系统架构

以下是STM32系统架构中的各个重要组件和功能: 组件描述Cortex-M内核ARM Cortex-M系列内核,如M0、M0、M3、M4、M7等Flash存储器存储程序代码和数据SRAM存储程序运行时数据和堆栈外设接口GPIO、SPI、I2C、UART、TIM、ADC、DAC、USB、CAN、Ethernet等时钟和…

大模型微调实战之强化学习 贝尔曼方程及价值函数(五)

大模型微调实战之强化学习 贝尔曼方程及价值函数(五) 现在, 看一下状态-动作值函数的示意图: 这个图表示假设首先采取一些行动(a)。因此,由于动作(a),代理可能会被环境转换到这些状…

教学目标的四个维度

记不住一点,每次要用都得百度,现在做个在线笔记hhhhhhh 教学目标的四个维度: 1.认知维度:目标应该涉及学生需要掌握的知识、概念、原则和理论等方面。 ⒉.技能维度:目标应该涉及学生需要掌握的各种技能,如阅读、写作、演讲、计算等。 3.情感…

源代码烧录场景防泄密的四种方式

在各行各业中,外设烧录是一项常见的操作,涉及到对硬件设备进行固件更新或配置文件的写入。然而,外设烧录过程中的文件管理和安全审计一直是一个挑战,传统的烧录方法往往无法提供足够的安全保障。本文将介绍如何利用沙盒防泄密软件…