【doccano】文本标注工具——属性级情感分析标注自己的业务数据

笔记为自我总结整理的学习笔记,若有错误欢迎指出哟~

【doccano】文本标注工具——属性级情感分析标注自己的业务数据

  • 1.说明
  • 2.前提条件
  • 3.doccano创建项目
  • 4.添加数据集
  • 5.添加标签
  • 6.标注数据
  • 7.导出数据转换格式

1.说明

在这里插入图片描述

2.前提条件

确保doccano已经安装完成
可以参考文章:
【doccano】文本标注工具——安装运行教程

3.doccano创建项目

在这里插入图片描述
选择序列标注
在这里插入图片描述

在这里插入图片描述
在标注文本时允许标注的区间出现重叠
勾选allow overlapping spans

在文本中标注实体之间的关系
勾选use relation labeling
在这里插入图片描述

4.添加数据集

数据集格式为txt文本
每行一条评论
在这里插入图片描述
选择textline,导入
在这里插入图片描述
导入完成
在这里插入图片描述

5.添加标签

在这里插入图片描述
或者导入自定义标签

[{"text": "体验:1","background_color": "#FF0000","text_color": "#ffffff"},{"text": "体验:-1","background_color": "#FF0000","text_color": "#ffffff"},{"text": "设计:1","background_color": "#00FF00","text_color": "#000000"},{"text": "设计:-1","background_color": "#00FF00","text_color": "#000000"},{"text": "电池:1","background_color": "#0000FF","text_color": "#ffffff"},{"text": "电池:-1","background_color": "#0000FF","text_color": "#ffffff"},{"text": "性能:1","background_color": "#FFFF00","text_color": "#000000"},{"text": "性能:-1","background_color": "#FFFF00","text_color": "#000000"},{"text": "摄像:1","background_color": "#FF00FF","text_color": "#ffffff"},{"text": "摄像:-1","background_color": "#FF00FF","text_color": "#ffffff"},{"text": "通信:1","background_color": "#00FFFF","text_color": "#000000"},{"text": "通信:-1","background_color": "#00FFFF","text_color": "#000000"},
]

在这里插入图片描述

6.标注数据

在这里插入图片描述

7.导出数据转换格式

导出标注数据为jsonl格式,改后缀名为json格式
在这里插入图片描述

转为txt格式

import json# 读取JSON文件并处理每条数据
with open('admin.json', 'r', encoding='utf-8') as file:lines = file.readlines()for line in lines:data = json.loads(line)# 处理每条数据并写入txt文件id = data['id']text = data['text']label = data['label']with open('output.txt', 'a', encoding='utf-8') as output_file:for lbl in label:start = lbl[0]end = lbl[1]category = lbl[2].split(":")[0]   # 获取类别名称tag = lbl[2].split(":")[1]    # 获取类别标签output_file.write(f"{tag}\t{category}#{text[start:end]}\t{text}\n")

输出格式:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/185224.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python实现的二分查找算法(非递归实现)

一、二分查找算法的优缺点: 二分查找又称折半查找,优点是比较次数少,查找速度快,平均性能好;其缺点是要求 待查表为有序表,且插入删除困难。因此,二分查找方法适用于不经常变动而查找频繁的有 …

事务注解@Transactional

Override Transactional(rollbackFor RuntimeException.class) public Role insert(Role role) throws Exception { userMapper.deleteById(60); if(null!role){ // 抛出Exception,而rollbackFor RuntimeException.class,不回…

H5 keng

一、url转码,url传值得时候中文会被转义,通过 decodeURIComponent( ) 进行转码 this.url decodeURIComponent(item.split()[1]) 编码的话用encodeURI( ) son.name encodeURI(infoJson.name) 二、H5页面在ios中滑动不流畅问题&…

广州华锐视点提供AI虚拟主播定制,为品牌注入新活力!

随着科技的飞速发展,人工智能已经逐渐渗透到我们生活的方方面面。在这个信息爆炸的时代,如何让您的品牌在众多竞争对手中脱颖而出,成为行业的佼佼者?答案就是——AI虚拟主播! 广州华锐视点提供AI数字人定制服务&#x…

一些后端测试的东西

后端测试都测试些什么 接口测试最小单元测试联调测试 接口测试 接口测试要素 可重复性 异常覆盖 环境一致 如何进行方便的接口测试 测试工具: idea-httpRequest , apifox , postman, jmeter 如何使用idea进行高效的接口测试 编写接口 启动项目直接…

二十五、DSL查询文档(全文检索查询、精确查询、地理查询、复合查询)

目录 一、全文检索查询 1、match查询 语法: 2、multi_match查询 语法: 3、match和mult_match的区别 二、精确查询 1、term查询: 语法: 2、range查询:(范围查询) 语法: 三、地理查询 1、geo_bou…

发生这种情况 经常导致投资者的痛苦

在这个市场中,什么事会让人痛苦呢?有的投资者马上回答,因为亏损。说实话,如果经过刻意的练习,我们在一定程度上能克服亏损给人带来的痛感。但是有另一种情况也容易为投资者带来痛苦,下面我们就来讨论一下。…

游戏缺少d3dx9_43.dll修复方法分享,快速解决dll缺失问题

在计算机使用过程中,我们常常会遇到一些错误提示,其中之一就是“找不到d3dx9_43.dll文件”。这个错误通常出现在运行某些游戏或应用程序时,d3dx9_43.dll是一个动态链接库文件,它是DirectX 9的一部分,用于支持游戏中的3…

Egg.js的方法扩展

Extend-application 方法扩展 eggjs的方法的扩展和编写 Egg.js可以对内部的五种对象进行扩展,以下是可扩展的对象、说明、this指向和使用方式。 application对象方法拓展 按照Egg的约定,扩展的文件夹和文件的名字必须是固定的。比如要对application扩…

亚马逊云科技re:Invent Peter DeSantis演讲,数据规模拓展无极限引领Serverless构建之路

re:lnvent 2023 Peter DeSantis主题演讲,数据规模拓展无极限引领Serverless构建之路(Road to Serverless)。 Logical Qubit全新发布:量子计算硬件,6倍的量子纠错效率提升。 Amazon全新发布Redshift Serverless&#xf…

Java多线程其他细节知识

并发、并行 进程 并发的含义 并行的理解 线程的生命周期

【Java进阶】-- 设计模式

一、什么是设计模式? Java 设计模式是一种在Java编程中广泛使用的软件设计范例。它们提供了一种解决常见设计问题的方法,并且可以帮助开发人员编写易于维护和扩展的代码。 二、为什么要有设计模式? 使用设计模式是为了可重用代码、让代码更容…

Hive:从HDFS回收站恢复被删的表

场景 一张手工维护的内部表,本来排查没有使用,然后删掉了,发现又需要使用,只能恢复这张表了。 1.确认HDFS是否开启回收站功能 2.查看回收站中的数据 被删除的数据会放在删除数据时使用的用户目录下,如:使…

网络编程相关面试题

目录 1.请解释一下什么是TCP协议的三次握手?2.TCP协议使用什么机制确保数据包的顺序和完整性?3.什么是UDP协议?它与TCP协议有什么不同?4.请解释一下什么是IP地址?为什么需要它?5.请解释一下什么是端口&…

详解前后端交互时PO,DTO,VO模型类的应用场景

前后端交互时的数据传输模型 前后端交互流程 前后端交互的流程: 前端与后端开发人员之间主要依据接口进行开发 前端通过Http协议请求后端服务提供的接口后端服务的控制层Controller接收前端的请求Contorller层调用Service层进行业务处理Service层调用Dao持久层对数据持久化 …

赤霞珠葡萄酒的风味特征是怎样的?

赤霞珠最值得注意的特点之一是它在发酵或桶陈酿期间对橡木的亲和力,除了对葡萄的天然高单宁产生软化效果外,香草和香料的独特木材风味还补充了黑醋栗和烟草的天然葡萄风味。 来自云仓酒庄品牌雷盛红酒分享基于赤霞珠的波尔多混合物在225升(59…

二级分类菜单及三级分类菜单的层级结构返回

前言 在开发投诉分类功能模块时,遇到过这样一个业务场景:后端需要按层级结构返回二级分类菜单所需数据,换言之,将具有父子关系的List结果集数据转为树状结构数据来返回 二级分类菜单 前期准备 这里简单复刻下真实场景中 出现的…

Doris 简介(一)

Apache Doris 由百度大数据部研发(之前叫百度 Palo,2018 年贡献到 Apache 社区后,更名为 Doris ),在百度内部,有超过 200 个产品线在使用,部署机器超过 1000 台,单一业务最大可达到上…

leetcode:循环队列

题目描述 题目链接:622. 设计循环队列 - 力扣(LeetCode) 题目分析 我们开辟空间的时候多开一个,k是队列的长度,我们开k1个空间,定义一个front指向头,back的下一个指向尾 当frontback的时候&am…

【场景测试用例】二维码

测试思路: UI 不同设备,不同浏览器下的外观和布局一致用户友好性 二维码足够清晰且大小合适是否有错误提示是否有扫描成功/失败提示启动,扫描过程 功能 验证识别功能 二维码完整且有效二维码失效二维码不完整/过于模糊空白二维码测试不同大小…