doccano标注工具|为机器学习建模做数据标注

目录

一、标记流程
二、配置环境
        2.1 安装
        2.2 运行doccano
三、案例
        3.1 创建项目
        3.2 上传数据
        3.3 定义标签
        3.4 添加成员
        3.5 开始标注
        3.6 导出数据
        3.7 导出数据

doccano

doccano是开源的数据标注工具,可以简化数据标注的难度。需要注意,市面上的机器学习课程一般都默认数据已标注,在此基础上讲机器学习。

您还可以将 doccano 与您的脚本集成,因为它将功能公开为API。 doccano API是在局域网内的网址链接,多台设备可打开浏览、标注。

一、标记流程

通过以下步骤开始和完成使用 doccano 的标签项目:

  • 安装doccano。
  • 运行doccano。
  • 设置标签项目。 选择标签项目的类型, 配置项目设置。
  • 导入数据集。 您还可以导入带标签的数据集。
  • 给项目添加标注人员
  • 给标志者定义标注工作文档说明
  • 开始标记数据。
  • 导出标记的数据集。


二、配置环境

2.1 安装
打开命令行(cmd、terminal)执行安装命令

pip3 install doccano


2.2 运行doccano
在命令行(cmd、terminal)内依次执行

#在电脑第一次运行的时候初始化doccano
#只需设置一次,之后不用再运行该命令
 

doccano init

#创建用户名及密码;例如现在有一个主管admin,两个标注员tom和jack
#设置好用户,之后不用再运行该命令
 

doccano createuser --username admin --password pass
doccano createuser --username tom --password pass
doccano createuser --username jack --password pass

#开启doccano服务
 

doccano webserver

完成上述操作后,另打开一个新的命令行,执行下列命令

doccano task


三、案例

下面我们以外卖评论数据为例,对评论进行判断,标注为正、负面情感。

3.1 创建项目

先登录用户名和密码,这里的admin是超级用户(权限最大)


为创建项目,如图点击Create按钮。 根据需要选择合适的项目类别,这里选择的Text Classification,

填写项目信息,例如项目名情感标注,简介、标注类型

根据需要选择项目的功能需求,例如允许单标签,把数据打乱随机显示, 用户之间共享标注

3.2 上传数据

创建项目后,点击Dataset按钮,点击Import dataset导入数据。我这里准备的是csv文件,拥有review和label两个字段。

3.3 定义标签

点击左侧菜单中的“Labels”按钮来定义我们的标签。 我们应该看到标签编辑器页面。 在标签编辑器页面中,您可以通过指定标签文本、快捷键、背景颜色和文本颜色来创建标签。

同理,可以定义负面neg标签。现在有了pos和neg两个标签。 

3.4 添加成员

点击左侧目录中的 Members 按钮,

然后,选择“Add”按钮以显示表单。 使用您要添加到项目中的用户名和角色填写此表单。 然后,选择“Save”按钮。 

如果没有可供选择的成员,记得创建成员。形如doccano createuser --username tom --password pass

3.5 开始标注

接下来,我们准备标注文本数据。 只需点击导航栏中的“Start annotation”按钮,我们就可以开始对文档进行批注了。

3.6 导出数据

在注释步骤之后,我们可以下载标注后的数据。 转到“Dataset”页面,然后单击“操作”菜单中的“Export dataset”按钮。 选择导出格式后,单击“Export”。 您应该看到以下屏幕:

到出的结果如下

3.7 导出数据

对了,当标注过程不同阶段,还看查看标注工作量等可视化信息

四、安装过程命令

#虚拟环境
conda create --name doccano python=3.9
conda info --envs
source activate doccano#pip安装方式
pip install doccano (默认doccano==1.8.4版本)
doccano init
doccano createuser --username admin --password pass
doccano createuser --username tom --password pass
doccano webserver#卸载
pip uninstall doccanopip install doccano==1.8.2#pip源更换,提高安装速度
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple doccano
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple doccano==1.8.2#Docker安装方式docker pull doccano/doccanosing default tag: latest
latest: Pulling from doccano/doccano
7a6db449b51b: Pull complete 
e238bceb2957: Pull complete 
9c37eda4ff12: Pull complete 
120078faa760: Pull complete 
2d3523ccd6f4: Pull complete 
c62e2504b88c: Pull complete 
933dc7a3d368: Pull complete 
f5ecd3a845d0: Pull complete 
dfb494ed37e3: Downloading [==========>                                        ]  33.45MB/159.6MB
548b03d8e5e3: Download complete 
4fb76ac8dbcd: Download complete 
51219b6ada00: Download complete 
4f4fb700ef54: Download complete 
e3407eb63e03: Downloading [============================>                      ]  4.324MB/7.477MB
47f7c73cd77f: Downloading [===========================>                       ]  19.13MB/35.4MB完成状态:
Using default tag: latest
latest: Pulling from doccano/doccano
7a6db449b51b: Pull complete 
e238bceb2957: Pull complete 
9c37eda4ff12: Pull complete 
120078faa760: Pull complete 
2d3523ccd6f4: Pull complete 
c62e2504b88c: Pull complete 
933dc7a3d368: Pull complete 
f5ecd3a845d0: Pull complete 
dfb494ed37e3: Pull complete 
548b03d8e5e3: Pull complete 
4fb76ac8dbcd: Pull complete 
51219b6ada00: Pull complete 
4f4fb700ef54: Pull complete 
e3407eb63e03: Pull complete 
47f7c73cd77f: Pull complete 
Digest: sha256:165e8a1ba2fe3c3c92d4927d74b6badc9985d295c90de28674a5511a62bcdf5c
Status: Downloaded newer image for doccano/doccano:latest
docker.io/doccano/doccano:latestdocker container create --name doccano \-e "ADMIN_USERNAME=admin" \-e "ADMIN_EMAIL=admin@example.com" \-e "ADMIN_PASSWORD=password" \-v doccano-db:/data \-p 8000:8000 doccano/doccano#创建中,稍等1分钟,显示
1dd2951d71970abb16199177e1fd8f9006508757f96d239669f23c1e7c09c7d5#运行
docker container start doccano运行完成显示doccano

五、已知问题

1、安装最新版本的1.8.4后,导入csv和excel文件一直无法成功,不清楚是源代码问题还是某个软件包版本问题,最后使用txt文件或json文件方式导入数据;

2、标注人员和审核人员,貌似权限没有什么区别,正常理解标注人员可以标注不能点击"对勾and叉叉"确定此条标注完成,审核人员审核后可以标注完成,目前安装完成后标注人员和审核人员都可以确认完成操作;

参考:
https://textdata.cn/blog/doccano_text_anotation/#32-%e4%b8%8a%e4%bc%a0%e6%95%b0%e6%8d%ae
https://blog.csdn.net/u013010473/article/details/125447063
https://zhuanlan.zhihu.com/p/371752234
https://blog.csdn.net/weixin_42475060/article/details/131540351
https://blog.csdn.net/weixin_37763484/article/details/132813982 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/796698.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java小作业(5)--编写一个三角形类(第一遍)

1.题目: 2.代码: public class Xain{ //定义类名,要与文件.class名字一样private double yibian; //封装private double erbian;private double sanbian;public Xain(double yibian,double erbian,double sanbian){ //初始化…

菜鸟笔记-Numpy函数-full/random.randint/random.choice

full函数 numpy.full 是 NumPy 库中的一个函数,它用于创建一个具有指定形状、数据类型和填充值的数组。此函数非常有用,因为它允许你快速生成一个具有相同值的数组,而无需手动设置每个元素。 1函数介绍 numpy.full(shape, fill_value, dty…

分享three.js实现乐高小汽车

前言 Web脚本语言JavaScript入门容易,但是想要熟练掌握却需要几年的学习与实践,还要在弱类型开发语言中习惯于使用模块来构建你的代码,就像小时候玩的乐高积木一样。 应用程序的模块化理念,通过将实现隐藏在一个简单的接口后面&a…

Azkaban集群模式部署详细教程

序言 Azkaban是一个用于工作流程调度和任务调度的开源工具,它可以帮助用户轻松地管理和监控复杂的工作流程。Azkaban的架构设计旨在提供高度可扩展性和可靠性,同时保持易用性和灵活性。 Azkaban的架构可以分为三个主要组件:Executor、Web Server和db数据…

golang开发类库推荐

gin star:74.6k 地址:https://github.com/gin-gonic/gin gin是最受开发者欢迎的 Web 框架,它有诸多的优点,性能高、轻量级和简洁的 API 设计,社区活跃度高,灵活、可扩展性强。当然了,最最主要…

【力扣】94. 二叉树的中序遍历、144. 二叉树的前序遍历、145. 二叉树的后序遍历

先序遍历:根-左-右中序遍历:左-根-右后序遍历:左-右-根 94. 二叉树的中序遍历 题目描述 给定一个二叉树的根节点 root ,返回 它的 中序 遍历 。 示例 1: 输入:root [1,null,2,3] 输出:[1,3…

Linux:五种IO模型的基本认识

文章目录 IO的本质五种IO模型异步和同步 阻塞IO非阻塞IO信号驱动IO IO的本质 在之前的内容中已经结束了对于网络和操作系统的学习,那么回过来再继续看IO,什么是IO呢? 对于网络的学习当中,实际上也是一种IO,数据从计算…

使用vite创建一个react18项目

一、vite是什么? vite 是一种新型前端构建工具,能够显著提升前端开发体验。它主要由两部分组成: 一个开发服务器,它基于原生 ES 模块提供了丰富的内建功能,如速度快到惊人的模块热更新(HMR)。 …

博客部署004-centos安装mysql及redis

1、如何查看当前centos版本? cat /etc/os-release 2、安装mysql 我的是centos8版本,使用dnf命令 2.1 CentOS 7/8: sudo yum install -y mysql-community-server 或者在CentOS 8上,使用DNF:🌟 sudo dnf install -y mysql-ser…

探秘MIMO技术:无线通信革命的多天线奇迹

单根发射天线和单根接收天线之间的信道容量受限于香农公式,要想在相同的频谱带宽下进一步提高信道容量,要采用多天线技术。 1. 什么是MIMO MIMO:Multiple-Input Multiple-Output,即多入多出系统。这里的入和出是相对于发射天线和…

力控机器人原理及力控制实现

力控机器人原理及力控制实现 力控机器人是一种能够感知力量并具有实时控制能力的机器人系统。它们可以在与人类进行精准协作和合作时,将力传感技术(Force Sensing Technology)和控制算法(Control Algorithm)结合起来&a…

golang defer实现

derfer : 延迟调用,函数结束返回时执行,多个defer按照先进后出的顺序调用 原理:底层通过链表实现,每次新增的defer调用,通过头插法插入链表;defer执行时,从链表头开始遍历,相当于实…

Vue3_2024_7天【回顾上篇watch常见的后两种场景】

随笔:这年头工作不好找咯,大家有学历提升的赶快了,还有外出人多注意身体,没错我在深圳这边阳了,真的绝啊,最尴尬的还给朋友传染了!!! 之前三种的监听情况,监听…

Springboot注解知识-文字描述(学习笔记)

目录 一、Springboot相关注解1.前后端交互相关注解1.Controller1.1RestController 2.RequestMapping("/hello")3.RequestParam(name "username")4.DateTimeFormat( pattern"yyyy-MM-dd HH:mm:ss" )5.RequestBody6.PathVariable7.ResponesBody8.…

LabVIEW太赫兹波扫描成像系统

LabVIEW太赫兹波扫描成像系统 随着科技的不断发展,太赫兹波成像技术因其非电离性、高穿透性和高分辨率等特点,在生物医学、材料质量无损检测以及公共安全等领域得到了广泛的应用。然而,在实际操作中,封闭性较高的信号采集软件限制…

dm8数据迁移工具DTS

dm8数据迁移工具DTS DTS工具介绍 DM数据迁移工具提供了主流大型数据库迁移到DM、DM到DM、文件迁移到DM以及DM迁移到文件的功能。DM数据迁移工具采用向导方式引导用户通过简单的步骤完成需要的操作。 DM数据迁移工具支持: ◆ 主流大型数据库Oracle、SQLServer、MyS…

DC9 Debian和sql注入

信息收集 sudo arp-scan -l 列出局域网主机 arp-scan向局域网中所有可能的ip地址发出arp请求包,如果得到arp回应,就证明局域网中某台主机使用了该ip dc9的ip : 192.168.146.133 访问网页 cms为Debian 端口扫描 22端口是filtered 隐藏目…

详细分析Python爬虫中的xpath(附Demo)

目录 前言1. 基本知识2. 常用API3. 简易Demo 前言 关于爬虫的基本知识推荐阅读:Python爬虫从入门到应用(超全讲解) 该知识点需要提前安装相关依赖:pip install lxml 1. 基本知识 XPath(XML Path Language&#xf…

Centos添加FTP用户指定解释器为/sbin/nologin导致FTP无法登录(530 Login incorrect)的问题

Centos vsftpd 配置时,添加FTP用户时为了禁止ssh登录、仅用于FTP登录而指定解释器为/sbin/nologin,但用该用户进行FTP登录时报错 530 Login incorrect. [rootlocalhost data]# useradd ftpuser03 -d /data/ftp/ftpuser03 -s /sbin/nologin [rootlocalho…

android aidl 注册回调对象

资料一: 首先说说什么叫回调函数? 在WINDOWS中,程序员想让系统DLL调用自己编写的一个方法,于是利用DLL当中回调函数(CALLBACK)的接口来编写程序,使它调用,这个就 称为回调。在调用接…