Windows安装和使用Doccano标注工具

简介

开源链接:GitHub - doccano/doccano: Open source annotation tool for machine learning practitioners.

Open source annotation tool for machine learning practitioners.

Doccano是一款开源的文本标注工具,由人工智能公司Hironsan开发并在GitHub上发布。它提供了一个直观而功能强大的用户界面,使用户可以轻松地进行文本标注、数据注释和标注项目的管理。Doccano支持多种类型的标注任务,例如命名实体识别、情感分析、文本分类等。

Doccano是Documment anotation的缩写,是一个开源的文本标注工具,我们可以用它为情感分析、命名实体识别、文本摘要、意图识别、插槽填充、图片分类等NLP任务的语料库打标签。

Doccano的特点:

  • 用户友好的界面:Doccano的界面设计简洁直观,无需编程经验即可轻松上手。用户可以通过拖放和选择标签等方式进行标注,同时还提供了实时预览和反馈功能。
  • 多用户协作:Doccano支持多用户协作,团队成员可以共同参与标注项目,并通过评论和讨论功能进行实时沟通和协作。
  • 自定义标签模式:Doccano允许用户自定义标签,以适应不同的标注任务和领域需求。用户可以根据具体情况创建自己的标签集合,并为每个标签定义相应的颜色和含义。
  • 可扩展性:Doccano是开源工具,用户可以根据需要进行自定义扩展和功能添加。此外,它支持多种数据格式的导入和导出,包括JSON、CSV等。

电脑环境

操作系统名称:Microsoft Windows 11 家庭中文版

系统类型:基于 x64 的电脑

电脑已安装了docker desktop和MinGW-w64

关于Docker安装,可以参考windows安装Docker Desktop及国内镜像

MinGW 的全称是:Minimalist GNU on Windows 。它实际上是将经典的开源 C语言 编译器 GCC 移植到了 Windows 平台下,并且包含了 Win32API ,因此可以将源代码编译为可在 Windows 中运行的可执行程序。而且还可以使用一些 Windows 不具备的,Linux平台下的开发工具。更多信息可以访问MinGW官网。MinGW-w64 的代码和可执行文件被托管存储在 SourceForge 上,安装包下载访问: MinGW-w64 - for 32 and 64 bit Windows - Browse /mingw-w64/mingw-w64-release at SourceForge.net

安装和启动

根据Doccano官方介绍,给出了三种安装方式:

  • pip (Python 3.8+)
  • Docker: 通过docker pull直接拉取(下载)镜像
  • Docker Compose:从git仓库下载源码,然后指定环境变量后创建并启动容器。

我的电脑已安装了docker和MinGW-w64,所以直接用较为简单的Docker pull方式安装 Doccano镜像资源。

按照Docker方式安装,步骤如下:

注意一定是在MinGW32窗口运行,不能直接在windows命令行窗口运行,否则即使可以运行下面命令,但是无法启动容器)

(可能原因是:Windows 10 或 Windows 11 专业版或企业版支持运行 Windows 容器,但是Windows 家庭版或教育版仅支持运行 Linux 容器)

1、拉取镜像资源

docker pull doccano/doccano

2、作为一次性设置,按如下方式创建Docker容器

docker container create --name doccano \-e "ADMIN_USERNAME=admin" \-e "ADMIN_EMAIL=admin@example.com" \-e "ADMIN_PASSWORD=password" \-v doccano-db:/data \-p 8000:8000 doccano/doccano

3、接下来,通过运行容器启动doccano:

docker container start doccano

容器已启动,最后在浏览器运行:http://127.0.0.1:8000/

注1:如果要停止容器,请运行

docker container stop doccano-t 5

这是一种优雅停止(Graceful Shutdown)的方式,给它 5 秒的时间来完成任何必要的清理操作。如果 5 秒后容器仍未停止,Docker 将强制停止它。

注2:如果要使用最新功能,请指定nightly标签:

docker pull doccano/doccano:nightly

使用Doccano进行标注任务

进入浏览器运行:http://127.0.0.1:8000/

点击“快速开始”, 会进入到登录页码:

整理的用户名和密码就是我们前面在创建docker容器时,设置的管理员参数(这里只是示例,参数值可以自行修改):

-e "ADMIN_USERNAME=admin" \

-e "ADMIN_EMAIL=admin@example.com" \

-e "ADMIN_PASSWORD=password" \

登录后,我们就可以创建项目,开展我们的标注任务了。

点击创建项目,有下面九种项目类型可以选择,填写:项目名称、描述和Tags(项目标签,它不是标注内容标签),以及勾选标注任务管理相关的选项(是否允许项目成员创建标签类型、文档按顺序还是打散排列、标注结果所有成员共享可见)。

注:如果前端页面展示全部是英文,可以点击右上角的语言选项,设置中文展示。

标注项目创建完后,我们就可以点击项目,进入到了该项目的“数据标注平台”页面。

在该页面,我们可以导入数据集、添加成员、创建或导入任务内容标签、统计和导出结果等。

总结一下,使用Doccano进行标注任务的步骤如下:

  1. 准备数据:将待标注的文本数据导入Doccano,可以是文本文件或数据集。
  2. 创建标注项目:在Doccano中创建一个新的标注项目,并定义标签集合。
  3. 标注文本:使用Doccano提供的界面工具,对文本进行标注。可以选择文本片段、标注对应的标签,并添加注释。
  4. 数据管理和导出:管理标注项目,查看已标注和未标注的文本,进行数据的导入和导出。

NOTE:doccano支持TextFile、TextLine、JSONL和CoNLL四种数据上传格式,在百度PaddleNLP的UIE(通用信息抽取)定制训练中统一使用TextLine这一文件格式,即上传的文件需要为txt格式,且在数据标注时,该文件的每一行待标注文本显示为一页内容。

上传文件:将文件拖入,点击左下角导入。

参考:

强烈推荐:数据标注平台doccano----简介、安装、使用、踩坑记录

超越传统标注方法:doccano平台提供智能化数据标注解决方案-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/44388.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【算法】代码随想录之数组

文章目录 前言 一、二分查找法(LeetCode--704) 二、移除元素(LeetCode--27) 三、有序数组的平方(LeetCode--977) 四、长度最小的子数组(LeetCode--209) 五、螺旋矩阵II&#x…

花几千上万学习Java,真没必要!(二)

1、注释: java代码注释分3种: 单行注释://注释信息 多行注释: /*注释信息*/ 文档注释:/**注释信息*/ public class TestComments {// 这是单行注释,用于注释单行代码或解释代码功能/* 这是多行注释,用于注释多行代码…

Kotlin runCatching try-catch耗时比较

Kotlin runCatching try-catch耗时比较 fun main(args: Array<String>) {val lists arrayListOf("z")val idx 10/***纳秒统计** ns&#xff08;nanosecond&#xff09;&#xff1a;纳秒。一秒的10亿分之一&#xff0c;10的-9次方秒。*   1纳秒0.000001 毫秒…

基于实现Runnable接口的java多线程

Java多线程通常可以通过继承Thread类或者实现Runnable接口实现。本文主要介绍实现Runnable接口的java多线程的方法, 并通过ThreadPoolTaskExecutor调用执行&#xff0c;以及应用场景。 一、应用场景 异步、并行、子任务、磁盘读写、数据库查询、网络请求等耗时操作等。 以下…

笔记:在Entity Framework Core中如何处理多线程操作DbContext

一、目的&#xff1a; 在使用Entity Framework Core (EF Core) 进行多线程操作时&#xff0c;需要特别注意&#xff0c;因为DbContext类并不是线程安全的。这意味着&#xff0c;你不能从多个线程同时使用同一个DbContext实例进行操作。尝试这样做可能会导致数据损坏、异常或不可…

C语言排序之快速排序

快速排序是一种高效的排序算法。它采用了分治的策略&#xff0c;通过选择一个基准元素&#xff0c;将待排序的序列划分为两部分&#xff0c;一部分的元素都比基准元素小&#xff0c;另一部分的元素都比基准元素大&#xff0c;然后对这两部分分别进行快速排序&#xff0c;从而实…

前端开发工具

Lodash 有普通的 CommonJS 版本&#xff08;通常称为 lodash&#xff09;和 ES6 模块版本&#xff08;称为 lodash-es&#xff09;。它们的主要区别包括&#xff1a; 模块化&#xff1a;lodash 是传统的 CommonJS 模块&#xff0c;可使用 require 或 import 引入&#xff1b;lo…

2024年,搞AI就别卷模型了

你好&#xff0c;我是三桥君 2022年11月30日&#xff0c;OpenAI发布了一款全新的对话式通用人工智能工具——ChatGPT。 该工具发布后&#xff0c;仅用5天时间就吸引了100万活跃用户&#xff0c;而在短短2个月内&#xff0c;其活跃用户数更是飙升至1亿&#xff0c;成为历史上增…

ARP协议介绍与ARP协议的攻击手法

ARP是什么&#xff1f; ARP是通过网络地址&#xff08;IP&#xff09;来定位机器MAC地址的协议&#xff0c;它通过解析网络层地址&#xff08;IP&#xff09;来找寻数据链路层地址&#xff08;MAC&#xff09;的网络传输协议。 对个定义不能理解的话&#xff0c;可以结合 TCP/I…

《恋与深空》2.0上线肉鸽模式,乙游玩家会买账吗?

乙游和肉鸽&#xff0c;看似八竿子打不着的两个赛道&#xff0c;被叠纸给融合起来了。 根据《恋与深空》官方消息&#xff0c;即将在7月15日更新的2.0交错视界版本中&#xff0c;会上线全新常驻玩法“混沌深网”&#xff0c;配置高随机性Roguelike模式&#xff0c;并搭载了管理…

理想文档发布了~一个集合了多个优秀开源项目的在线云文档

两年前我做了一个简单的在线云文档项目&#xff0c;选择了开源的思维导图、白板、流程图、幻灯片等项目&#xff0c;在它们基础上添加了云存储的功能&#xff0c;然后写了一个简单的工作台管理文件夹和文件&#xff1a; 放在了自己的个人网站上使用&#xff0c;同时写了一篇水文…

【Leetcode 每日一题】349. 两个数组的交集

给定两个数组 nums1 和 nums2 &#xff0c;返回 它们的 交集 。输出结果中的每个元素一定是 唯一 的。我们可以 不考虑输出结果的顺序 。 示例 1&#xff1a; 输入&#xff1a;nums1 [1,2,2,1], nums2 [2,2] 输出&#xff1a;[2]示例 2&#xff1a; 输入&#xff1a;nums…

[web]-代码审计-运维失误

打开页面可以看到如下&#xff1a; 1、查看源代码&#xff0c;发现验证码功能是正常生成的随机的&#xff0c;输入也没有过滤&#xff0c;无法采用爆破。 2、根据题目提示运维失误&#xff0c;使用dirsearch扫描&#xff0c;发现提交的地址check.php, 使用php5、.bak可以打开&…

2.The DispatcherServlet

The DispatcherServlet Spring的Web MVC框架与许多其他Web MVC框架一样&#xff0c;是请求驱动的&#xff0c;围绕一个中央Servlet&#xff08;即DispatcherServlet&#xff09;设计&#xff0c;该Servlet将请求分派给控制器&#xff0c;并提供其他功能以促进Web应用程序的开发…

创建I/O文件fopen

#include〈stdio.h〉 int mian(int argc,char *argv[]){ FILE *fp;//结构体fp fpfopen&#xff08;“1.txt”&#xff0c;“r”&#xff09;; }

程序的控制结构——if-else语句(双分支结构)【互三互三】

目录 &#x1f341; 引言 &#x1f341;if-else语句&#xff08;双分支结构&#xff09; &#x1f449;格式1&#xff1a; &#x1f449;功能&#xff1a; &#x1f449;程序设计风格提示&#xff1a; &#x1f449;例题 &#x1f449;格式2&#xff1a; &#x1f449;…

Monaco 使用 ColorProvider

Manco 中可以使用调色板对色值进行修改&#xff0c;首先看一下调色版效果。 调色板是 Monaco-Editor 中一个特别的组件&#xff0c;通过两个方法实现呼出调色板&#xff0c;provideColorPresentations 显示调色窗口&#xff0c;provideDocumentColors 监听页面的变更&#xff0…

如何将libwebsockets库编译为x86架构

在之前的文章中&#xff0c;我们已经详细介绍了如何交叉编译libwebsockets并将其部署到ELF 1开发板上。然而在调试阶段&#xff0c;发现将libwebsockets在Ubuntu环境下编译为x86架构可能更为方便和高效。 通过在主机环境中编译运用x86架构下的libwebsockets库&#xff0c;可以…

阿里ChatSDK使用,开箱即用聊天框

介绍&#xff1a; 效果&#xff1a;智能助理 ChatSDK&#xff0c;是在ChatUI的基础上&#xff0c;结合阿里云智能客服的最佳实践&#xff0c;沉淀和总结出来的一个开箱即用的&#xff0c;可快速搭建智能对话机器人的框架。它简单易上手&#xff0c;通过简单的配置就能搭建出对…

Flowable工作流引擎核心事件详细解释说明

Flowable工作流引擎核心事件详细解释说明 流程执行事件 需要了解全部详细事件的请看这个链接Flowable&#xff08;一个开源的工作流和业务流程管理引擎&#xff09;中与事件相关的一些核心概念 流程开始和结束事件 PROCESS_STARTED&#xff1a;标记流程实例的开始。PROCESS…