Windows安装和使用Doccano标注工具

简介

开源链接:GitHub - doccano/doccano: Open source annotation tool for machine learning practitioners.

Open source annotation tool for machine learning practitioners.

Doccano是一款开源的文本标注工具,由人工智能公司Hironsan开发并在GitHub上发布。它提供了一个直观而功能强大的用户界面,使用户可以轻松地进行文本标注、数据注释和标注项目的管理。Doccano支持多种类型的标注任务,例如命名实体识别、情感分析、文本分类等。

Doccano是Documment anotation的缩写,是一个开源的文本标注工具,我们可以用它为情感分析、命名实体识别、文本摘要、意图识别、插槽填充、图片分类等NLP任务的语料库打标签。

Doccano的特点:

  • 用户友好的界面:Doccano的界面设计简洁直观,无需编程经验即可轻松上手。用户可以通过拖放和选择标签等方式进行标注,同时还提供了实时预览和反馈功能。
  • 多用户协作:Doccano支持多用户协作,团队成员可以共同参与标注项目,并通过评论和讨论功能进行实时沟通和协作。
  • 自定义标签模式:Doccano允许用户自定义标签,以适应不同的标注任务和领域需求。用户可以根据具体情况创建自己的标签集合,并为每个标签定义相应的颜色和含义。
  • 可扩展性:Doccano是开源工具,用户可以根据需要进行自定义扩展和功能添加。此外,它支持多种数据格式的导入和导出,包括JSON、CSV等。

电脑环境

操作系统名称:Microsoft Windows 11 家庭中文版

系统类型:基于 x64 的电脑

电脑已安装了docker desktop和MinGW-w64

关于Docker安装,可以参考windows安装Docker Desktop及国内镜像

MinGW 的全称是:Minimalist GNU on Windows 。它实际上是将经典的开源 C语言 编译器 GCC 移植到了 Windows 平台下,并且包含了 Win32API ,因此可以将源代码编译为可在 Windows 中运行的可执行程序。而且还可以使用一些 Windows 不具备的,Linux平台下的开发工具。更多信息可以访问MinGW官网。MinGW-w64 的代码和可执行文件被托管存储在 SourceForge 上,安装包下载访问: MinGW-w64 - for 32 and 64 bit Windows - Browse /mingw-w64/mingw-w64-release at SourceForge.net

安装和启动

根据Doccano官方介绍,给出了三种安装方式:

  • pip (Python 3.8+)
  • Docker: 通过docker pull直接拉取(下载)镜像
  • Docker Compose:从git仓库下载源码,然后指定环境变量后创建并启动容器。

我的电脑已安装了docker和MinGW-w64,所以直接用较为简单的Docker pull方式安装 Doccano镜像资源。

按照Docker方式安装,步骤如下:

注意一定是在MinGW32窗口运行,不能直接在windows命令行窗口运行,否则即使可以运行下面命令,但是无法启动容器)

(可能原因是:Windows 10 或 Windows 11 专业版或企业版支持运行 Windows 容器,但是Windows 家庭版或教育版仅支持运行 Linux 容器)

1、拉取镜像资源

docker pull doccano/doccano

2、作为一次性设置,按如下方式创建Docker容器

docker container create --name doccano \-e "ADMIN_USERNAME=admin" \-e "ADMIN_EMAIL=admin@example.com" \-e "ADMIN_PASSWORD=password" \-v doccano-db:/data \-p 8000:8000 doccano/doccano

3、接下来,通过运行容器启动doccano:

docker container start doccano

容器已启动,最后在浏览器运行:http://127.0.0.1:8000/

注1:如果要停止容器,请运行

docker container stop doccano-t 5

这是一种优雅停止(Graceful Shutdown)的方式,给它 5 秒的时间来完成任何必要的清理操作。如果 5 秒后容器仍未停止,Docker 将强制停止它。

注2:如果要使用最新功能,请指定nightly标签:

docker pull doccano/doccano:nightly

使用Doccano进行标注任务

进入浏览器运行:http://127.0.0.1:8000/

点击“快速开始”, 会进入到登录页码:

整理的用户名和密码就是我们前面在创建docker容器时,设置的管理员参数(这里只是示例,参数值可以自行修改):

-e "ADMIN_USERNAME=admin" \

-e "ADMIN_EMAIL=admin@example.com" \

-e "ADMIN_PASSWORD=password" \

登录后,我们就可以创建项目,开展我们的标注任务了。

点击创建项目,有下面九种项目类型可以选择,填写:项目名称、描述和Tags(项目标签,它不是标注内容标签),以及勾选标注任务管理相关的选项(是否允许项目成员创建标签类型、文档按顺序还是打散排列、标注结果所有成员共享可见)。

注:如果前端页面展示全部是英文,可以点击右上角的语言选项,设置中文展示。

标注项目创建完后,我们就可以点击项目,进入到了该项目的“数据标注平台”页面。

在该页面,我们可以导入数据集、添加成员、创建或导入任务内容标签、统计和导出结果等。

总结一下,使用Doccano进行标注任务的步骤如下:

  1. 准备数据:将待标注的文本数据导入Doccano,可以是文本文件或数据集。
  2. 创建标注项目:在Doccano中创建一个新的标注项目,并定义标签集合。
  3. 标注文本:使用Doccano提供的界面工具,对文本进行标注。可以选择文本片段、标注对应的标签,并添加注释。
  4. 数据管理和导出:管理标注项目,查看已标注和未标注的文本,进行数据的导入和导出。

NOTE:doccano支持TextFile、TextLine、JSONL和CoNLL四种数据上传格式,在百度PaddleNLP的UIE(通用信息抽取)定制训练中统一使用TextLine这一文件格式,即上传的文件需要为txt格式,且在数据标注时,该文件的每一行待标注文本显示为一页内容。

上传文件:将文件拖入,点击左下角导入。

参考:

强烈推荐:数据标注平台doccano----简介、安装、使用、踩坑记录

超越传统标注方法:doccano平台提供智能化数据标注解决方案-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/44388.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【算法】代码随想录之数组

文章目录 前言 一、二分查找法(LeetCode--704) 二、移除元素(LeetCode--27) 三、有序数组的平方(LeetCode--977) 四、长度最小的子数组(LeetCode--209) 五、螺旋矩阵II&#x…

花几千上万学习Java,真没必要!(二)

1、注释: java代码注释分3种: 单行注释://注释信息 多行注释: /*注释信息*/ 文档注释:/**注释信息*/ public class TestComments {// 这是单行注释,用于注释单行代码或解释代码功能/* 这是多行注释,用于注释多行代码…

Kotlin runCatching try-catch耗时比较

Kotlin runCatching try-catch耗时比较 fun main(args: Array<String>) {val lists arrayListOf("z")val idx 10/***纳秒统计** ns&#xff08;nanosecond&#xff09;&#xff1a;纳秒。一秒的10亿分之一&#xff0c;10的-9次方秒。*   1纳秒0.000001 毫秒…

2024年,搞AI就别卷模型了

你好&#xff0c;我是三桥君 2022年11月30日&#xff0c;OpenAI发布了一款全新的对话式通用人工智能工具——ChatGPT。 该工具发布后&#xff0c;仅用5天时间就吸引了100万活跃用户&#xff0c;而在短短2个月内&#xff0c;其活跃用户数更是飙升至1亿&#xff0c;成为历史上增…

ARP协议介绍与ARP协议的攻击手法

ARP是什么&#xff1f; ARP是通过网络地址&#xff08;IP&#xff09;来定位机器MAC地址的协议&#xff0c;它通过解析网络层地址&#xff08;IP&#xff09;来找寻数据链路层地址&#xff08;MAC&#xff09;的网络传输协议。 对个定义不能理解的话&#xff0c;可以结合 TCP/I…

《恋与深空》2.0上线肉鸽模式,乙游玩家会买账吗?

乙游和肉鸽&#xff0c;看似八竿子打不着的两个赛道&#xff0c;被叠纸给融合起来了。 根据《恋与深空》官方消息&#xff0c;即将在7月15日更新的2.0交错视界版本中&#xff0c;会上线全新常驻玩法“混沌深网”&#xff0c;配置高随机性Roguelike模式&#xff0c;并搭载了管理…

理想文档发布了~一个集合了多个优秀开源项目的在线云文档

两年前我做了一个简单的在线云文档项目&#xff0c;选择了开源的思维导图、白板、流程图、幻灯片等项目&#xff0c;在它们基础上添加了云存储的功能&#xff0c;然后写了一个简单的工作台管理文件夹和文件&#xff1a; 放在了自己的个人网站上使用&#xff0c;同时写了一篇水文…

[web]-代码审计-运维失误

打开页面可以看到如下&#xff1a; 1、查看源代码&#xff0c;发现验证码功能是正常生成的随机的&#xff0c;输入也没有过滤&#xff0c;无法采用爆破。 2、根据题目提示运维失误&#xff0c;使用dirsearch扫描&#xff0c;发现提交的地址check.php, 使用php5、.bak可以打开&…

2.The DispatcherServlet

The DispatcherServlet Spring的Web MVC框架与许多其他Web MVC框架一样&#xff0c;是请求驱动的&#xff0c;围绕一个中央Servlet&#xff08;即DispatcherServlet&#xff09;设计&#xff0c;该Servlet将请求分派给控制器&#xff0c;并提供其他功能以促进Web应用程序的开发…

程序的控制结构——if-else语句(双分支结构)【互三互三】

目录 &#x1f341; 引言 &#x1f341;if-else语句&#xff08;双分支结构&#xff09; &#x1f449;格式1&#xff1a; &#x1f449;功能&#xff1a; &#x1f449;程序设计风格提示&#xff1a; &#x1f449;例题 &#x1f449;格式2&#xff1a; &#x1f449;…

Monaco 使用 ColorProvider

Manco 中可以使用调色板对色值进行修改&#xff0c;首先看一下调色版效果。 调色板是 Monaco-Editor 中一个特别的组件&#xff0c;通过两个方法实现呼出调色板&#xff0c;provideColorPresentations 显示调色窗口&#xff0c;provideDocumentColors 监听页面的变更&#xff0…

如何将libwebsockets库编译为x86架构

在之前的文章中&#xff0c;我们已经详细介绍了如何交叉编译libwebsockets并将其部署到ELF 1开发板上。然而在调试阶段&#xff0c;发现将libwebsockets在Ubuntu环境下编译为x86架构可能更为方便和高效。 通过在主机环境中编译运用x86架构下的libwebsockets库&#xff0c;可以…

阿里ChatSDK使用,开箱即用聊天框

介绍&#xff1a; 效果&#xff1a;智能助理 ChatSDK&#xff0c;是在ChatUI的基础上&#xff0c;结合阿里云智能客服的最佳实践&#xff0c;沉淀和总结出来的一个开箱即用的&#xff0c;可快速搭建智能对话机器人的框架。它简单易上手&#xff0c;通过简单的配置就能搭建出对…

公益快报 | 中科亿海微以企业奖学金为纽带,深化校企合作

近日&#xff0c;为回报母校、激励湖南大学机器人视觉感知与控制技术国家工程研究中心广大学生&#xff0c;中科亿海微电子科技&#xff08;苏州&#xff09;有限公司&#xff08;简称“中科亿海微”&#xff09;捐赠设立企业奖学金。此项奖学金的设立标志着校企合作迈向全方位…

实现组件存储 WinSxS 文件夹解析

目录 背景 目录名的组成 解析目录结构 更新&总结 文章出处链接&#xff1a;[https://blog.csdn.net/qq_59075481/article/details/140385969]. 背景 WinSxS 文件夹位于 Windows 文件夹中&#xff0c;例如 C: \Windows\WinSxS。它是 Windows 组件存储文件的位置。 Wind…

idea启动vue项目一直卡死在51%,问题分析及其如何解决

如果你的项目也一直卡在百分之几十&#xff0c;你可以参考下面的方法&#xff0c;试一试能否解决 问题描述&#xff1a; 通过在idea终端中输入命令 npm run serve 启动vue项目&#xff0c;启动进程一直卡在51% 如何解决&#xff1a; 检查 < template > 标签中的html内容…

深度学习中的超参管理方法:argparse模块

在深度学习方法中我们不可避免地会遇到大量超参数如&#xff08;batch_size、learning_rate等&#xff09;。不同的超参数组合可以得到不同的训练/测试结果。所以在训练和测试过程中我们需要不断调整超参数获得理想的结果&#xff08;炼丹&#xff09;&#xff0c;如果每一次去…

【Windows】硬链接和软链接(OneDrive同步指定目录?)

文章目录 一、场景带入二、Windows下的硬链接和软链接2.1 硬链接&#xff08;Hard Link&#xff09;2.2 软链接&#xff08;符号链接&#xff0c;Symbolic Link&#xff09;2.3 软链接和快捷方式2.4 应用场景 三、OneDrive中的应用3.1 错误姿势3.2 好像可行的尝试3.3 合理的解决…

智能猫砂盆两种类型怎么选?深度剖析热门前三的品牌!

应该也有很多铲屎官像我一样&#xff0c;第一个入手的通常都是封闭式的智能猫砂盆&#xff0c;自动清洁是很好用&#xff0c;但问题也随之而来。有时候滚筒式的智能猫砂盆会在清洁过程中将砂团摔碎&#xff0c;导致粪便暴露出来产生臭味&#xff0c;这样我们回来不得不又再次进…

LangChain框架详解

LangChain框架详解 LangChain是一个基于语言模型开发应用程序的强大框架&#xff0c;旨在帮助开发人员简化与大模型交互、数据检索以及将不同功能模块串联起来以完成复杂任务的过程。它提供了一套丰富的工具、组件和接口&#xff0c;使开发人员能够轻松构建上下文感知和具备逻…