Potato（土豆）一款轻量级的开源文本标注工具（二）

Potato（土豆）一款轻量级的开源文本标注工具（二）

diannao/2025/4/7 15:20:58/文章来源:https://blog.csdn.net/weixin_42458975/article/details/140022027

示例项目（模版）

Potato 旨在提高数据标注的可复制性，并降低研究人员设置新标注任务的成本。因此，Potato 提供了一系列预定义的示例项目，并欢迎公众向项目中心贡献。如果您使用 Potato 进行了自己的标注工作，也鼓励用户创建一个 pull request 并发布您的标注设置。

Potato 提供了一系列示例模板，用于所有支持的标注架构，您可以轻松地通过以下方式从项目中心下载它们。

本文给出几个在大模型文本标注训练中，常用到的几种标注事例。

阅读理解（Question Answering / Reading comprehension (SQuAD style)）

原文（翻译）：2014年10月，碧昂斯与英国时尚零售商Topshop签署了一项协议，将推出一系列运动服。这家五五开的合资企业名为Parkwood Topshop Athletic Ltd，计划于2015年秋季推出其首个舞蹈、健身和运动系列。该线路将于2016年4月开通。

问题（翻译）：英国与碧昂斯的合作销售哪种服装？

该项标注功能： 如果该问题的答案在原文中可以找到，使用鼠标高亮选择。另外，支持多处选择；已选择的文本，双击鼠标，可以消除掉。较为方便。

文本匹配（match_finding）

(base) d:\study\potato>python potato/flask_server.py start project-hub/match_finding/configs/Computer_Science.yaml -p 8000

解释一下，标注原因：

标注得分：3.Somewhat similar

这是因为两者都涉及到了行李费与航空公司起飞性能的关系，但在具体描述和角度上存在差异。news没有区分不同类型的航空公司，而是普遍强调了正面影响；而paper则具体指出了不同类型航空公司之间的性能差异。

文本摘要（Summarization evaluation）

(base) d:\study\potato>python potato/flask_server.py start project-hub/summarization_evaluation/configs/summ-eval.yaml -p 8000

四个重要评估维度。

- 相关性（relevance）：摘要包含的信息是否为文中重要信息。
- 一致性（consistency）：摘要是否有事实性错误。本文关注的忠实度（faithfulness）也和一致性较为相关。
- 流畅性（fluency）：摘要中的单个句子是否通顺。
- 连贯性（coherence）：摘要整体是否行文流畅连贯。

参考：【NLP学习】如何评估文本摘要模型的忠实度（faithfulness）

文本改写（Text Rewriting）

实例中，给出的是一个更加礼貌性（politeness）的改写：

(base) d:\study\potato>python potato/flask_server.py start project-hub/text_rewriting/configs/politeness.yaml -p 8000

原文（翻译）：Shelley，仅供参考。蕾塔在这个项目上与丽塔密切合作。里克和我也会参与其中。如果您有任何问题，

请告诉我们。谢谢林恩

要求（翻译）：你的同事正在起草一封电子邮件，并请求你的帮助。请帮忙重写以上信息，使其更有礼貌。

更多实例，可以参考官网： Example Projects - potato annotation

也欢迎一起探讨学习！！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/36575.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

海思平台使用ITTP_Stream调试sensor

海思平台使用ITTP_Stream调试sensor

目录相关资料1.ISP相关资料2.MIPI RX相关资料3.sensor资料4.MIPI标准准备工作1.准备sensor驱动2.准备sample vio3.准备上位机和下位机程序运行1.只运行HiPQTool1.1.板端运行1.2.PC端运行HiPQTool 2.使用ITTP_Stream2.1.板端运行2.2.打开上位机软件相关资料 1.ISP相关资料 …

阅读更多...

uniapp开发手机APP、H5网页、微信小程序、长列表插件

uniapp开发手机APP、H5网页、微信小程序、长列表插件

ml-list 插件地址：https://ext.dcloud.net.cn/plugin?id18928 ml-list介绍 1、ml-list 列表组件，包含基本列表样式、可扩展插槽机制、长列表性能优化、多端兼容。 2、ml-list 低代码列表，帮助使用者快速构建列表，简单配置&…

阅读更多...

秋招突击——6/26~6/27——复习{二维背包问题——宠物小精灵之收服}——新作{串联所有单词的字串}

秋招突击——6/26~6/27——复习{二维背包问题——宠物小精灵之收服}——新作{串联所有单词的字串}

文章目录引言复习二维背包问题——宠物小精灵之收服个人实现重大问题滚动数组优化实现新作串联所有单词的字串个人实现参考实现总结引言今天应该是舟车劳顿的一天，头一次在机场刷题，不学习新的东西了，就复习一些之前学习的算法了。复…

阅读更多...

百度Apollo的PublicRoadPlanner一些移植Ros2-foxy的思路（持续更新）

百度Apollo的PublicRoadPlanner一些移植Ros2-foxy的思路（持续更新）

如今的PublicRoadPlanner就是之前耳熟能详的EM planner 计划 —— ROS2与CARLA联合仿真结构化场景：规划算法：EM-planner 控制算法：MPC和PID 非结构化场景：规划算法采用Hybrid A* （1）小车模型搭建（计划参考Github上Hybrid上的黑车，比较炫酷）（2）车辆里程计：位…

阅读更多...

深入比较：Batch文件与Shell脚本的异同

深入比较：Batch文件与Shell脚本的异同

在操作系统中，自动化脚本是一种常见的工具，用于执行一系列自动化命令或程序。Windows和类Unix系统都提供了各自的脚本解决方案：Batch文件（在Windows中）和Shell脚本（在类Unix系统中）。本文将详细…

阅读更多...

有哪些方法可以恢复ios15不小心删除的照片？

有哪些方法可以恢复ios15不小心删除的照片？

ios15怎么恢复删除的照片？在手机相册里意外删除了重要的照片？别担心！本文将为你介绍如何在iOS 15系统中恢复已删除的照片。无需专业知识，只需要按照以下步骤操作，你就能轻松找回宝贵的回忆。一、从iCloud云端恢复删除…

阅读更多...

SRC公益上分的小技巧一

SRC公益上分的小技巧一

前言之前发布的文章，例如SRC中的一些信息收集姿势- Track 知识社区 - 掌控安全在线教育 - Powered by 掌控者里面就有提到若依系统，默认账号密码非常简单是 admin / admin123 但是，往往我们去挖掘的时候很容易出现这说明了若依系统的门…

阅读更多...

Viewer.js 图片预览插件使用

Viewer.js 图片预览插件使用

参考：Viewer.js 图片预览插件使用 demo链接：viewerjs_demo

阅读更多...

【Linux：文件描述符】

【Linux：文件描述符】

文件描述符： 文件描述符的分配原则：最小未分配原则每一个进程中有一个task_struct结构体（PCB)，而task_struct中含有struct file_sturct*file的指针，该指针指向了一个struct files_struct的结构体该结构体中含有一个f…

阅读更多...

PHP框架详解- symfony框架

PHP框架详解- symfony框架

Symfony框架是一个开源的PHP框架，由SensioLabs公司开发并维护，最早发布于2005年。它旨在为Web应用程序的开发提供一个高效且结构化的环境。Symfony框架的设计理念是减少Web应用程序的创建和维护时间，并避免重复性任务。 Symfony框架采用MVC&…

阅读更多...

PG最大连接数

PG最大连接数

在 PostgreSQL 数据库中，您可以使用 SQL 查询来获取最大连接数、当前连接数以及每个数据库的连接数。以下是一些常用的查询： 查看最大连接数： PostgreSQL 的最大连接数由配置参数 max_connections 决定。您可以在 postgresql.conf 文件中设置…

阅读更多...

使用IMAP服务获取163邮箱的未读邮件

使用IMAP服务获取163邮箱的未读邮件

使用IMAP服务获取163邮箱的未读邮件整体的逻辑思路如下： 开启163邮箱的IMAP服务，拿到授权码用于登录IMAP服务登录IMAP服务，获取邮箱的未读邮件列表遍历未读邮件列表，获取邮件内容 # 导入必要的库 import os import imaplib im…

阅读更多...

三大工作流引擎技术Activiti、Flowable、Camunda选型指南

三大工作流引擎技术Activiti、Flowable、Camunda选型指南

文章目录前言1 流程引擎发展历程2 流程引擎主要概念BPM (Business Process Management)BPMN (Business Process Model and Notation)CMMN (Case Management Model and Notation)DMN (Decision Model and Notation)事件（Event）顺序流（Sequenc…

阅读更多...

从静电到浪涌，全面防护：雷卯多电压等级电源保护设计方案汇总

从静电到浪涌，全面防护：雷卯多电压等级电源保护设计方案汇总

在当今数字化、电气化日益加速的时代，电子设备和电力系统面临着前所未有的挑战，其中静电放电(ESD)、浪涌以及雷击等瞬态事件成为了威胁设备稳定性和寿命的关键因素。从精密的消费电子产品到工业级控制系统，从智能家居到新能源汽车&#xff0c…

阅读更多...

区块链技术的核心要素：共识机制、加密技术与分布式账本

区块链技术的核心要素：共识机制、加密技术与分布式账本

区块链听起来像个非常高大上的技术，其实它的核心原理并不难理解。今天我们要聊的就是区块链的三个核心要素：共识机制、加密技术和分布式账本。想象一下区块链是一个巨大的数字笔记本，我们要弄清楚大家如何共同写这个笔记本，又如何…

阅读更多...

用一个实例看如何分享大量照片续篇二，关于Exif (Exchangeable Image File) - 可交换图像文件

用一个实例看如何分享大量照片续篇二，关于Exif (Exchangeable Image File) - 可交换图像文件

续篇二：说说关于照片隐含的 Exif (Exchangeable Image File) 可交换图像文件数码照片的Exif 参数有很多，重要的Exif信息：拍摄日期、时间、拍摄器材、GPS信息。当然这主要对自己的档案有意义，如果放到网上还是建议抹去这些信息。…

阅读更多...

$Bad owner or permissions on C:\\Users\\username/.ssh/config ＞过程试图写入的管道不存在。$

Bad owner or permissions on C:\\Users\\username/.ssh/config ＞过程试图写入的管道不存在。

使用windows连接远程服务器出现Bad owner or permissions 错误问题： 需要修复文件权限 SSH 配置文件应具有受限权限以防止未经授权的访问确保只有用户对该.ssh/config文件具有读取权限解决方案： 在windows下打开命令行，通过以下命令打开文…

阅读更多...

C++编程（四）this指针常函数常对象静态成员

C++编程（四）this指针常函数常对象静态成员

文章目录一、this指针（一）概念（二）显式使用this指针的场景1. 当形参和成员变量名一致时2. 返回对象自身的时候必须要使用this指针3. 在类中销毁一个对象二、常函数和常对象（一）常函数1. 概念2. 语法格式 …

阅读更多...

python OpenCV 库中的 cv2.Canny() 函数来对图像进行边缘检测，并显示检测到的边缘特征

python OpenCV 库中的 cv2.Canny() 函数来对图像进行边缘检测，并显示检测到的边缘特征

import cv2# 加载图像 image cv2.imread(4.png)# 使用 Canny 边缘检测算法提取边缘特征 edges cv2.Canny(image, 100, 200)# 显示边缘特征 cv2.imshow(Edges, edges) cv2.waitKey(0) cv2.destroyAllWindows() 代码解析： 导入 OpenCV 库： import cv2加…

阅读更多...

【MFC】socket通信代码解析

【MFC】socket通信代码解析

目录一、在MFC中使用Winsock进行socket编程 1.1 包含必要的头文件 1.2 初始化Winsock 1.3创建socket 1.4 绑定socket 1.5 监听连接（对于服务器） 1.6 建立连接（对于客户端） 1.7 发送和接收数据 1.8. 关闭socket 1.9 错误处理 1.10 MFC集成二、MFC中Socke…

阅读更多...

最新文章