示例项目(模版)
Potato 旨在提高数据标注的可复制性,并降低研究人员设置新标注任务的成本。因此,Potato 提供了一系列预定义的示例项目,并欢迎公众向项目中心贡献。如果您使用 Potato 进行了自己的标注工作,也鼓励用户创建一个 pull request 并发布您的标注设置。
Potato 提供了一系列示例模板,用于 所有支持的标注架构,您可以轻松地通过以下方式从项目中心下载它们。
本文给出几个在大模型文本标注训练中,常用到的几种标注事例。
阅读理解(Question Answering / Reading comprehension (SQuAD style))
原文(翻译):2014年10月,碧昂斯与英国时尚零售商Topshop签署了一项协议,将推出一系列运动服。这家五五开的合资企业名为Parkwood Topshop Athletic Ltd,计划于2015年秋季推出其首个舞蹈、健身和运动系列。该线路将于2016年4月开通。
问题(翻译):英国与碧昂斯的合作销售哪种服装?
该项标注功能: 如果该问题的答案在原文中可以找到,使用鼠标高亮选择。另外,支持多处选择; 已选择的文本,双击鼠标,可以消除掉。较为方便。
文本匹配(match_finding)
(base) d:\study\potato>python potato/flask_server.py start project-hub/match_finding/configs/Computer_Science.yaml -p 8000
解释一下,标注原因:
标注得分:3.Somewhat similar
这是因为两者都涉及到了行李费与航空公司起飞性能的关系,但在具体描述和角度上存在差异。news没有区分不同类型的航空公司,而是普遍强调了正面影响;而paper则具体指出了不同类型航空公司之间的性能差异。
文本摘要(Summarization evaluation)
(base) d:\study\potato>python potato/flask_server.py start project-hub/summarization_evaluation/configs/summ-eval.yaml -p 8000
- 四个重要评估维度。
-
- 相关性(relevance):摘要包含的信息是否为文中重要信息。
- 一致性(consistency):摘要是否有事实性错误。本文关注的忠实度(faithfulness)也和一致性较为相关。
- 流畅性(fluency):摘要中的单个句子是否通顺。
- 连贯性(coherence):摘要整体是否行文流畅连贯。
参考: 【NLP学习】如何评估文本摘要模型的忠实度(faithfulness)
文本改写(Text Rewriting)
实例中,给出的是一个更加礼貌性(politeness)的改写:
(base) d:\study\potato>python potato/flask_server.py start project-hub/text_rewriting/configs/politeness.yaml -p 8000
原文(翻译):Shelley,仅供参考。蕾塔在这个项目上与丽塔密切合作。里克和我也会参与其中。如果您有任何问题,
请告诉我们。谢谢林恩
要求(翻译):你的同事正在起草一封电子邮件,并请求你的帮助。请帮忙重写以上信息,使其更有礼貌。
更多实例,可以参考官网: Example Projects - potato annotation
也欢迎一起探讨学习!!