Doccano
doccano 是一个面向人类的开源文本注释工具。它为文本分类、序列标记和序列到序列任务提供注释功能。您可以创建用于情感分析、命名实体识别、文本摘要等的标记数据。只需创建一个项目,上传数据,然后开始注释。您可以在数小时内构建数据集。
支持命名实体识别,情感分类,机器翻译任务,界面比较友好。
- 当前公司私有化部署的地址:(
当前挂掉了,后端处理中) - git:https://github.com/doccano/doccano
技术方案
前端:vue2 + nuxt
后端:python
技术难点
- 标注工具编辑器部分组件
功能:
- 支持标注 Label
- 支持关系 Relation
开源组件:
- vue 组件:
-
- https://www.npmjs.com/package/v-annotator
- https://github.com/doccano/v-annotator/blob/master/package.json
- demo:https://github.com/doccano/doccano/blob/93cfd52924378bd2c8e109fff2b072199ff2e8bc/frontend/pages/demo/named-entity-recognition/index.vue
<v-annotator:dark="$vuetify.theme.dark":rtl="rtl":text="text" //文本内容:entities="entities" // 注解内容:entity-labels="entityLabels" // 注解标签:relations="relations"// 关系内容:relation-labels="relationLabels" // 关系标签:allow-overlapping="allowOverlapping":grapheme-mode="graphemeMode":selected-entities="selectedEntities"@add:entity="handleAddEvent" // 添加注解内容@click:entity="onEntityClicked" // 点击注解@click:relation="onRelationClicked" // 点击关系@addRelation="addRelation" // 添加 关系@contextmenu:entity="deleteEntity" // 右键菜单点击@contextmenu:relation="deleteRelation" // 右键菜单点击/><entity-editor:dark="$vuetify.theme.dark":rtl="rtl":text="currentDoc.text":entities="currentDoc.annotations":entity-labels="entityLabels":relations="relations":relation-labels="relationLabels":allow-overlapping="allowOverlapping"@addEntity="addEntity"@click:entity="updateEntity"@contextmenu:entity="deleteEntity"@contextmenu:relation="deleteRelation"/>
- react 组件
https://github.com/microsoft/react-text-annotator
当前看 v-annotator 是 doccanno 封装的一个组件,react 这个组件要分析一下是不是支持当前的特性
代码如下:
import {AnnotationData, Labeler} from 'react-text-annotator'const HomePage: React.FC = () => {const annotations: AnnotationData[] = [{id: 'id1',color: 'red',endToken: 5,startToken: 0,name: 'label111111',kind: 'label',onClick:(e) => {console.log(e);},level: 1,// 设置层级onRenderTooltip: (e) =><>label111111</>},{id: 'id1',color: 'green',endToken: 5,startToken: 1,name: 'label222222',kind: 'label',onRenderTooltip: (e) =><>label222222</>},{id: 'id2',color: 'blue',endToken: 25,startToken: 10,name: 'relation',kind: 'relation',}
];const labelerText = 'This is sample text to test the labeler functionality.';return <><Labeler text={labelerText} annotations={annotations} labelerConfigs={{ isAnnotationResizingEnabled: true,isRtl: false, tokenizationType: 'character' }} labelerOverflow={'scroll'}labelerHeight={"100px"}/>
</>;
};export default HomePage;
下面的了解即可
YEDDA:(2016)(python)
优点是安装方便,程序很小,标注方便,如果要实现给同一个实体加多个标签,也可以实现。最大标签数8,界面也还过的去。
YEDDA(以前的 SUTDAnnotator)是为在文本(几乎所有语言,包括英语、中文)、符号甚至表情符号上注释块/实体/事件而开发的。它支持快捷注释,对于手动注释文本非常有效。用户只需选择文本范围并按快捷键,该范围就会自动注释。它还支持命令注释模型,可以批量注释多个实体,并支持将注释文本导出为序列文本。此外,更新版本还增加了智能推荐和管理员分析。它兼容所有主流操作系统,包括Windows、Linux和MacOS。
https://github.com/jiesutd/YEDDA
python
Prodigy(2017):
Prodigy 是一种现代注释工具, 用于为机器学习模型创建训练和评估数据。您还可以使用 Prodigy 来帮助您检查和清理数据、进行错误分析以及开发基于规则的系统以与统计模型结合使用。
https://prodi.gy/docs/
Python library
Chinese-Annotator:(2017)
基于prodigy的中文标注工具
https://github.com/deepwel/Chinese-Annotator
demo:https://demo.prodi.gy/?=null&view_id=textcat
技术方案:
- vue2 element
- Python
Brat:(2010)
支持实体、关系、事件抽取的标注。可以标注情感。
优点在标注实体的同时可以进行关系标注,还可以实现二级标注。
brat rapid annotation tool
GitHub - nlplab/brat: brat rapid annotation tool (brat) - for all your textual annotation needs
技术方案
- jq
- Python
IEPY
主要用来信息抽取和关系抽取任务
https://github.com/machinalis/iepy
DeepDive
主要用来关系抽取任务,17就停止更新了
http://deepdive.stanford.edu/#documentation
个人小结
大致可以选用Brat,Doccano,YEDDA,Prodigy试一下,选用Brat是因为有现成的中文情感标注,还有Brat有关系标注,选用Doccano是它的页面很友好,而且可添加的标签数也比较多,选用YEDDA是它完全用Python桌面开发且支持中文,选用Prodigy是因为支持标注的功能最全。
中文分词工具(分词工具有的也可以做命名实体识别和词性标注,可以去看看)
中科院计算所NLPIR http://ictclas.nlpir.org/nlpir/
ansj分词器 https://github.com/NLPchina/ansj_seg
哈工大的LTP https://github.com/HIT-SCIR/ltp
清华大学THULAC https://github.com/thunlp/THULAC
斯坦福分词器 https://nlp.stanford.edu/software/segmenter.shtml
Hanlp分词器 https://github.com/hankcs/HanLP
结巴分词 https://github.com/yanyiwu/cppjieba
KCWS分词器(字嵌入+Bi-LSTM+CRF) https://github.com/koth/kcws
ZPar https://github.com/frcchang/zpar/releases
IKAnalyzer https://github.com/wks/ik-analy