【51CTO.com快译】目前,从搜索引擎与情感分析,到虚拟助手与聊天机器人,机器学习应用场景中的许多研究领域,都需要通过文本注释工具与服务来提供准确性。在AI研究与开发行业中,发现或创建可注释的数据对于项目团队而言,是一项昂贵而艰巨的任务。因此,人们经常把那些持有大量高质量已注释数据的团队,戏称为“家里有矿”。不过幸运的是,业界有着许多可用于文本注释的工具和服务,能够帮助我们获取所需的数据,进而实现包括实体提取、词性标注、以及情感分析在内的各种操作。
下面,我将和您一起探讨目前十大针对机器学习的文本注释工具与服务。您可以根据自己项目的实际情况,从中做出选择并试用。
1. Tagtog
Tagtog是一款由波兰软件公司开发的工具,可用于自动化或手动注释文本。Tagtog既支持原生的PDF注释,又包含了可用于自动化文本注释的预训练NER(Named Entity Recognition,命名实体识别)模型。除了Tagtog工具,该公司还拥有来自各个领域的专家网络,能够为文本注释提供专业的服务。
2. LightTag
LightTag工具能够方便企业和项目成员在内部平台上,标记其文本数据。在套餐设计方面,尽管该工具的入门包是免费的,但是不同级别的工具包,有着不同的售价,以及每个月可提供注释的数量限制。其中,免费版的数量是每月1000个注释。
3. Lionbridge AI
专门从事语言学研究的Lionbridge,不但拥有百万用户规模的社区,而且能够支持三百多种语言。通常,它能够提供的文本注释服务包括:文本提取、情感分类、实体注释、命名实体识别、以及语言成分分析等。此外,Lionbridge还提供了一种可以自定义数据注释软件,以方便用户团队将其授权并应用到各种文本注释的项目中。
4.Scale
总部位于旧金山的Scale,是计算机视觉和NLP(Natural Language Processing,自然语言处理)数据注释服务的提供商。通过将人工干预与Scale平台相结合,该公司提供了诸如OCR转录、文本分类与比较等文本注释类型的服务。
5. KConnect
许多AI研究人员和开发团队往往会碰到的一个问题是:如何才能访问到那些隶属于高度专业化领域的AI训练数据。KConnect团队就致力于帮助注释者用户快速、有效地对医疗领域的数据进行分类和注释。具体而言,KConnect为医疗类信息提供了语义注释、文本分析、以及语义搜索等服务。
6. Clickworker
总部位于美国和德国Clickworker,是一家众包公司。它拥有庞大的从业团队,能够执行各项任务。他们在文本注释领域所提供的服务包括:情感分析与分类。
7. ParallelDots Text Annotation API
ParallelDots能够提供文本注释类工具和多种API。他们的解决方案包括:情感分析、情绪分析、关键字提取器、以及命名实体识别等。
8. Appen
作为一种以众多形式实现AI训练数据的服务,Appen拥有来自各个国家的大量贡献者。它所提供的文本注释服务涵括了:情感注释、意图注释、以及命名实体注释等方面。
9. Dandelion API
源自意大利的Dandelion API提供了丰富的自动化文本注释工具。尽管它是该领域相对较新的创业公司,但是其工具可被用于实体提取、情感分析、以及文本与内容分类等不同场景中。
10. Dataturks Text Annotation Tools
借助着数据注释内部API、以及上千家合作外包公司,Dataturks能够提供各种图像和文本注释的工具。具体而言,它的文本标记功能包括:文本分类、命名实体识别、以及词性标记等。
借助上述各种先进的文本注释工具,相信您的团队能够构建出属于自己的自定义工作流程和数据注释平台,并能够满足特定应用场景的项目需求。
原文标题:10 Best Text Annotation Tools and Services for Machine Learning,作者: Limarc Ambalina
【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】