文本预处理跑得慢?抱抱脸团队又放福利,1GB文本语料分词只需20s!

一只小狐狸带你解锁NLP/DL/ML秘籍

正文素材来源:量子位

缘起BERT

BERT带来的并不是只有一大波paper和嗷嗷上线,还带火了一个NLP团队——Huggingface(中文译作抱抱脸)。抱抱脸团队是一个创业团队。他们的Transformers是github上最火的NLP项目,已经获得了20K星。

不过本文当然不是来讲这个transformers项目的。跑过BERT等英文预训练模型的小伙伴都深深体会过英文语料的分词套路已经被带入新一波高潮,从BERT使用的wordpiece tokenizer到XLNet用的sentencepiece tokenizer到RoBERTa/GPT用的BPE tokenizer,似乎英文分词的套路再也回不去一行str.split()就搞定的旧时代了。

燃鹅这些分词器与预训练的transformer搭配起来虽然非常好用,但是却会带来明显的分词开销。并且这些天花乱坠的新型英文分词方法并没有集成到NLTK等这种传统的NLP库里。

显然抱抱脸团队发现了NLPer们的这个需求,又为我们带来了实实在在的福利!这一次就是NLP所有预处理都需要的,英文切词项目Tokenizers

不要996,不要669,只要20秒就能编码1GB文本,适用Rust、Python和Node.js。截至今天(2020/1/15),tokenizers已经在GitHub上获1300+

速度快,功能多样

在NLP模型训练中,词语标记和切分往往是一个瓶颈。Tokenizer能够训练新的词汇,并且进行标记。

功能多样:适用于BPE/byte-level-BPE/WordPiece/SentencePiece各种NLP处理模型

可以完成所有的预处理:截断(Truncate)、填补(Pad)、添加模型需要的特殊标记。

速度超级快:只需要20秒就可以在CPU上标记1GB的文本。

目前适用三种编程语言:Rust/ Python/ Node.js

打开方式

github的资源页面上提供了在Python上使用Tokenizers的示例,进行简单的设置就可以使用:

也可以用Tokenizers进行新词训练:

虽然目前只可用于三种语言Python、JS、Rust,抱抱脸团队表示,将来会继续升级以适用更多~

快快用起来吧~

# 星标小夕 第一时间看更新哦 #

参考资料

https://github.com/huggingface/tokenizers

https://techcrunch.com/2019/12/17/hugging-face-raises-15-million-to-build-the-definitive-natural-language-processing-library/

https://www.alleywatch.com/2019/12/hugging-face-natural-language-processing-open-source-clement-delangue/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480888.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于深度学习的FAQ问答系统

| 导语 问答系统是信息检索的一种高级形式,能够更加准确地理解用户用自然语言提出的问题,并通过检索语料库、知识图谱或问答知识库返回简洁、准确的匹配答案。相较于搜索引擎,问答系统能更好地理解用户提问的真实意图, 进一步能更有效地满足用…

基于SpringBoot2.x、SpringCloud和SpringCloudAlibaba的企业级微服务敏捷开发系统架构

一、项目总体架构图 二、功能介绍 2.1、统一认证功能 支持oauth2的四种模式登录 支持用户名、密码加图形验证码登录 支持手机号加密码登录 支持openId登录 支持第三方系统单点登录 2.2、分布式系统基础支撑 服务注册发现、路由与负载均衡 服务降级与熔断 服务限流(url/方法级别…

征文通知 | 2018年全国知识图谱与语义计算大会

2018年全国知识图谱与语义计算大会China Conference on Knowledge Graph and Semantic Computing (CCKS 2018)2018年8月15日-18日,天津征稿截止: 2018年5月18日全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and Semantic Comp…

如何让聊天机器人懂情感?这是一篇来自清华的论文

原载:Paperweekly作者:黄民烈,清华大学老师关注自然语言处理、人机对话情感分析等方向aihuangtsinghua.edu.cn当你悲伤的时候,机器人可以安慰你;当你高兴的时候,机器人为你高兴。悲你所悲,喜你所…

戴着口罩也要开心过年吖!

一只小狐狸带你解锁NLP/ML/DL秘籍素材来源于网络新的一年????就要到来了作为超(bu)高(shan)智(yan)商(ci)的程序员如何向亲朋好友证明我们是人群中最靓的仔呢小夕为你准备了专属程序员的新春祝福~~普天同庆for (;;) { print("鼠年快乐"); }(满屏的新年…

【HTML/CSS】margin塌陷和合并问题

1 margin塌陷问题 1.1 示例 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>margin塌陷</title…

集群、分布式、微服务的概念及异同

一、什么是集群&#xff1f; 集群是指将多台服务器集中在一起&#xff0c;每台服务器都实现相同的业务&#xff0c;做相同的事&#xff1b;但是每台服务器并不是缺一不可&#xff0c;存在的主要作用是缓解并发能力和单点故障转移问题。 集群主要具有以下特征&#xff1a;&…

论文浅尝 | Complex Embeddings for Simple Link Prediction

The ́o Trouillon, Johannes Welb, Sebastian Riedel, ÉricGaussier, Guillaume Bouchard . Complex Embeddings for Simple Link Prediction. In Proceedings of the 33ndInternational Conference on Machine Learning, pages 2071– 2080 (ICML2016)论文链接&#xff1a;…

详解医学顶刊《柳叶刀》最新发表新型冠状病毒研究论文

我是夕小瑶&#xff0c;一只热爱科研的小狐狸作者&#xff1a;夕小瑶&#xff0c;小鹿鹿鹿&#xff0c;QvQ前言新型冠状病毒&#xff08;2019-nCoV&#xff09;的突发恰逢春节&#xff0c;千家万户都对疫情十分关注。令人心痛的是&#xff0c;病毒带来的不止有病痛&#xff0c;…

AI学习笔记--人机对话的四种形态

AI学习笔记--人机对话的四种形态 ><div class"show-content-free"><p>最近在筹备转行 AI PM 由于之前的产品线也有做过类似 AI 的智能客服产品&#xff0c;所以打算先从人机对话这个角度入手。</p><p>以下文章结合了一些 case&#xff0c…

Spring Cloud简介,为什么需要Spring Cloud?

一、为什么需要Spring Cloud&#xff1f; 从分布式/微服务的角度而言&#xff0c;就是把我们一个大的项目分解成多个小的模块&#xff0c;这些小的模块组合起来&#xff0c;完成功能&#xff1b;而拆分出多个模块以后&#xff0c;就会出现各种各样的问题&#xff0c;而Spring C…

论文浅尝 | 「知识图谱」领域近期值得读的 6 篇顶会论文

本文转载自公众号&#xff1a;PaperWeekly。CIKM 2017■ 论文 | Hike: A Hybrid Human-Machine Method for Entity Alignmentin Large-Scale Knowledge Bases■ 链接 | https://www.paperweekly.site/papers/1528■ 解读 | 罗丹&#xff0c;浙江大学硕士1. Motivation 随着语义…

NLP最佳入门与提升路线

一只小狐狸带你解锁NLP/ML/DL秘籍作者&#xff1a;夕小瑶&#xff0c;小鹿鹿鹿&#xff0c;QvQ前言对突如其来的长假感到惶恐和不安&#xff1f;紧盯2019-nCoV的最新消息却依然感觉很空虚&#xff1f;腰酸萎靡脖子僵甚至怀疑自己有点发烧&#xff1f;这是长时间没学习的症状。 …

揭秘任务型对话机器人(下篇)

本文来自专栏语言、知识与人工智能&#xff0c;作者腾讯知文实验室 近年来比较热门的任务型对话的研究主要集中在端到端的框架的研究&#xff0c;基本跟传统任务型算法框架——语言理解模块&#xff08;Spoken Language Understanding&#xff0c;对话管理模块(Dialogue Manage…

斯坦福大学NLP公开课CS224n上映啦!华人助教陪你追剧

一只小狐狸带你解锁NLP/DL/ML秘籍作者&#xff1a;小鹿鹿鹿&#xff0c;QvQ&#xff0c;夕小瑶CS224n: Natural Language Processing with Deep LearningStanford / Winter 2020开课啦&#xff01;&#xff01;在大量开源工具的席卷下&#xff0c;NLP领域也不可避免的受到了“调…

论文浅尝 | Improved Neural Relation Detection for KBQA

Yu M, Yin W, Hasan K S, etal. Improved Neural Relation Detection for Knowledge Base QuestionAnswering[J]. 2017.论文链接&#xff1a;https://arxiv.org/pdf/1704.06194.pdf概要本文提出了一种基于不同粒度对关系和问题进行文本匹配的关系检测的模型&#xff08;HR-BiLS…

多轮对话之对话管理(Dialog Management)

多轮对话之对话管理(Dialog Management)徐阿衡人工智能与机器学习工程师​关注她115 人赞同了该文章开始涉猎多轮对话&#xff0c;这一篇想写一写对话管理&#xff08;Dialog Management&#xff09;&#xff0c;感觉是个很庞大的工程&#xff0c;涉及的知识又多又杂&#xff0…

互联网公司常用架构模式梳理

一、管理和监控 1.1、大使模式&#xff1a;创建代表消费者服务或应用程序发送网络请求的帮助服务 进程外的代理服务&#xff08;很多框架层面的事情可以以软件框架的形式寄宿在进程内&#xff0c;也可以以独立的代理形式做一个网络中间件&#xff09;。这里的大使模式意思就是…

知识工场 | CN-DBpedia 漫游指南

本文转载自公众号&#xff1a;知识工场。CN-DBpedia于2015年12月上线以来&#xff0c;已经有两年多的时间了&#xff0c;在数据层面做了大大小小百余项完善&#xff0c;在CN-DBpedia 3.0 即将上线之际&#xff0c;尽管我们觉得离完美还有距离&#xff0c;但也是时候拿出来让大家…

【杂谈】那些酷炫的深度学习网络图怎么画出来的?

一只小狐狸带你解锁NLP/ML/DL秘籍正文来源&#xff1a;有三AI还在用PPT画图&#xff1f;醒醒亲爱的&#xff0c;0202年了&#xff01;&#xff01;1 NN-SVG这个工具可以非常方便的画出各种类型的图&#xff0c;是下面这位小哥哥开发的&#xff0c;来自于麻省理工学院弗兰克尔生…