python nlp data_Python nlpaug包_程序模块 - PyPI - Python中文网

NLPAUG

这个python库帮助您为机器学习项目增加nlp。访问此简介了解Data Augmentation in NLP。Augmenter是增广的基本元素,而Flow是将多个增广器组合在一起的管道。

起动指南

增强器TargetAugmenterActionDescriptionCharacterRandomAuginsertInsert character randomly

substituteSubstitute character randomly

swapSwap character randomly

deleteDelete character randomly

OcrAugsubstituteSimulate OCR engine error

KeyboardAugsubstituteSimulate keyboard distance error

WordRandomWordAugswapSwap word randomly

deleteDelete word randomly

SpellingAugsubstituteSubstitute word according to spelling mistake dictionary

WordNetAugsubstituteSubstitute word according to WordNet's synonym

WordEmbsAuginsertInsert word randomly from word2vec, GloVe or fasttext dictionary

substituteSubstitute word based on word2vec, GloVe or fasttext embeddings

TfIdfAuginsertInsert word randomly trained TF-IDF model

substituteSubstitute word based on TF-IDF score

BertAuginsertInsert word based by feeding surroundings word to BERT language model

substituteSubstitute word based by feeding surroundings word to BERT language model

SpectrogramFrequencyMaskingAugsubstituteSet block of values to zero according to frequency dimension

TimeMaskingAugsubstituteSet block of values to zero according to time dimension

AudioNoiseAugsubstituteInject noise

PitchAugsubstituteAdjust audio's pitch

ShiftAugsubstituteShift time dimension forward/ backward

SpeedAugsubstituteAdjust audio's speed

CropAugdeleteDelete audio's segment

LoudnessAugsubstituteAdjust audio's volume

MaskAugsubstituteMask audio's segment

流量PipelineDescriptionSequentialApply list of augmentation functions sequentially

SometimesApply some augmentation functions randomly

安装

该库在linux和windows平台上支持python 3.5+。

要安装库:pip install nlpaug

或者直接从github安装最新版本(包括beta版功能)pip install git+https://github.com/makcedward/nlpaug.git

如果您使用bertaug,请同时安装以下依赖项pip install pytorch_pretrained_bert torch

如果使用wordembsaug(word2vec、glove或fasttext),请先下载经过培训的模型from nlpaug.util.file.download import DownloadUtil

DownloadUtil.download_word2vec(dest_dir='.')# Download word2vec model

DownloadUtil.download_glove(model_name='glove.6B', dest_dir='.')# Download GloVe model

DownloadUtil.download_fasttext(model_name='wiki-news-300d-1M', dest_dir='.')# Download fasttext model

最近的更改

beta2019年8月16日添加新增强器(Cropaug、LoudnessAug、Maskaug)

QWERTYAUG已弃用。它将被键盘所取代

删除StopWordSaug。它将被randomWordAug替换

代码重构

为word2vec、glove和fasttext添加了模型下载功能

^{str 1}0.0.6美元2019年7月29日:

有关详细信息,请参见changelog。

测试Word2vec, GloVe, Fasttext models are used in word insertion and substitution. Those model files are necessary in order to run test case. You have to add ".env" file in root directory and the content should be

- MODEL_DIR={MODEL FILE PATH}Folder structure of model should be

-- root directory

- glove.6B.50d.txt

- GoogleNews-vectors-negative300.bin

- wiki-news-300d-1M.vec

研究参考

以上的一些增强器是受到以下研究论文的启发。但是,由于不同的原因,它并不总是遵循最初的实现。如果需要原始实现,请参考原始源代码。

数据源

用于构建增强器/测试用例的来自Internet的饱和数据。

有关详细信息,请参见data source。

欢迎加入QQ群-->: 979659372

推荐PyPI第三方库

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/534773.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux创始人数据结构,Linux 通用数据结构说明

device_driver include/linux/device.h struct device_driver {const char * name; /* 驱动名称 */struct bus_type * bus; /* 总线类型 */struct completion unloaded; /* 卸载事件通知机制 */ struct kobject kobj; /* sys 中…

python在浏览器运行一片空白_Webdriver启动Firefox浏览器后,页面显示空白

在使用pycharm码代码时编译总是出错,后来验证发现浏览器启动后出现问题。白白耗了我2个小时。我把我的解决方案写出来,希望对大家有帮助。1.现象:起初安装的时候总是能正常运行,有一天突然发现Webdriver打开fFirefox浏览器后&…

centos linux7修改主机名,CentOS7操作系统下永久修改主机名

操作系统:CentOS Linux release 7.8任务:修改主机名为sky9899操作步骤如下:[root146 ~]# hostname*.*.*.*.adsl-pool.jx.chinaunicom.com[root146 ~]# hostnamectlStatic hostname: localhost.localdomainTransient hostname: *.*.*.*.adsl-…

稀疏自编码器_自编码(AutoEncoder)模型及几种扩展之二

4. 稀疏自编码假设我们只有一个没有类别标签的训练样本集合{x(1),x(2)...},一个自编码神经网络就是一种非监督学习算法,它使用BP算法,并将目标值设为: y(i)x(i)。我们的目标是希望得到hW,b(X)≈x。用aj(2)(x)表示输入向量x对隐藏层单元j的激活…

linux x86 关机 过程,linux在x86上的中断处理过程(详细)

Linux在x86上的中断处理过程一:引言在Intel的文档中,把中断分为两种。一种是异常,也叫同步同断。一种称之为中断,也叫异常中断。同步中断指的是由CPU控制单元产生,之所以称之为同步,是因为只有一条指令执行完毕后才会发出中断。例如除法运算中,除数为零的时候,就会产…

thymealf 高级用法_Thymeleaf

JSP 已经存在很长时间了,很多公司还在用,它看起来像 HTML,但其实并不是,它有一些缺陷。比如,每个页面顶部都需要有如下声明与 Servlet 规范紧密耦合的,依赖 Servlet 容器(意味着无法直接浏览效果)。工作过的…

linux 显卡转码,ffmpeg用GPU转码

8种机械键盘轴体对比本人程序员,要买一个写代码的键盘,请问红轴和茶轴怎么选?有些视频编码太屌,播放起来对CPU消耗巨大,而在电视上或者电视盒子上看视频,编码就需要合适,楼主用的FireTV Stick&a…

ant实例 jmeter_Jmeter+ant搭建环境

1.将jmeter3.3和ant1.9.6放在一个文件夹下2.配置环境a、安装jdk,配置环境变量变量名: JAVA_HOME变量值: C:\Program Files\Java\jdk1.8.0_91 (即jdk安装的位置)变量名: Path (这个变量名已在系统变量中存在,现只需在这…

c语言课程设计作业五子棋,C语言课程设计报告五子棋游戏课程设计

C语言课程设计报告五子棋游戏课程设计 C语言课程设计报告_五子棋游戏-课程设计C语言课程设计报告_五子棋游戏|c语言程序代码编程小程序设计|c语言课程设计报告课程案例**********************************************************//* 本程序在Turbo C或Borland C下编译通过 */…

sqlmap图形化_Web安全:SQL注入工具

原标题:Web安全:SQL注入工具SQL注入工具主要是针对Web服务器后台数据库的注入,其主要目的是获取数据库中的数据。以前常用的SQL注入工具有啊D注入工具及Domain(明小子注入工具),现在常用的SQL注入工具有HackBar、SQLMap、Pangolin…

在c语言程序中 对文件进行操作首先要,《C语言程序设计》试题八及答案

版权声明:以上文章中所选用的图片及文字来源于网络以及用户投稿,由于未联系到知识产权人或未发现有关知识产权的登记,如有知识产权人并不愿意我们使用,如果有侵权请立即联系:55525090qq.com,我们立即下架或…

vue中多行文本标签_vue控制多行文字展开收起的实现示例

这里讲一下,如何使用vue控制多行文字展开收起(也叫控制文字展开隐藏)。效果:这里设置了控制三行,如果超过三行会展示,“显示更多” 超出文字显示省略号。点击“显示更多”会展开所有文案,按钮变成“收起”(未超出三行的…

c语言什么时候需要加分号,归纳一下html中什么时候需要分号什么时候需要冒

公告: 为响应国家净网行动,部分内容已经删除,感谢读者理解。话题:归纳一下html中什么时候需要分号什么时候需要冒号什么时候问题详情:最近初学html和php,弄晕了回答:一般情况下,HTML…

python wheel使用_【转载】Python,使用Wheel打包

转载自: http://blog.sina.com.cn/s/blog_1318255b00102wbtz.htmlPython的第一个主流打包格式是.egg文件,现在大家庭中又有了一个叫做Wheel(*.whl)的新成员。wheel“被设计成包含PEP 376兼容安装(一种非常接近于磁盘上的格式)的所有文件”。在本文中&…

c语言提取七位数讲解,C语言-体育彩票7位数,感受身中500万的fell

//体育彩票7位数,感受身中500万的fell#include #include #include #include //用到随机数函数#include int main(){int iUser[7]; //保存我们购买彩票的号码int iSys[7];//保存开奖的号码int i, j;int count 0;//保存我们中奖号码的个数//srand((unsigned)time(0…

cuda linux编译器_linux下如何编译CUDA+QT(qtcreator下)

具体操作,修改qt项目配置文件pro,在配置后面加入如下代码,我们就实现了qtcuda的交叉编译。# 让你的项目可以看到后缀cu的cuda代码文件OTHER_FILES ./Bll/ImageReconstruction/Cuda/CudaFDK.cu \./Bll/ImageReconstruction/Cuda/CudaFDK_ker…

linux的sonar安装,Linux安装sonar

前置依赖​ mysql 5.6 or 5.7​ jdk 1.81.下载2.安装unzip并解压sonarqube并移动到/usr/localyum install unzipunzip sonarqube-6.7.4.zipmv sonarqube-6.7.4 /usr/local/3.mysql里新增数据库CREATE DATABASE sonar DEFAULT CHARACTER SET utf8;4.修改sonarqube相应的配置vim …

redis内存淘汰和持久化_redis 持久化

一、RDB持久化(一)、RDB介绍可以在指定的时间间隔内生成数据集的 时间点快照(point-in-time snapshot),新快照会覆盖老快照(二)、优点压缩格式,恢复速度快,适合于用做备份…

android实现后台静默安装,Android 静默安装实现方法

Android静默安装的方法,静默安装就是绕过安装程序时的提示窗口,直接在后台安装。注意:静默安装的前提是设备有ROOT权限。代码如下:/*** 静默安装* param file* return*/public boolean slientInstall(File file) {boolean result …

pythonwrite连续写入_python文件写入write()的操作

本文实例为大家分享了python文件写入write()的操作的具体代码,供大家参考,具体内容如下filename pragramming.txtwith open(filename,w) as fileobject: #使用‘w来提醒python用写入的方式打开fileobject.write(i love your name!\ni love your cloth!\…