净迁移人口预测程序python_高质量深度学习模型, 一键模型预测,迁移学习很简单...

飞桨(PaddlePaddle)核心框架Paddle Fluid v1.5已经发布,而作为其关键工具,用来迁移学习的PaddleHub也进行了全面更新,正式发布了1.0版本。

全新的PaddleHub模型和任务更加丰富,为用户提供了覆盖 文本 、 图像 和 视频 三大领域八大任务的 40+预训练模型 ,同时还在飞桨官网上开辟了PaddleHub的网页。

本文将对PaddleHub及其更新做更加全面的介绍。

PaddleHub是什么

深度学习模型的价值在AI时代不断增大。要想得到一个高质量的深度学习模型,离不开4个要素,优秀的算法、充足的算力、丰富的数据以及专家知识。大家在深度学习中常常遇到以下问题:

一些研究领域只有少量标注数据,且数据标注成本较高,不足以训练一个足够鲁棒的神经网络

大规模神经网络的训练依赖于大量的计算资源,这对于一般用户而言难以实现

应对于普适化需求的模型,在特定应用上表现不尽如人意

PaddleHub就是为了解决对深度学习模型的需求而开发的工具。

它基于飞桨领先的核心框架,精选效果优秀的算法,提供了百亿级大数据训练的预训练模型,方便用户不用花费大量精力从头开始训练一个模型。PaddleHub可以便捷地获取这些预训练模型,完成模型的管理和一键预测。

配合使用Fine-tune API,可以基于大规模预训练模型快速完成迁移学习,让预训练模型能更好地服务于用户特定场景的应用。

PaddleHub有什么特色

1、 通过PaddleHub,开发者可以便捷地获取飞桨生态下的所有预训练模型,涵盖了图像分类、目标检测、词法分析、语义模型、情感分析、语言模型、视频分类、图像生成八类主流模型40余个,如图1 所示。飞桨还发布了PaddleHub的官方网页,对各个预训练模型的应用提供了详实的介绍。

△ 图1 PaddleHub提供了40+官方预训练模型

2、PaddleHub引入了模型即软件的概念,通过Python API或者命令行工具,一键完成预训练模型地预测。此外还借鉴了Anaconda和pip软件包管理的理念设计了一套命令行接口。

深度学习时代,模型发展的趋势会逐渐向软件工程靠拢;未来模型可以当作一个可执行程序,一键预测;也可以是第三方库,通过模型插拔的方式提高开发者的开发效率。

同时模型会有版本的概念,通过不断迭代升级的方式提升我们模型的效果。通过命令行工具,可以方便快捷的完成模型的搜索、下载、安装、预测等功能,对应的关键的命令分别是search,download,install,run等。

如以下示例,在安装完成飞桨和PaddleHub以后(具体安装方法见后文示例),使用词法分析模型LAC,可以一键实现分词。

$ hub run lac --input_text "今天是个好日子"

[{'word': ['今天', '是', '个', '好日子'], 'tag': ['TIME', 'v', 'q', 'n']}]

再如以下示例所示,是一个目标检测的例子,通过hub run 调用不同的目标检测模型,一行即可完成预测,同时也可以快速体验哪个模型能更符合开发的需求。

$ hub run yolov3_coco2017 --input_path test.jpg

$ hub run faster_rcnn_coco2017 --input_path test.jpg

△ 图2 PaddleHub一键完成预训练模型地预测

3、通过PaddleHub Fine-tune API,结合少量代码即可完成大规模预训练模型的迁移学习。下面一节我们也会全面介绍PaddleHub的API。

PaddleHub API全景

PaddleHub API的全景图如图3所示。

为了更好帮助用户更好的应用预训练模型,PaddleHub对Fine-tune做了6个层次的抽象。

△ 图3 PaddleHub Fine-tune API全景

数据集Dataset :PaddleHub提供多种NLP任务和CV任务的数据集,用户也可以在自定义数据集上完成Fine-tune。

数据预处理Reader :PaddleHub的数据预处理模块Reader对常见的NLP和CV任务进行了抽象。

预训练模型Module :Module代表了一个预训练模型。

优化策略Strategy :在PaddleHub中,Strategy类封装了一系列适用于迁移学习的Fine-tune策略。Strategy包含了对预训练参数使用什么学习率变化策略,使用哪种类型的优化器,使用什么类型的正则化等。

运行配置 RunConfig :在PaddleHub中,RunConfig代表了在对Task进行Fine-tune时的运行配置。包括运行的epoch次数、batch的大小、是否使用GPU训练等。

迁移任务Task :PaddleHub预置了常见任务的Task。Task代表了一个Fine-tune的任务。任务中包含了执行该任务相关的Program、数据Reader、运行配置等内容。每种Task都有自己特有的应用场景以及提供了对应的度量指标,用于适应用户的不同需求。预置的任务类型包括图像分类、文本分类、序列分类和多标签分类各类任务。

PaddleHub还支持用户可以通过继承BasicTask来实现自己的任务。

PaddleHub封装了finetune、eval、finetune_and_eval、predict等直观的基础接口,让开发者更方便完成模型的迁移和应用。

如何快速开始

△ 图4 PaddleHub Fine-tune API使用

接下来本文结合实际案例,讲述如何快速使用PaddleHub实现十行代码完成文本分类迁移。

场景是标注数据不多中文文本分类场景,如何提高分类的精度和模型的泛化能力。

这里的方案是借助ERNIE + PaddleHub Finetune API,除去安装,只想要5个步骤,10行代码即可解决这一问题。

这里先介绍一下ERNIE,它是百度发布的知识增强的预训练模型,通过建模海量数据中的词、实体及实体关系,学习真实世界的语义知识。

具体来说,ERNIE 模型通过对词、实体等语义单元的掩码,使得模型学习完整概念的语义表示。

相较于 BERT 学习原始语言信号,ERNIE 直接对先验语义知识单元进行建模,增强了模型语义表示能力。

ERNIE在多个公开的中文数据集上进行了效果验证,包括语言推断、语义相似度、命名实体识别、情感分析、问答匹配等自然语言处理各类任务上,均超越了语义表示模型 BERT 的效果。

接下来开始实战演练PaddleHub。

1. 安装

$ pip install paddlepaddle  #CPU安装命令

或者

$ pip install paddlepaddle-gpu # GPU安装

以上命令是安装CPU或者GPU版本的飞桨。通过以下命令则可以安装PaddleHub。

$ pip install paddlehub

另外,PaddleHub内置了深度学习可视化工具VisualDL的依赖,通过VisualDL,可以很好的对深度学习任务进行可视化。

2. 选择预训练模型

在完成安装飞桨与PaddleHub,import导入相应模块后,一行代码即可加载预训练模型。只要1分钟,你就能得到万级别GPU小时训练出来的ERNIE模型。当然也可以支持BERT模型调用,只需要更换不同的模型名称即可。

import paddle.fluid as fluid

import paddlehub as hubmodule = hub.Module(name="ernie")inputs, outputs, program = module.context(trainable=True, max_seq_len=128)

第二步是获取模型上下文,包括了预训练模型的输入Tensor,输出Tensor还有计算图。这里面有个关键参数是trainable。如果trainable为True,那么就是一个fine-tune的任务,预训练模型的参数会做微调,以更好的适应顶层的应用、如果trainable为False,那么就预训练模型参数保持不变,将它当作特征提取器。对于ERNIE模型而言,不推荐使用特征提取,一定要通过Finetune的方式才能取得更好的效果。

3. 数据处理

选择模型后就是进行数据预处理,针对不同的迁移任务做了一系列数据处理的封装。

dataset = hub.dataset.ChnSentiCorp()

reader = hub.reader.ClassifyReader(    dataset=dataset,    vocab_path=module.get_vocab_path(),    max_seq_len=128)

hub.dataset.ChnSentiCorp() 会自动从网络下载数据集并解压到用户目录下。

4. 策略配置

接下来开始配置Fine-tune时用到的优化策略。针对ERNIE与BERT类任务,PaddleHub封装了适合这一任务的迁移学习优化策略AdamWeightDecayStrategy

strategy = hub.AdamWeightDecayStrategy(

learning_rate=5e-5,    weight_decay=0.01,    lr_scheduler="linear_decay",)config=hub.RunConfig(use_cuda=True, num_epoch=3,batch_size=32,checkpoint_dir=" ckpt_dir",strategy=strategy)

5. 创建迁移学习任务

组建移学习任务这块也非常简单,首先是选择预训练的模型输出,作为我们句子的特征。

在这里ERNIE我们选择pooled_output作为句子的特征输出。也可以通过获取sequence_output来得到词粒度的特征,这个特征般用于序列标注。

pooled_output = outputs["pooled_output"]

# feed_list的Tensor顺序不可以调整feed_list = [    inputs["input_ids"].name,    inputs["position_ids"].name,    inputs["segment_ids"].name,    inputs["input_mask"].name,]cls_task = hub.TextClassifierTask(    data_reader=reader,    feature=pooled_output,    feed_list=feed_list,    num_classes=dataset.num_labels,    config=config)cls_task.finetune_and_eval()

Finetuning API非常智能,会自动完成评估,保存最优模型还有自动可视化的功能。Finetune API训练过程中会自动对关键训练指标进行打点,启动程序后执行下面命令

$ visualdl --logdir ckpt_dir/vdllog -t ${HOST_IP}

其中${HOST_IP}为本机IP地址,如本机IP地址为192.168.0.1,用浏览器打开192.168.0.1:8040,其中8040为端口号,即可看到训练过程中指标的变化情况

6. 模型预测

通过Finetune完成模型训练后,在对应的ckpt_dir目录下,会自动保存验证集上效果最好的模型。接下来可以按照如下的示例进行预测。

# Data to be prdicted

data = [    ["这个宾馆比较陈旧了,特价的房间也很一般。总体来说一般"], ["交通方便;环境很好;服务态度很好 房间较小"],["还稍微重了点,可能是硬盘大的原故,还要再轻半斤就好了。其他要进一步验证。贴的几种膜气泡较多,用不了多久就要更换了,屏幕膜稍好点,但比没有要强多了。建议配赠几张膜让用用户自己贴。"],[ "前台接待太差,酒店有A B楼之分,本人check-in后,前台未告诉B楼在何处,并且B楼无明显指示;房间太小,根本不像4星级设施,下次不会再选择入住此店啦"], ["19天硬盘就罢工了~~~算上运来的一周都没用上15天~~~可就是不能换了~~~唉~~~~你说这算什么事呀~~~"]]

index = 0

run_states = cls_task.predict(data=data)results = [run_state.run_results for run_state in run_states]for batch_result in results:    # get predict index    batch_result = np.argmax(batch_result, axis=2)[0]    for result in batch_result:        print("%stpredict=%s" % (data[index][0], result))        index += 1

除了以上的介绍,PaddleHub还在AI Studio和AIBook上提供了IPython NoteBook形式的demo,开发者可以直接在平台上在线体验PaddleHub带来的各种便捷。

此外,AI studio平台还发布了 亿元算力支持计划 ,提供了“每日运行赠12小时”和“连续5天运行赠48小时”两种机制共同服务,每天都得能轻松获得!

该平台集成算力、教程、 样例模型、工程开发、在线部署的能力, 乃至比赛平台,满足从0基础学习到技术落地的全生命周期,帮助开发者全面掌握深度学习技术的各方各面。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/340467.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

您的JVM是否泄漏文件描述符-像我的一样?

前言:此处描述的两个问题是在一年前发现并修复的。 本文仅用作历史证明,也是有关解决Java中文件描述符泄漏的初学者指南。 在Ultra ESB中,我们使用内存RAM磁盘文件缓存来进行快速且无垃圾的有效负载处理。 一段时间以前,我们在共…

matlab中degrees,Convert degrees-minutes-seconds to degrees

Angle in degrees-minutes-seconds representation, specified as ann-by-3 real-valued matrix. Each row specifies oneangle, with the format [D M S]:D contains the “degrees” elementand must be integer-valued.M contains the “minutes” elementand must be integ…

螺旋桨设计软件_欧洲斥巨资研发的A400M螺旋桨运输机,为啥就没人买啊?| 图说...

A400M是欧洲自行设计、研制和生产的新一代军用运输机,也是欧盟国家进行合作的最大的武器联合研制项目。A400M最大的特点,就是其标志性的8叶弯刀螺旋桨。A400M也是20世纪后服役的为数不多的几个使用涡轮旋桨发动机的军用运输机之一。A400M曾在系列电影《碟…

python5个功能_5个常用的定制Python功能代码

文章来源:淘论文网 发布者:毕业设计浏览量:一、随机数生成>>> import random #导入Python内置的随机模块>>> num random.randint(1,1000) #生成1-1000之间的伪随机数二、读文件>>> f open(c:\1.txt,r)>>> lin…

php链接远程socket,php使用socket获取远程图片

步骤:1,匹配URL中的主机名和文件部分2,创建socket并连接到目标服务器3,构造HTTP请求并发送4,读取HTTP响应并解析5,保存内容到文件并关闭socket连接代码实现如下:/** 使用socket获取远程资源(网页…

JAR文件句柄:烦恼后清理!

在Ultra ESB中,我们使用特殊的热交换类加载器 ,该加载器使我们可以按需重新加载Java类。 这使我们能够从字面上热交换我们的部署单元 -加载,卸载,使用更新的类重新加载,以及正常地逐步退出-无需重启JVM。 Windows&…

大气校正后的ndvi_Sentinel2 L1C下载、大气校正、重采样

点击蓝字关注我哦1.基本信息(成像仪/重访周期/波段数/分辨率)哨兵2号是高分辨率多光谱成像卫星,携带一枚多光谱成像仪(MSI),用于陆地监测,可提供植被、土壤和水覆盖、内陆水路及海岸区域等图像,分为2A和2B两颗卫星,哨兵&#xff0…

hello python的代码,python基础教程之Hello World!

Python命令行假设你已经安装好了Python, 那么在Linux命令行输入:代码如下:$python将直接进入python。然后在命令行提示符>>>后面输入:代码如下:>>>print(Hello World!)可以看到,随后在屏幕上输出:代码如下:Hello World!print是一个常用函数&#…

python3 线程隔离_Python的线程隔离实现方法

前段时间看了下flask的源码,对于这样一个轻量级的web框架是怎样支持多线程的感到非常好奇,于是深入了解了一番。flask是依赖werkeug来实现线程间的隔离的,而werkeug最后又使用到了python的内置模块locals来承载数据,看不如写&…

限定通配符和非限定通配符_为什么我不信任通配符以及为什么我们仍然需要通配符...

限定通配符和非限定通配符在将子类型多态性&#xff08;面向对象&#xff09;与参数多态性&#xff08;泛型&#xff09;相结合的任何编程语言中&#xff0c;都会出现方差问题。 假设我有一个字符串列表&#xff0c;键入List<String> 。 我可以将其传递给接受List<Obj…

php strtotime month bug,处理PHP strtotime的BUG

PHP strtotime的BUG处理最近使用了strtotime结合-1 month, 1 month, next month获取上个月或者下个月的日期&#xff0c;不过刚看到一篇文章&#xff0c;才知道原来使用strtotime直接获取日期还是有点小BUGBUG如日期&#xff1a;$today 2020-12-31;echo date("Y-m-d"…

JMetro版本11.5.11和8.5.11发布

你好 具有新JMetro样式的另一个版本&#xff08;深色和浅色版本&#xff09;&#xff1a; 分割菜单按钮 分割窗格 药丸按钮/分段按钮 调整现有样式和错误修复。 继续阅读以获取详细信息。 分割菜单按钮 以下是一个动画&#xff0c;显示了新的“拆分菜单按钮” JMetro浅色…

python远程连接mysql数据库_MySQL数据库之python mysql远程连接

本文主要向大家介绍了MySQL数据库之python mysql远程连接 &#xff0c;通过具体的内容向大家展现&#xff0c;希望对大家学习MySQL数据库有所帮助。第一步&#xff1a;vim /etc/MySQL/my.cnf找到bind-address 127.0.0.1注释掉这行&#xff0c;如&#xff1a;#bind-address 12…

php100并发cpu告警,多线程并发导致CPU100%的一种原因和解决办法

在用自定义线程池的时候&#xff0c;遇到cpu100%&#xff0c;经过验证后&#xff0c;发现问题来源于我定义的子线程。子线程的主要功能是从任务队列(LinkedBlockingQueue)里面持续拿出任务&#xff0c;并且执行。以下为令CPU100的代码。private class WorkThread extends Threa…

excel离散度图表怎么算_一般人不知道的几个excel制图技巧

原标题&#xff1a;一般人不知道的几个excel制图技巧作者&#xff1a;杜雨 公众号&#xff1a;数据小魔方(datamofang)今天这篇&#xff0c;我专注于Excel的作图规则&#xff0c;深入的研究下Excel由数据源到可视化图表之间的关系是如何对应的&#xff0c;倘若你已经在工作中横…

listview控件在php的使用方法,Android_Android编程之控件ListView使用方法,本文实例讲述了Android编程之控 - phpStudy...

Android编程之控件ListView使用方法本文实例讲述了Android编程之控件ListView使用方法。分享给大家供大家参考。具体分析如下&#xff1a;控件ListView是一个重要的控件&#xff0c;可以被用作用户列表等显示&#xff0c;下面进行它的操作测试。下面代码实现了生成了一个ListVi…

使用ElasticSearch进行近实时索引

选择索引策略很困难。 Elasticsearch 文档的确有一些一般性建议 &#xff0c;并且有其他公司的 一些技巧 &#xff0c;但这也取决于特定的用例。 在典型情况下&#xff0c;您有一个数据库作为事实的来源&#xff0c;并且有一个使事物可搜索的索引。 您可以采用以下策略&#xf…

air什么意思中文_Air 的中文意思是什么?

展开全部air释义&#xff1a;(1)作为名词&#xff0c;空气&#xff1b;32313133353236313431303231363533e59b9ee7ad9431333431366261天空&#xff1b;(飞行的)空中。(2)作为动词&#xff0c;晾&#xff1b;晾干&#xff1b;(使)通风&#xff1b;公开发表。读音&#xff1a;英[…

python xlutils函数,python3:xlrd、xlwt、xlutils处理excel文件

1.xlrd读取excel请参考上篇博客https://www.cnblogs.com/shapeL/p/9075843.html2.xlwt生成excel安装下载&#xff1a;pip install xlwt导入&#xff1a;import xlwt参考&#xff1a;生成excel文件test1.xlsfile_name ../dataconfig/test1.xlswbk xlwt.Workbook() #初始化work…

前端实现炫酷动效_20个网页动效设计的炫酷神器

如今很多 UI 设计师不是正在做动效&#xff0c;就正在学着做动效。动效现在已经无处不在了。有的动效可能是一个微妙的悬停效果&#xff0c;使用 Bttn.css 或者是 Hover Buttons 的帮助下&#xff0c;添加到按钮上&#xff0c;有的则可能是使用引人瞩目的动态渐变背景抓住用户的…