扩散模型实战(三):扩散模型的应用

推荐阅读列表:

扩散模型实战(一):基本原理介绍

扩散模型实战(二):扩散模型的发展

       扩散只是一种思想,扩散模型也并非固定的深度网络结构。除此之外,如果将扩散的思想融入其他领域,扩散模型同样可以发挥重要作用。

​       在实际应用中,扩散模型最常见、最成熟的应用就是完成图像生成任务,本书同样聚焦于此。不过即使如此,扩散模型在其他领域的应用仍不容忽视,可能在不远的将来,它们就会像在图像生成领域一样蓬勃发展,一鸣惊人。

本文将介绍扩散模型在如下领域的应用:

  • 计算机视觉;
  • 时序数据预测;
  • 自然语言处理;
  • 基于文本的多模态;
  • AI基础科学;

1)计算机视觉

       计算机视觉包括2D视觉和3D视觉两个方面,这里仅介绍扩散模型在2D图像领域的应用。

       图像类的应用十分广泛,而且与人们的日常生活息息相关。在扩散模型出现之前,与图像处理相关的研究已经有很多了,而扩散模型在许多图像处理任务中都可以很好地发挥作用,具体如下。

  • 图像分割与目标检测,图像分割与目标检测是计算机视觉领域的经典任务,在智能驾驶方面备受关注。而在加入扩散的方法之后,就可以获取更精准的分割和检测结果了,例如Meta AI的Se 制扩散模型可以生成分割Mask图(如图3-1所示),检测扩散模型DiffusionDet同样可以端到端地从随权经光根逐步生成检测框(如图3-2所示)。不过,扩散模型仍然存在生成速度慢的问题,在应用于一些需检测的场景时还需继续化化。

图3-1 SegDiff生成的分割Mask图

图3-2 DiffusionDet生成的检测框

  • 图像超分钟率,图像超分钟率是一项能够将低分辨年图像重建为高分辨率图体,同时保证图像市药线贯的技术。CDM(Cascaded DiffusionModel,组联扩教模型)通过采用事联多个扩散模型的方式,分级式地逐步放大分钟率,实现了图像超分钟车,图3-3给出了一个使用CDM实现图像超分拼串的示例。

图3-3 使用CDM实现图像超分辨率

  • 图像修复、图像翻译和图像编辑。图像修复、图像翻译和图像编辑是对图像的部分或者全部区域执行的操作,包括缺失部分修补、分格迁移、内容替换等。Palette是一个集成了图像修复、图像翻译和图像编辑等功能的扩散模型。它可以在一个模型中完成不同的图像级任务。图3-4给出了一个使用Palette修复图像的示例。

图3-4 使用Palette修复图像

2)时序数据预测

       时序数据预测旨在根据历史观测数据预测未来可能出现的数据,如空气温度预测、股票价格预测、销售与产能预测等。时序数据预测同样可以视为生成任务,即基于历史数据的基本条件来生成未来数据,因此扩散模型也能发挥作用。

       TimeGrad是首个在多元概率时序数据预测任务中加入扩散思想的自回归模型。为了将扩散过程添加到历史数据中,TimeGrad首先使用RNN (Recurrent Neural Network,循环神经网络)处理历史数据并隐空间中,然后对历史数据添加噪声以实现扩散过程,由此处理数千维度的多元数据并完成预测任务。图3-5展示了TimeGrad在城市交通流量预测任务中的表现。

图3-5 TimeGrad在城市交通流量预测任务中的表现

       时序数据预测在实际生活中的应用非常广泛。在过去,传统机器学习算法以及深度学习的RNN系列方法一直处于主导地位。如今,扩散模型以及表现出巨大的潜力,而这仅仅是个开始。

3)自然语言处理

       自然语言领域也是人工智能的一个重要发展方向,旨在研究人类语言与计算机通信的相关问题,最近"爆火"的ChatGPT就是一个自然语言生成问答模型。

       实际上,扩散模型同样可以完成语言类的生成任务。只要将自然语言类的句子分调并转换为词向量之后,就可以通过扩散的方法来学习自然语言的语句生成,进而完成自然语言领域一些更复杂的任务,如语言翻译、问答对话、搜索补全、情感分析、文章续写等。

       Diffusion-LM是首个将扩散模型应用到自然语言领域的扩散语言模型。该模型旨在解决如何将连续的扩散过程应用到离散的非连续化文本的问题,由此实现语言类的高细粒度可控生成。经过测试,Diffusion LM在6种可控文本生成任务中取得非常好的生成效果。

       实际上,后续也有非常多的基于Diffusion-LM的应用。不过在自然语言领城,目前的主流模型仍然是GPT (Generative Pre-trained Transformer)。

4)基于文本的多模态

      多模态信息指的是多种数据类型的信息,包括文本、图像、音/视频、3D物体等、多模态信息的交互是人工智能领域的研究热点之一,对于AI理解人类世界、帮助人类处理多种事务具有重要意义。在诸如DALLE-2和StableDiffusion等图像生成扩散模型以及ChatGPT等语言模型出现之后,多模态开始逐渐演变为基于文本和其他模态的交互,如文本生成图像、文本生成视频、文本生成3D等。

  • 文本生成图像。文本生成图像是扩散模型最流行,最成熟的应用,输入文本提示语或仅仅输入几个词,扩散模型就能根据文字描述生成对应的图片。开头介绍的文名鼎磊的文容生成DALLE-2、Imagen以及完全开源的Stable Diffision等,都属于文本和图像的多模态扩散模型。图3-6给出了几个使用Imagen实现文字生成图像的示例,后面将重点介绍与文本生成图像相关的应用。

图3-6 使用Imagen实现文字生成图像的几个示例

  • 文本生成视频。与文本生成图像类似,文本生成视频扩散模型能够将输入的文本提示语转换为相应视频流。不同的是,视频的前后帧需要保持极佳的连贯性。文本生成视频也有非常广泛的应用,如Meta AI的Mate-A-Video(如图3-7所示)以及能够精细控制视频生成的ControlNet Video等。图3-8展示了Hugging Face上的ControlNet Video Space应用界面。

图3-7 Meta Al的Make-A-Video:一条身看超人外衣、肩披红色斗篷的狗在天空中翱翔

图3-8 Hugging Face上的ControlNet Video Space应用界面

  • 文本生成3D。同样,文本生成3D扩散模型能够将输入的文本转换为相应的3D物体。稍有不同的是,3D物体的表征有多种方式,如点云、网格、NeRF等。不同的应用在实现方式上也略有差异,例如:DiffRF提出了通过扩散的方法实现从文本生成3D辐射场的扩散模型,如图3-9所示;基于二维图像生成对应的3D点云,我们可以在Hugging Face上体验官方给出的演示实例,如图3-10所示。虽然目前文本生成3D技术仍处于起步阶段,但其应用前景非常广阔,包括室内设计、游戏建模、元宇宙数字人等。

图3-9 使用DiffRF生成3D沙发

图3-10 Hugging Face上的3DFuse Space界面

5)AI基础科学

       Al基础科学又称Al for Science,它是人工智能领域具有广阔前景的分支之一,甚至能够发展为造福人类的技术。与AI基础科学相关的研究成果也不止一次荣登《自然》杂志。例如,2021年DeepMind研究的AlphaFold 2可以预测人类世界98.5%的蛋白质,2022年DeepMind用强化学习控制核聚变反应堆内过热的离子体等。

       扩展模型对生成类的任务一直表现十分专业,AI基础科学中生成预测类的研究当然也少不了扩展模型的参与。SMCDIT创建了一种扩散模型,该扩散模型可以根据给定的模体结构生成多样化的支架蛋白质,如图3-11所示。CDVAE则提出了一种扩散晶体变分自编码器模型,旨在生成和优化具有固定周期性原子结构的材料,如图3-12所示。

图3-11 SMCDIT生成的多样化的支架蛋白质

图3-12 CDVAE生成的遵循Langevin动力学的不同原子结构的材料

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/26959.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

docker solr-8.11.2安装部署

历史背景 现在solr官网仅能够下载到最新版本的安装包。并且支持docker。现在就用docker来部署一下 1、准备工作 docker环境部署(这个自己百度一下哈,很简单两个命令就能解决) yum -y install yum-utils yum -y install docker-ce 安装命令…

第7集丨Vue 江湖 —— 条件渲染

目录 一、v-show二、v-if2.1 基本使用2.2 条件渲染分组2.3 与 v-else-if、v-else 结合使用 三、v-if vs v-show四、测试案例 本节条件渲染所涉及到的指令有: v-showv-ifv-else-ifv-else 一、v-show 1. 用法: 语法: v-show" 表达式"&#xff…

FFmpeg 使用总结

FFmpeg 简介 FFmpeg的名称来自MPEG视频编码标准,前面的“FF”代表“Fast Forward”,FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。可以轻易地实现多种视频格式之间的相互转换。包括如下几个部分&#xf…

webpack基础知识九:如何提高webpack的构建速度?

一、背景 随着我们的项目涉及到页面越来越多,功能和业务代码也会随着越多,相应的 webpack 的构建时间也会越来越久 构建时间与我们日常开发效率密切相关,当我们本地开发启动 devServer 或者 build 的时候,如果时间过长&#xff…

电源控制--品质因素Q值全解

什么是品质因素Q值? 在电源控制中,品质因素 Q 值通常用于描述电源滤波器的性能。电源滤波器用于减小电源中的噪声和干扰,以提供干净稳定的电源供应给电子设备。 品质因素 Q 值在电源滤波器中表示滤波器的带宽和中心频率之比,用于…

IP提取器对比器

需求: 一个html 页面 ,有两个输入框 第一个输入框输入文本中包含多个ip,输入的ip是不规则的,需要使用正则表达式提取出 输入文本的ip地址 , 然后在第二个输入框中输入内容,并提取出内容的ip ,如…

什么是OCR?OCR技术详解

光学字符识别(Optical Character Recognition)简称为“OCR”。ORC是指对包含文本资料的图像文件进行分析识别处理,获取文字及版面信息的技术。 一般包括以下几个过程: 1.图像输入 针对不同格式的图像,有着不同的存储格式和压缩方式。目前&…

Elastic:linux设置elasticsearch、kibana开机自启

0. 引言 每次启动服务器都要手动启动es服务,相当之不方便,为此,书写一个脚本,实现es、kibana的开机自启 1. 原理 首先任何服务要实现开机自启,都可分为如下三步: 1、在/etc/init.d目录下创建启动、关闭服…

海康威视摄像头配置RTSP协议访问、onvif协议接入、二次开发SDK接入

一、准备工作 (1)拿到摄像头之后,将摄像头电源线插好,再将网线插入到路由器上。 (2)将自己的笔记本电脑也连接到路由器网络,与摄像头出在同一个局域网。 二、配置摄像头 2.1 激活方式选择 第一次使用设备需要激活,在进行配置。 最简单,最方便的方式是选择浏览器激…

uniapp创建项目入门【详细】

大家在学习vue和微信小程序之后,就可以开始来学习uniapp了,在uniapp中,一套代码可以跨越所有的平台,可以很方便的维护。接下来我们先来学习如何创建uinapp的项目 一、uniapp的创建需求 大家只要会vue和微信小程序的基础来学习unia…

浅析 String

浅析String 一、创建字符串二、字符串与常量池三、字符串的不可变性四、字符串的拼接五、StringBuilder和StringBuffer 一、创建字符串 //三种常用的构造字符串的方式public static void main(String[] args) {String str1 "hello";String str2 new String("w…

Python导出SqlServerl数据字典为excel

sql代码 SELECTtableName D.name ,tableIntroduce isnull(F.value, ),sort A.colorder,fieldName A.name,catogary B.name,bytes A.Length,lengths COLUMNPROPERTY(A.id, A.name, PRECISION),scales isnull(COLUMNPROPERTY(A.id, A.name, Scale), 0),isOrNotNull Cas…

springboot 对接 minio 分布式文件系统

1. minio介绍 Minio 是一个基于Go语言的对象存储服务。它实现了大部分亚马逊S3云存储服务接口,可以看做是是S3的开源版本,非常适合于存储大容量非结构化的数据,例如图片、视频、日志文件、备份数据和容器/虚拟机镜像等,而一个对象…

Qt能跨多少个平台?Qt能支持多少个平台?

2023年8月5日,周日下午 目录 Qt所支持的平台更多关于Qt支持的信息 Qt所支持的平台 图中显示的平台都支持。 想要更详细的平台支持信息可以查看:Supported Platforms | Qt 5.15 更多关于Qt支持的信息 Qt - 支持的平台及语言

MongoDB 入门

1.1 数据库管理系统 在了解MongoDB之前需要先了解先数据库管理系统 1.1.1 什么是数据? 数据(英语:data),是指未经过处理的原始记录。 一般而言,数据缺乏组织及分类,无法明确的表达事物代表的意…

服务器中了malox勒索病毒后怎么办怎么解决,malox勒索病毒解密数据恢复

服务器遭受Malox勒索病毒攻击后,快速解密并恢复数据至关重要,以便减少更大的经济损失。近期,新的一波malox勒索病毒正在肆虐,我们收到很多企业的求助,企业的服务器数据库遭到了malox勒索病毒攻击,导致系统内…

如何使用win10专业版系统自带远程桌面公司内网电脑,从而实现居家办公?

使用win10专业版自带远程桌面公司内网电脑 文章目录 使用win10专业版自带远程桌面公司内网电脑 在现代社会中,各类电子硬件已经遍布我们身边,除了应用在个人娱乐场景的消费类电子产品外,各项工作也离不开电脑的帮助,特别是涉及到数…

09. Docker Compose

目录 1、前言 2、安装Docker Compose 2.1、Docker Compose版本 2.2、下载安装 3、初试Docker Compose 3.1、传统方案部署应用 3.2、使用编排部署应用 3.3、其他命令 3.3.1、ps 3.3.2、images 3.3.3、depends_on 3.3.4、scale 4、小结 1、前言 随着应用架构的不段…

Python爬虫异常处理心得:应对网络故障和资源消耗

作为一名专业的爬虫代理,我知道在爬取数据的过程中,遇到网络故障和资源消耗问题是再正常不过了。今天,我将与大家分享一些关于如何处理这些异常情况的心得和技巧。不论你是在处理网络不稳定还是资源消耗过大的问题,这些技巧能够帮…

uniapp微信小程序 401时重复弹出登录弹框问题

APP.vue 登陆成功后,保存登陆信息 if (res.code 200) {uni.setStorageSync(loginResult, res)uni.setStorageSync(token, res.token);uni.setStorageSync(login,false);uni.navigateTo({url: "/pages/learning/learning"}) }退出登录 toLogout: func…