扩散模型实战(三):扩散模型的应用

推荐阅读列表:

扩散模型实战(一):基本原理介绍

扩散模型实战(二):扩散模型的发展

       扩散只是一种思想,扩散模型也并非固定的深度网络结构。除此之外,如果将扩散的思想融入其他领域,扩散模型同样可以发挥重要作用。

​       在实际应用中,扩散模型最常见、最成熟的应用就是完成图像生成任务,本书同样聚焦于此。不过即使如此,扩散模型在其他领域的应用仍不容忽视,可能在不远的将来,它们就会像在图像生成领域一样蓬勃发展,一鸣惊人。

本文将介绍扩散模型在如下领域的应用:

  • 计算机视觉;
  • 时序数据预测;
  • 自然语言处理;
  • 基于文本的多模态;
  • AI基础科学;

1)计算机视觉

       计算机视觉包括2D视觉和3D视觉两个方面,这里仅介绍扩散模型在2D图像领域的应用。

       图像类的应用十分广泛,而且与人们的日常生活息息相关。在扩散模型出现之前,与图像处理相关的研究已经有很多了,而扩散模型在许多图像处理任务中都可以很好地发挥作用,具体如下。

  • 图像分割与目标检测,图像分割与目标检测是计算机视觉领域的经典任务,在智能驾驶方面备受关注。而在加入扩散的方法之后,就可以获取更精准的分割和检测结果了,例如Meta AI的Se 制扩散模型可以生成分割Mask图(如图3-1所示),检测扩散模型DiffusionDet同样可以端到端地从随权经光根逐步生成检测框(如图3-2所示)。不过,扩散模型仍然存在生成速度慢的问题,在应用于一些需检测的场景时还需继续化化。

图3-1 SegDiff生成的分割Mask图

图3-2 DiffusionDet生成的检测框

  • 图像超分钟率,图像超分钟率是一项能够将低分辨年图像重建为高分辨率图体,同时保证图像市药线贯的技术。CDM(Cascaded DiffusionModel,组联扩教模型)通过采用事联多个扩散模型的方式,分级式地逐步放大分钟率,实现了图像超分钟车,图3-3给出了一个使用CDM实现图像超分拼串的示例。

图3-3 使用CDM实现图像超分辨率

  • 图像修复、图像翻译和图像编辑。图像修复、图像翻译和图像编辑是对图像的部分或者全部区域执行的操作,包括缺失部分修补、分格迁移、内容替换等。Palette是一个集成了图像修复、图像翻译和图像编辑等功能的扩散模型。它可以在一个模型中完成不同的图像级任务。图3-4给出了一个使用Palette修复图像的示例。

图3-4 使用Palette修复图像

2)时序数据预测

       时序数据预测旨在根据历史观测数据预测未来可能出现的数据,如空气温度预测、股票价格预测、销售与产能预测等。时序数据预测同样可以视为生成任务,即基于历史数据的基本条件来生成未来数据,因此扩散模型也能发挥作用。

       TimeGrad是首个在多元概率时序数据预测任务中加入扩散思想的自回归模型。为了将扩散过程添加到历史数据中,TimeGrad首先使用RNN (Recurrent Neural Network,循环神经网络)处理历史数据并隐空间中,然后对历史数据添加噪声以实现扩散过程,由此处理数千维度的多元数据并完成预测任务。图3-5展示了TimeGrad在城市交通流量预测任务中的表现。

图3-5 TimeGrad在城市交通流量预测任务中的表现

       时序数据预测在实际生活中的应用非常广泛。在过去,传统机器学习算法以及深度学习的RNN系列方法一直处于主导地位。如今,扩散模型以及表现出巨大的潜力,而这仅仅是个开始。

3)自然语言处理

       自然语言领域也是人工智能的一个重要发展方向,旨在研究人类语言与计算机通信的相关问题,最近"爆火"的ChatGPT就是一个自然语言生成问答模型。

       实际上,扩散模型同样可以完成语言类的生成任务。只要将自然语言类的句子分调并转换为词向量之后,就可以通过扩散的方法来学习自然语言的语句生成,进而完成自然语言领域一些更复杂的任务,如语言翻译、问答对话、搜索补全、情感分析、文章续写等。

       Diffusion-LM是首个将扩散模型应用到自然语言领域的扩散语言模型。该模型旨在解决如何将连续的扩散过程应用到离散的非连续化文本的问题,由此实现语言类的高细粒度可控生成。经过测试,Diffusion LM在6种可控文本生成任务中取得非常好的生成效果。

       实际上,后续也有非常多的基于Diffusion-LM的应用。不过在自然语言领城,目前的主流模型仍然是GPT (Generative Pre-trained Transformer)。

4)基于文本的多模态

      多模态信息指的是多种数据类型的信息,包括文本、图像、音/视频、3D物体等、多模态信息的交互是人工智能领域的研究热点之一,对于AI理解人类世界、帮助人类处理多种事务具有重要意义。在诸如DALLE-2和StableDiffusion等图像生成扩散模型以及ChatGPT等语言模型出现之后,多模态开始逐渐演变为基于文本和其他模态的交互,如文本生成图像、文本生成视频、文本生成3D等。

  • 文本生成图像。文本生成图像是扩散模型最流行,最成熟的应用,输入文本提示语或仅仅输入几个词,扩散模型就能根据文字描述生成对应的图片。开头介绍的文名鼎磊的文容生成DALLE-2、Imagen以及完全开源的Stable Diffision等,都属于文本和图像的多模态扩散模型。图3-6给出了几个使用Imagen实现文字生成图像的示例,后面将重点介绍与文本生成图像相关的应用。

图3-6 使用Imagen实现文字生成图像的几个示例

  • 文本生成视频。与文本生成图像类似,文本生成视频扩散模型能够将输入的文本提示语转换为相应视频流。不同的是,视频的前后帧需要保持极佳的连贯性。文本生成视频也有非常广泛的应用,如Meta AI的Mate-A-Video(如图3-7所示)以及能够精细控制视频生成的ControlNet Video等。图3-8展示了Hugging Face上的ControlNet Video Space应用界面。

图3-7 Meta Al的Make-A-Video:一条身看超人外衣、肩披红色斗篷的狗在天空中翱翔

图3-8 Hugging Face上的ControlNet Video Space应用界面

  • 文本生成3D。同样,文本生成3D扩散模型能够将输入的文本转换为相应的3D物体。稍有不同的是,3D物体的表征有多种方式,如点云、网格、NeRF等。不同的应用在实现方式上也略有差异,例如:DiffRF提出了通过扩散的方法实现从文本生成3D辐射场的扩散模型,如图3-9所示;基于二维图像生成对应的3D点云,我们可以在Hugging Face上体验官方给出的演示实例,如图3-10所示。虽然目前文本生成3D技术仍处于起步阶段,但其应用前景非常广阔,包括室内设计、游戏建模、元宇宙数字人等。

图3-9 使用DiffRF生成3D沙发

图3-10 Hugging Face上的3DFuse Space界面

5)AI基础科学

       Al基础科学又称Al for Science,它是人工智能领域具有广阔前景的分支之一,甚至能够发展为造福人类的技术。与AI基础科学相关的研究成果也不止一次荣登《自然》杂志。例如,2021年DeepMind研究的AlphaFold 2可以预测人类世界98.5%的蛋白质,2022年DeepMind用强化学习控制核聚变反应堆内过热的离子体等。

       扩展模型对生成类的任务一直表现十分专业,AI基础科学中生成预测类的研究当然也少不了扩展模型的参与。SMCDIT创建了一种扩散模型,该扩散模型可以根据给定的模体结构生成多样化的支架蛋白质,如图3-11所示。CDVAE则提出了一种扩散晶体变分自编码器模型,旨在生成和优化具有固定周期性原子结构的材料,如图3-12所示。

图3-11 SMCDIT生成的多样化的支架蛋白质

图3-12 CDVAE生成的遵循Langevin动力学的不同原子结构的材料

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/26959.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL 优化

问题描述 MySQL 的性能优化分为四个部分: 硬件和操作系统层面的优化架构设计层面的优化MySQL 程序配置优SQL 优化 一、硬件及操作系统层面优化 从硬件层面来说,影响 Mysql 性能的因素有,CPU、可用内存大小、磁盘读写速度、 网络带宽。 从操作…

docker solr-8.11.2安装部署

历史背景 现在solr官网仅能够下载到最新版本的安装包。并且支持docker。现在就用docker来部署一下 1、准备工作 docker环境部署(这个自己百度一下哈,很简单两个命令就能解决) yum -y install yum-utils yum -y install docker-ce 安装命令…

爬虫 学习HTML标签和元素的基本概念,了解网页的结构和内容

HTML&#xff08;Hypertext Markup Language&#xff09;是一种用于创建网页的标记语言&#xff0c;由一系列的标签组成。标签使用尖括号&#xff08;< 和 >&#xff09;包围&#xff0c;并且通常成对出现&#xff0c;一个是开始标签&#xff0c;一个是结束标签。 HTML文…

第7集丨Vue 江湖 —— 条件渲染

目录 一、v-show二、v-if2.1 基本使用2.2 条件渲染分组2.3 与 v-else-if、v-else 结合使用 三、v-if vs v-show四、测试案例 本节条件渲染所涉及到的指令有&#xff1a; v-showv-ifv-else-ifv-else 一、v-show 1. 用法&#xff1a; 语法: v-show" 表达式"&#xff…

FFmpeg 使用总结

FFmpeg 简介 FFmpeg的名称来自MPEG视频编码标准&#xff0c;前面的“FF”代表“Fast Forward”&#xff0c;FFmpeg是一套可以用来记录、转换数字音频、视频&#xff0c;并能将其转化为流的开源计算机程序。可以轻易地实现多种视频格式之间的相互转换。包括如下几个部分&#xf…

QT学习之旅 - Winsock入门

文章目录 服务端初始化为服务器创建套接字sockaddr和sockaddr_ininet_addrhtonl()、htons()、ntohl()、ntohs()四个函数htonl()函数htons()函数ntohs()函数ntohl()函数这些函数存在的意义(就是为了字节存放) 绑定getsockoptudp主函数处理 客户端 客户端和服务器应用程序的前几个…

webpack基础知识九:如何提高webpack的构建速度?

一、背景 随着我们的项目涉及到页面越来越多&#xff0c;功能和业务代码也会随着越多&#xff0c;相应的 webpack 的构建时间也会越来越久 构建时间与我们日常开发效率密切相关&#xff0c;当我们本地开发启动 devServer 或者 build 的时候&#xff0c;如果时间过长&#xff…

那些 MySQL 8.0 中的隐藏特性

在本文中&#xff0c;我想讨论 MySQL 8.0 中的几个相当新的特性&#xff0c;以及一个较老的特性。这些可能是您不知道的次要功能&#xff0c;但值得快速了解一下它们的工作方式以及在某些情况下可能的用途。 作者&#xff1a;Corrado Pandiani 本文来源&#xff1a;Percona 官网…

电源控制--品质因素Q值全解

什么是品质因素Q值&#xff1f; 在电源控制中&#xff0c;品质因素 Q 值通常用于描述电源滤波器的性能。电源滤波器用于减小电源中的噪声和干扰&#xff0c;以提供干净稳定的电源供应给电子设备。 品质因素 Q 值在电源滤波器中表示滤波器的带宽和中心频率之比&#xff0c;用于…

IP提取器对比器

需求&#xff1a; 一个html 页面 &#xff0c;有两个输入框 第一个输入框输入文本中包含多个ip&#xff0c;输入的ip是不规则的&#xff0c;需要使用正则表达式提取出 输入文本的ip地址 &#xff0c; 然后在第二个输入框中输入内容&#xff0c;并提取出内容的ip &#xff0c;如…

Spark 内存管理之 MemoryConsumer

MemoryConsumer 是内存的使用者&#xff0c;如 sort, shuffle。MemoryConsumer 的 spill 方法是抽象方法&#xff0c;由子类提供。 MemoryConsumer 的字段和构造方法如下&#xff1a; public abstract class MemoryConsumer {protected final TaskMemoryManager taskMemoryMan…

Linux进程间通信--msgsnd函数的作用

msgsnd函数用于将消息发送到消息队列中。它的原型如下&#xff1a; int msgsnd(int msqid, const void *msgp, size_t msgsz, int msgflg); 参数解释&#xff1a; msqid&#xff1a;消息队列标识符&#xff0c;由msgget函数返回。msgp&#xff1a;指向要发送的消息的指针&…

改变vue循环生成的盒子样式,给点击的某一个盒子添加不同的样式

1.给盒子添加动态属性:class"[index isActive?active-box:choose-box]" <div v-for"(item,index) in zyList" :key"item.sid" :class"[index isActive?active-box:choose-box]" click"getKmList(item,index)"…

大数据开发的学习路线是什么样的

大数据技术的体系庞大且复杂&#xff0c;每年都会涌现出大量新的技术&#xff0c;目前大数据行业所涉及到的核心技术主要就是&#xff1a;数据采集、数据存储、数据清洗、数据查询分析和数据可视化。 学习大数据需要掌握什么语言基础&#xff1f; 1、Java基础 大数据框架90%以…

什么是OCR?OCR技术详解

光学字符识别(Optical Character Recognition)简称为“OCR”。ORC是指对包含文本资料的图像文件进行分析识别处理&#xff0c;获取文字及版面信息的技术。 一般包括以下几个过程&#xff1a; 1.图像输入 针对不同格式的图像&#xff0c;有着不同的存储格式和压缩方式。目前&…

Elastic:linux设置elasticsearch、kibana开机自启

0. 引言 每次启动服务器都要手动启动es服务&#xff0c;相当之不方便&#xff0c;为此&#xff0c;书写一个脚本&#xff0c;实现es、kibana的开机自启 1. 原理 首先任何服务要实现开机自启&#xff0c;都可分为如下三步&#xff1a; 1、在/etc/init.d目录下创建启动、关闭服…

C#设计模式(15)命令模式(Command Pattern)

命令模式&#xff08;Command Pattern&#xff09; 命令模式是一种数据驱动的设计模式&#xff0c;属于行为型模式类别。请求被包装在一个对象中作为命令&#xff0c;并传递给调用对象。调用对象寻找可以处理该命令的合适对象&#xff0c;并将命令传递给相应的对象&#xff0c…

海康威视摄像头配置RTSP协议访问、onvif协议接入、二次开发SDK接入

一、准备工作 (1)拿到摄像头之后,将摄像头电源线插好,再将网线插入到路由器上。 (2)将自己的笔记本电脑也连接到路由器网络,与摄像头出在同一个局域网。 二、配置摄像头 2.1 激活方式选择 第一次使用设备需要激活,在进行配置。 最简单,最方便的方式是选择浏览器激…

uniapp创建项目入门【详细】

大家在学习vue和微信小程序之后&#xff0c;就可以开始来学习uniapp了&#xff0c;在uniapp中&#xff0c;一套代码可以跨越所有的平台&#xff0c;可以很方便的维护。接下来我们先来学习如何创建uinapp的项目 一、uniapp的创建需求 大家只要会vue和微信小程序的基础来学习unia…

在CentOS7安装部署GitLab服务

CentOS 7 安装 Gitlab 官方安装教程&#xff1a;https://about.gitlab.com/install/ 参考安装教程&#xff1a;https://developer.aliyun.com/article/74395 安装配置 Step1&#xff1a;配置yum源 vim /etc/yum.repos.d/gitlab-ce.repo存入以下内容&#xff1a; [gitlab-c…