物理学如何推动生成式 AI 的发展

一、说明

        许多尖端的生成式 AI 模型都受到物理学概念的启发。在本指南中,我们将从高层次上了解物理学如何推动人工智能的进步。不同的领域经常交叉授粉重要概念,这有助于推动其进步。数学概念为物理学的进步奠定了基础;物理学中的概念经常启发经济学的框架。

        人工智能 (AI) 也加入了这一行列,从物理学中汲取灵感,开发最先进的模型,并告知它们在基础层面上是如何工作的。虽然物理学的思想以前已经被整合到人工智能中,但直到最近,这些模型才以如此不屈不挠的方式超越了其他方法,如DALL-E 2和Stable Diffusion等模型。

        在本文中,我们将从高层次上了解这些最新进展,并展示来自物理学两个不同子领域(静电学和热力学)的概念如何将生成式 AI 模型的性能提升到一个新的梯队。

使用静电原理生成人脸图像的生成式 AI 模型(由 PFGM 作者提供)

        本文面向任何对这些强大模型如何工作的高级概念感兴趣的人。我们不会涉及特定的数学细节,因此解释应该对人工智能所有经验水平的读者都有帮助。

二、静电学和热力学的教训

        我们将要研究的这两种情况最常应用于图像的生成式 AI。对于静电学,将概率密度处理为电荷密度是该方法的核心,其中可以利用根据物理定律的电子运动来生成新颖的图像。

        在热力学的第二种情况下,将图像中的像素视为原子是该方法的核心,其中这些原子在时间上向前和向后的自然运动同样可以被利用来生成图像。

现在让我们来看看第一个案例。

三、具有静电的生成式 AI

        静电学可以看作是对电荷的研究。电荷密度是连续物体,在不同区域具有不同的电荷量。与电荷密度的区域相比,高电荷密度的地方会以更大的力排斥(或吸引)电子。

这种带电的棒在棒上的不同点具有不同的电荷量(电子数)

        我们可以绘制出该杆的电荷密度 - 对于杆上的每个点,我们绘制出该点的“多少”电荷。正如我们所看到的,中间有很多电荷,在杆的两端逐渐减少到较低的电荷。

在杆上的每个点上,曲线的高度指定了电荷密度

        另一方面,也有概率密度。这些曲线显示了某物每个值的可能性。下面,我们显示了人类男性身高的概率密度曲线。正如我们所看到的,身高为 5 英尺 11 英寸(71 英寸,180 厘米)的男性是相当可能的,而比这更高或更矮的身高不太可能。

人类男性的身高分布可以用类似的方式绘制

        您可能已经注意到,这些曲线看起来非常相似。一类特定的生成式 AI 模型 - 泊松流生成模型 (PFGM) - 也观察到了这一点。PFGM 的工作原理是将概率密度视为电荷密度

        具体来说,为了生成数据,我们需要从该类型数据的概率分布中抽样。如果我们想生成一个逼真的人类样本(只考虑身高和体重),他们不太可能看起来像这样:

        这种不太可能的身高和体重形成更不可能的组合,并且更不可能一起作为三元组样本

        特别是,不太可能出现那么高那么瘦,或者那么矮那么宽的人,更不用说同时拥有 3 个这样的极端的样本了。我们需要能够根据身高和体重组合的可能性从分布中进行采样,以便生成更真实的新颖数据,如下所示:

仅考虑身高和体重,这个男性样本比上述样本要现实得多

        通过生成式 AI,我们尝试使用一组示例数据点来了解可能有哪些组合来生成真实的数据。这组示例数据点称为训练数据,它决定了我们将生成哪种类型的数据。例如,如果我们的训练数据是人脸图像,那么我们将训练模型以生成人脸图像。

这与静电有什么关系?

3.1 作为电荷分布的数据分布

通常,学习生成类似于训练数据的样本可能很困难。PFGM 没有尝试直接做到这一点,而是利用静电的巧妙技巧来规避这个问题。

PFGM 不再将数据视为概率分布,而是改变视角并将此分布视为电荷分布。更有可能的数据点(更高的概率密度)被认为具有更多的电荷(更高的电荷密度)。

就其本身而言,这并没有多大帮助 - 但PFGM利用了一个关键事实:当被视为电荷分布时,该分布将自我排斥。随着时间的流逝,这种排斥力会“膨胀”,并逐渐将分布转变为一个大的均匀半球。我们可以在下面看到这个过程的视频:

当被视为电子时,训练数据会随着时间的推移自行排斥形成一个均匀的半球(由 PFGM 作者提供)

我们看到,示例心形分布通过在每个点上遵循轨迹(如下面的黑色曲线所示)而演变为半球分布。

对于数据中随机选择的几个点(心形),我们看到将它们映射到半球的轨迹(黑色曲线)(来源)

        这个过程对我们有什么帮助?我们之前说过,很难从数据分布中抽样,这是我们的最终目标。从这个均匀的半球取样并不困难。由于它是如此均匀和规则,我们只需随机选择其上的任何点即可从半球采样。

        让我们利用这个事实:我们不是尝试直接对数据分布进行建模并直接从中采样,而是在均匀半球上对一个点进行采样,然后使用物理场将其映射回数据分布。泊松流生成模型的目标是学习轨迹曲线,如上图所示。这些曲线由物理定律产生,提供了两个分布之间的映射

        由于正常的正向时间物理学将数据沿轨迹映射到半球,因此我们使用 PFGM 在时间上向后映射到另一个方向。我们没有尝试直接对数据的概率分布进行建模,而是对复杂概率分布和简单半球分布之间的转换进行建模,我们可以轻松地从中选择点。

我们了解物理定律如何在数据分布之间映射,以便从易于采样的数据中生成新颖的图像

        整个过程如上图所示。总结一下:

  1. 我们的最终目标是新数据。我们无法通过直接从数据分布中采样来达到目的,因为直接采样太复杂了。
  2. 物理定律将这种复杂的数据分布转化为简单的半球分布
  3. 我们的 PFGM 为我们特定的训练数据集学习这种转换(即轨迹)。
  4. 然后我们从半球取样,这很容易做到
  5. 一旦我们有了这个样本,我们就会反向运行物理,沿着我们刚刚学到的这些轨迹向后移动,得出数据分布,从而生成新的数据

        如果这令人困惑,请不要担心 - 这是一个难以理解的概念。重要的部分是,物理学在我们想要的(新数据)和我们可以轻松获得的(半球数据)之间架起了一座桥梁

        想了解更多关于PFGM的信息吗?

查看我们的专用指南,其中更深入地解释了它们的工作原理。

一探究竟

我们也可以在其他领域利用这种方法——现在让我们来看看我们如何利用热力学来做到这一点。

3.2 具有热力学的生成式 AI

        热力学可以看作是对随机性的研究。例如,如果我们随机地将一堆硬币扔在地上,我们可以问其中 50% 的单挑着地的概率与 100% 的单挑着地的概率相比如何。

        让我们看一下四枚硬币的情况。其中 100%(四个)单挑着陆的概率小于其中只有 50%(两个)单挑着陆的概率。这是因为只有两枚硬币有六种方式可以正面朝上,而所有四种硬币只有一种方式可以正面朝上。

        只有两枚硬币正面朝上有更多方法,因为在两枚硬币正面朝上方面有灵活性,而在四枚硬币的情况下没有这种灵活性——所有硬币都必须正面朝上

        在这种情况下,我们看到 50% 的硬币被单挑的可能性是 100% 的 6 倍。如果我们将同样的思想实验扩展到十个硬币,那么 50%(五个)硬币单挑落地的可能性是 100%(十个)硬币单挑落地的可能性的 252 倍。如果我们将其扩展到仅 50 个硬币,那么这个因素的可能性就会增加 126 万亿倍。如果我们将这个概念扩展到数十亿个硬币呢?

3.3 从硬币到原子:扩散

        热力学将原子铸造为“硬币”,并研究上述现象在物理系统中的后果。例如,如果将一滴食用色素放入一杯水中,食用色素会扩散开来,最终在玻璃杯中形成均匀的颜色。为什么会这样?

随着时间的流逝,食用色素会自然扩散,从而在玻璃杯中形成均匀的颜色(来源)

        均匀的颜色是食用色素原子随时间扩散的结果。数十亿个原子在不同的地方比所有原子在同一个地方的方式要多得多,就像50%的硬币比100%的硬币有更多的方式。当所有原子都集中在一滴中时,它们可以被认为是“100%单挑”;当原子均匀分布时,它们可以被认为是“50%的单挑”。

        请记住,“50%的单挑”状态更有可能发生,并且只会随着硬币数量的增加而变得更有可能 - 只有50个硬币的可能性要高出126万亿倍。当我们将原子视为硬币时,我们必须记住,仅一滴食用色素中就有数万亿个原子。有了这么多的原子,它们最终扩散的可能性就变得比集中的液滴要大得多。因此,只需通过随机运动,当液滴接近这种 50% 的均匀颜色状态时,液滴就会随着时间的推移而扩散开来。

        这个过程被称为扩散,它启发了 DALL-E 2 和 Stable Diffusion 等模型。

3.4 从原子到像素:生成式人工智能中的扩散

        正如热力学将原子视为硬币一样,扩散模型将图像的像素视为原子。与食用色素的随机运动总会导致颜色均匀类似,像素的“随机运动”总会导致“电视静态”,即均匀食用色素的图像等价物。

        原子的随机运动总是会导致均匀的颜色,而像素的随机运动(即稍微改变它们的值)总是会导致电视静止

        重要的是,无论我们在哪里放置最初的食用色素滴,随着时间的推移,所有可能的起始位置都会产生相同的均匀颜色的最终状态。

随着时间的流逝,所有起始掉落都接近相同的最终状态

        特别要注意的是,不可能向后走,找出这种均匀状态的初始下降位置,因为所有初始状态都会导致它。缺乏注入性使得一般情况下不可能倒退。

        由于所有可能的下降都会导致相同的最终状态,因此在仅查看最终状态时不可能知道初始下降的位置。

        我们总是知道液滴在正向时间内如何扩散,但由于注入性问题,我们不知道如何反向扩散均匀着色。但是,如果我们将关注点归结为一个特定的下降点,那么我们可以在时间上向前向后模拟这个过程。

        如果我们只考虑一个初始滴点位置,那么我们可以成功地模拟随时间向前和向后的扩散过程

        扩散模型在图像域中使用相同的原理。特别是,扩散模型的不同“液滴”对应于不同类型的图像。例如,这些水滴可以对应于的图像、人类的图像和手写数字的图像。

每种类型的图像(狗脸、人脸、数字)都类似于液体中不同的初始“滴”

        通过只选择一种类型的图像,比如狗的图像,扩散模型可以学会为这种类型的图像及时倒退,就像我们如何通过只选择一滴来学习从统一的颜色中倒退一样。

通过只选择一种类型的图像,在本例中为狗的图像,我们可以学会从电视静态到狗的图像的时间倒退

3.5 使用扩散模型生成图像

        可能还不清楚我们为什么要这样做——如果我们有一个狗的图像数据集,我们为什么要像这样前进和后退?答案在于,正上方的图略带欺骗性——狗的特定图像与食用色素的滴度不同——它是狗的整个类别的图像类似于食用色素的滴落。

        狗的特定图像实际上类似于食用色素滴中的特定原子。从上面回想一下,将我们的关注点归结为最初的一滴,使我们能够在时间上向前向后模拟扩散过程。

        从上面,我们看到,专注于一个特定的起始落点可以让我们对正向和反向时间的动态进行建模

        了解扩散过程在逆时中是如何工作的,使我们能够将单个原子追溯到它们在液滴中的起点。特别是,我们从均匀的食用色素中随机挑选一个原子,然后逆转时间,看看它从哪里开始

        选择一滴可以让我们在相反的时间内模拟扩散,这使我们能够将单个原子追溯到它们的起始位置

        我们用扩散模型来模拟这个过程。类似地,我们随机选择一张电视静态图像(“原子”),然后通过时间倒流来找出它在数据分布中的起点(“初始下降”)。也就是说,我们确定哪个狗的图像导致了该电视静态图像。

        图像就像原子 - 我们使用一组特定类型(例如狗)的示例(训练数据)来了解扩散过程如何适用于该类型的任何特定图像。然后,我们随机选择一张电视静态图像(不在训练数据中),并利用这些知识生成新颖的图像。

        想了解更多关于扩散模型的信息吗?

        查看我们的专用指南,其中更深入地解释了它们的工作原理。

        这个过程与PFGM非常相似。借助 PFGM,我们对将数据分布映射到均匀半球的物理场进行了建模。由于半球很容易采样,我们在上面选择一个点,并在逆时运行物理场以生成新图像。通过扩散模型,我们对将数据分布映射到电视静态的物理场进行建模。由于电视静态很容易生成,因此我们随机选择一张电视静态图像,并在逆时运行物理以生成新图像。

从数据分布中采样是困难的,但从电视静态分布中采样则不然。注意到物理学将前者转化为后者,我们使用反时间物理学将后者的样本转换为前者的样本。

扩散模型是生成式人工智能在图像领域取得很大进展的基础。像 Imagen 和 DALL-E 2 这样的文本到图像模型增强了这一过程,使我们能够告诉模型我们希望生成的图像是什么样子。

四、最后的话

        人工智能的许多最新进展都受到物理学思想的启发。正如我们所看到的,这些高级思想是生成式人工智能现代方法的基础,为最新一代的人工智能模型提供动力。

        如果您喜欢这篇文章,请随时查看我们的其他一些文章,以了解大型语言模型的涌现能力或 ChatGPT 的实际工作原理。或者,请随时订阅我们的时事通讯,以便在我们发布此类新内容时随时了解情况。

参考资料:How physics advanced Generative AI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/621424.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

紫外加速老化试热冲击试验箱

紫外加速老化试热冲击试验箱是用于测试产品在高低温环境下的适应性以及性能表现的实验设备。其功能特点主要包括以下几个方面: 1. 温度控制:冷热冲击试验箱能够提供高温、低温以及常温的测试环境,并且可以快速地实现温度的转换和控制。这使得…

高效办公:如何通过在文件名称右边添加关键字提升工作效率

在繁忙的办公环境中,经常要处理大量的文件和资料。那如何管理和查找这些文件呢,常见的方法有在文件名称右边添加关键字。下面来看云炫文件管理器如何通过在文件名称右边添加关键字来提升工作效率。 在文件名称右边添加关键字前后效果图。 文件名批量添加…

P5461 赦免战俘题解

题目 现有2n2n(n≤10) 名作弊者站成一个正方形方阵等候kkksc03的发落。kkksc03决定赦免一些作弊者。他将正方形矩阵均分为4个更小的正方形矩阵,每个更小的矩阵的边长是原矩阵的一半。其中左上角那一个矩阵的所有作弊者都将得到赦免,剩下3个小矩阵中&…

AC修炼计划(AtCoder Beginner Contest 334)A~G

传送门:UNIQUE VISION Programming Contest 2023 Christmas (AtCoder Beginner Contest 334) - AtCoder A题是最最基础的语法题就不再讲解。 B - Christmas Trees 该题虽然分低,但我觉得还是很不错的。 给你 l 和 r ,设满足题意的数字是x则…

Linux学习之网络编程3(高并发服务器)

写在前面 Linux网络编程我是看视频学的,Linux网络编程,看完这个视频大概网络编程的基础差不多就掌握了。这个系列是我看这个Linux网络编程视频写的笔记总结。 高并发服务器 问题: 根据上一个笔记,我们可以写出一个简单的服务端…

七、HorizontalPodAutoscaler(HPA)

目录 一、HPA概述: 二、HPA工作机制: 三、HPA流程: 四、HPA API对象: 五、示例: 1、基于CPU的HPA 2、常见问题: 3、基于内存的HPA 一、HPA概述: Horizontal Pod Autoscaler,中文就是水平自动伸缩可…

【洛谷千题详解】P7072 [CSP-J2020] 直播获奖

输入样例&#xff1a; 10 60 200 300 400 500 600 600 0 300 200 100 输出样例&#xff1a; 200 300 400 400 400 500 400 400 300 300 #include<bits/stdc.h> using namespace std; int main() {int n,w,s,a[605]{0};cin>>n>>w;for(int i1;i<n;i){sca…

【MySQL】数据处理之增删改

文章目录 一、增加&#xff08;插入&#xff09;INSERT INTO...VALUES(...,...)VALUES的方式添加情况一&#xff1a;为表的所有字段按默认顺序插入数据情况二&#xff1a;为表的指定字段插入数据情况三&#xff1a;同时插入多条记录 将查询结果插入到表中 二、修改&#xff08;…

AcWing 843. n-皇后问题

#include <iostream> #include <cstring> #include <algorithm>using namespace std; const int N 10; int n; int col[N], dg[N N], rdg[N N]; // 列占用// 正对角线占用// 副对角线占用 char table[N][N]; // 棋盘void dfs(int index) {if(i…

彻底理解字符编码

一、前言 为什么要进行编码&#xff0c;这些编码的关系如何&#xff0c;如ASCII&#xff0c;IOS-8859-1&#xff0c;GB2312&#xff0c;GBK&#xff0c;Unicode之间的关系&#xff0c;笔者想要彻底理解字符编码背后的故事&#xff0c;遂进行了探索&#xff0c;具体笔记如下。如…

“绿智中国”亚洲绿色数字生态发展论坛暨中泰基业集团2024产品发布会在渝举行

绿智中国&#xff0c;逐梦未来。2024年1月11日-12日&#xff0c;“绿智中国”亚洲绿色数字生态发展论坛暨中泰基业集团2024产品发布会在重庆盛大举行。以“以数字化引领绿色化&#xff0c;以绿色化带动数字化”为主题&#xff0c;共同见证“绿智中国”崛起的力量。 为积极响应《…

目标检测-One Stage-YOLOv7

文章目录 前言一、YOLOv7的不同版本二、YOLOv7的网络结构二、YOLOv7的创新点三、创新点的详细解读ELAN和E-ELANBoF训练技巧计划型重参化卷积辅助训练模块标签分配Lead head guided label assignerCoarse-to-fine lead head guided label assigner 基于级联模型的复合缩放方法 总…

canvas设置圆锥形渐变

查看专栏目录 canvas示例教程100专栏&#xff0c;提供canvas的基础知识&#xff0c;高级动画&#xff0c;相关应用扩展等信息。canvas作为html的一部分&#xff0c;是图像图标地图可视化的一个重要的基础&#xff0c;学好了canvas&#xff0c;在其他的一些应用上将会起到非常重…

隧道应用4-内网穿透EW的简单使用

与netsh端口映射内网类似&#xff0c;也是通过跳板机实现 EW官网地址&#xff1a;http://rootkiter.com/EarthWorm EW 是一套便携式的网络穿透工具&#xff0c;具有 SOCKS v5服务架设和端口转发两大核心功能&#xff0c;可在复杂网络环境下完成网络穿透。 注&#xff1a; 考虑…

【MATLAB源码-第111期】基于matlab的SCMA系统误码率仿真,采用polar码编码,输出误码率曲线。

操作环境&#xff1a; MATLAB 2022a 1、算法描述 SCMA&#xff08;Sparse Code Multiple Access&#xff09;系统是一种先进的多用户多输入多输出&#xff08;MU-MIMO&#xff09;通信系统&#xff0c;它采用了一种独特的多址访问技术&#xff0c;旨在提高无线通信网络的效率…

Ubuntu 22.04 Cron使用

需要定时处理的场景还是比较多的&#xff0c;比如信息推送、日志清理等。 这篇文章我们来说说如何使用cron来实现定时处理&#xff0c;以及监控任务的执行。 使用 Ubuntu中使用cron&#xff0c;要用到的命令是crontab。不加sudo时&#xff0c;处理的是个人的定时任务。当加上…

STEGNN

STEGNN 摘要 随着智能交通系统(ITS)逐渐融入我们的日常生活,人们普遍认为路网预测是智能交通系统的杀手锏,具有很高的社会和经济效益。然而,目前的解决方案忽视了时空交通数据的异质性,无法捕捉隐藏的时空相关性。本文介绍了 STEGNN:一种用于路网预测的新型时空嵌入图神…

Java控制结构解析

在 Java 编程语言中&#xff0c;控制结构用于控制程序的执行流程。以下是几种常见的控制结构及其解析&#xff1a; 条件语句&#xff08;If-else 语句&#xff09;&#xff1a;根据条件的真假来执行不同的操作。Switch 语句&#xff1a;根据一个表达式的值&#xff0c;选择不同…

P4学习(一) 环境搭建

系列文章目录 第一章 P4学习入门之虚拟机环境搭建 文章目录 系列文章目录前言一、P4是什么&#xff1f;二、搭建步骤1.下载虚拟机镜像2.虚拟机管理软件载入镜像2.1 找到你镜像的所在位置2.2 打开VMware Workstation2.3 载入镜像 3.检验环境是否配置成功 P4 的真机环境搭建 前言…

10.9.2 std::function 代替函数指针

std::function是一个模板类&#xff0c;基本可作为函数指针的代替品&#xff0c;具备更多功能&#xff0c;特别是与函数对象及bind配合使用。使用std::function时&#xff0c;需要添加头文件 #include <functional> 1.定义函数指针 18行&#xff0c;定义了一个函数指针类…