文本生成是许多用户正在使用的,也是所有生成式人工智能工具中影响最大的。但生成式人工智能的一部分兴奋点也在于图像生成。目前也开始出现一些可以生成文本或图像的模型,这些有时被称为多模态模型,因为它们可以在多种模式中操作,如文本或图像。在这个视频中,我想与您分享图像生成是如何工作的。
让我们来看看。只需一个提示,您就可以使用生成式人工智能生成一个从未存在过的人的美丽图片,或者一个未来主义场景的图片,或者像这样一个酷炫的机器人的图片。这项技术是如何工作的呢?今天的图像生成主要是通过一种称为扩散模型的方法完成的。
扩散模型从互联网或其他地方找到的大量图像中学习。事实证明,扩散模型的核心是监督学习。这是它的工作原理。假设算法在互联网上找到了一个苹果的图片,像这样,它希望从这样的图片和其他数亿张图片中学习如何生成图像。第一步是拿这张图片,逐渐添加越来越多的噪声。你可以从这个漂亮的苹果图片,变成一个更嘈杂的,再到一个更嘈杂的,最后变成一个看起来像纯噪声的图片。所有像素都是随机选择的,一点也不像苹果。然后扩散模型使用这样的图片作为数据,通过监督学习,学会输入一个噪声图片并输出一个稍微清晰一点的图片。具体来说,它会创建一个数据集,其中第一个数据点说如果给出第二张输入图片,我们希望监督学习算法学会输出这个苹果的更清晰版本。这是另一个数据点,给出这第三张更嘈杂的图片,我们希望算法学会输出像这样稍微清晰一点的图片。最后,给出一个像这第四张图片的纯噪声,我们希望它学会输出一个暗示苹果存在的稍微清晰一点的图片。
在经过可能数亿张图片的培训后,像这样的过程,当你想要应用它来生成一张新图片时,这就是你运行它的方式。
首先是从纯噪声图片开始。首先拍摄一张图片,图片中的每一个像素都是完全随机选择的。然后我们将这张图片输入到我们之前行的监督学习算法中。
当我们输入纯粹噪声时,它学会从这张图片中去除一点噪声,你可能会得到一张暗示着中间有某种水果的图片,但我们还不确定它是什么。给定第二张图片,我们再次输入到模型中,它会去除更多的噪声,现在看起来我们可以看到一张带有噪声的西瓜图片。
如果你再应用一
次这个过程,我们最终会得到这张第四张图片,看起来像是一张漂亮的西瓜图片。我在前一张幻灯片中用四个步骤说明增加噪声的过程,在这张幻灯片中用四个步骤说明去除噪声的过程。
但在实践中,扩散模型大概有100个步骤会更典型。这个算法适用于完全随机生成图片。
但我们想能够通过指定一个提示来控制它生成的图像,告诉它我们想要生成什么。让我描述一下这个算法的修改,让你添加文本或提示来告诉它你想生成什么。在这个训练数据中,我们得到了这样的苹果图片,以及可能生成这个苹果的描述或提示。这里,我有一个文本描述说这是一个红苹果。然后我们会像以前一样,向这张图片中添加噪声,直到得到第四张图像,即纯粹的噪声。但我们要改变构建学习算法的方式,也就是说,不是将稍微嘈杂的图片作为输入,期望它生成一张干净的图片,我们会将输入A给监督学习算法B,这个嘈杂的图片,以及能生成这张图片的文本标题或提示,即红苹果。给定这个输入,我们希望算法输出这张干净的苹果图片。
同样,我们将使用其他嘈杂的图像为算法生成额外的数据点。每次,给定一个嘈杂的图像和文本提示红苹果,我们希望算法学会生成一个红苹果的更清晰的图片。
在从大量数据集中学习之后,当你想应用这个算法生成比如说绿色香蕉时,这就是你要做的。和以前一样,我们从一张纯粹噪声的图像开始。每一个像素都是完全随机选择的。如果你想生成一个绿色的香蕉,你就把这张纯粹噪声的图片和提示“绿色香蕉”输入到监督学习算法中
。现在它知道你想要一个绿色的香蕉,希望它会输出这样的图片。看不清楚香蕉,但可能中间有一些建议绿色的水果,这是图像生成的第一步。下一步是,我们将这张右边的图像作为输出B,再次作为输入A,再加上提示“绿色香蕉”,让它生成一张稍微清晰的图片,现在我们清楚地看到,看起来有一个绿色的香蕉,但是相当嘈杂的。
我们再做一次这个过程,它最终去除了大部分噪声,直到我们得到了那张相当不错的绿色香蕉图片。这就是扩散模型用于生成图像的工作方式。在生成美丽图像的这个神奇过程的核心,再次是监督学习。感谢您坚持观看这个可选视频,期待下周见到您,届时我们将更深入地探讨使用生成AI构建的应用程序。下一个视频见。
参考
https://www.coursera.org/learn/generative-ai-for-everyone/lecture/CQP1v/image-generation-optional