生成式 AI——ChatGPT、Dall-E、Midjourney 等算法理念探讨

1.概述

艺术、交流以及我们对现实世界的认知正在迅速地转变。如果我们回顾人类创新的历史,我们可能会认为轮子的发明或电的发现是巨大的飞跃。今天,一场新的革命正在发生——弥合人类创造力和机器计算之间的鸿沟。这正是生成式人工智能。

生成模型正在模糊人类和机器之间的界限。随着采用Transformer模块的GPT-4等模型的出现,我们离自然且上下文丰富的语言生成又近了一步。这些进步推动了文档创建、聊天机器人对话系统,甚至合成音乐创作中的应用。

最近大型科技公司的决策凸显了其重要性。微软已经停止使用Cortana应用程序,本月优先考虑较新的生成式人工智能创新,例如Bing Chat。苹果还投入了很大一部分资金,22.6亿美元的研发预算,正如首席执行官蒂姆·库克所指出的,用于生成式人工智能。

这段话概述了生成式人工智能在艺术、交流和现实感知方面所带来的变革,以及它在文档创建、聊天机器人对话系统和音乐创作中的应用。同时,也提到了微软和苹果等大型科技公司在这一领域的投资和决策,显示了生成式人工智能在当前技术发展中的重要性。

2. 生成模型

生成式人工智能(Generative AI)的故事确实不仅限于它的应用,还深刻地涉及其内部运作机制。在人工智能领域,判别模型和生成模型是两种基本的模型类型,它们各自扮演着不同的角色。

判别模型(Discriminative Models)
判别模型的主要任务是区分不同的类别或做出决策。它们通过学习输入数据的特征和模式,然后根据这些特征来预测或分类新的数据点。在日常生活中,我们遇到的许多机器学习算法都属于判别模型,例如:

  • 图像识别:识别图像中的对象。
  • 语音识别:将语音转换为文本。
  • 垃圾邮件过滤:判断电子邮件是否为垃圾邮件。
  • 医学诊断:根据症状和测试结果预测疾病。

判别模型通常用于分类、回归、异常检测等任务。

生成模型(Generative Models)
与判别模型不同,生成模型的目标是生成新的数据实例,这些数据与训练数据具有相似的分布。它们不仅仅是解释或预测已有的数据,而是能够创造出全新的内容。生成模型的例子包括:

  • 图像生成:生成看起来真实的新图像。
  • 文本生成:创作诗歌、故事或对话。
  • 音乐合成:创作新的音乐作品。
  • 数据增强:在训练机器学习模型时生成额外的训练数据。

生成模型通常基于概率分布来生成数据,这意味着它们可以生成与训练数据分布相似的新实例,但具体内容是全新的。

生成式 AI 类型:文本到文本、文本到图像(GPT、DALL-E、Midjourney)

3. 生成模型背后的技术

生成模型之所以能够存在并发展,确实在很大程度上归功于深度神经网络技术的进步。深度神经网络(DNNs)是由多层人工神经元组成的网络,它们能够学习数据中的复杂模式和表示,这使得它们非常适合于生成任务。

这些生成模型是如何实现的?以下是一些关键点:

(1). 深度神经网络:生成模型通常使用深度神经网络来学习数据的高维表示。这些网络能够自动提取特征,而不需要手动设计特征提取器。

(2). 优化:通过训练过程,网络的权重会被优化,以便能够生成与训练数据相似的新数据实例。

(3). 生成对抗网络(GAN):GAN由两个关键部分组成,生成器(Generator)和判别器(Discriminator)。生成器的目标是产生逼真的数据,而判别器的目标是区分真实数据和生成器产生的假数据。这两部分在训练过程中相互竞争,推动彼此的性能提升。

(4). 变分自动编码器(VAE):VAE是另一种生成模型,它通过编码器将输入数据映射到一个潜在空间的分布上,然后通过解码器从这个分布中采样来生成新的数据。VAE的关键特性是它能够生成连续的数据点,并且可以控制生成过程的随机性。

(5). 应用领域:生成模型的应用非常广泛,包括艺术创作(如绘画和风格转移)、音乐合成、游戏玩法设计等。它们能够创造出新颖的内容,推动创意产业的发展。

(6). 创造性和想象力:生成模型不仅仅是复制现有数据,它们还能够创造出全新的、以前从未存在过的数据实例,这在艺术和设计等领域尤其有价值。

4. 生成式 AI 类型:文本到文本、文本到图像

4.1 Transformer和LLM

论文《Attention Is All You Need》由 Google Brain 团队撰写,代表了对文本建模方式的一次重大革新。该论文提出的 Transformer 模型放弃了传统的循环神经网络(RNN)和卷积神经网络(CNN)等依赖序列展开的复杂结构,转而采用了注意力机制这一创新概念。这种机制的核心在于,它能够根据上下文动态地关注输入文本的不同部分。

通过这种方式,Transformer 模型的主要优势之一是其易于并行化的能力。这与传统的 RNN 形成鲜明对比,后者由于其内在的序列处理特性,在扩展性上存在限制,特别是在处理大型数据集时。相比之下,Transformer 能够同时处理整个序列的多个部分,极大地加速了训练过程,使得在大规模数据集上的训练变得更加迅速和高效。这一突破性的设计,为自然语言处理领域带来了新的可能性,并为未来的研究和应用奠定了基础。


在长文本处理中,不是每个单词或句子都同等重要。注意力机制正是为了解决这一问题而设计的,它模仿人类理解语言时的注意力分配,即根据上下文的重要性来调整对不同部分的关注。

以下面句子为例:“联合人工智能发布人工智能和机器人新闻。” 在这个句子中,不同词语承载着不同的信息量和指向性。当使用注意力机制来预测下一个单词时,模型会分析上下文并识别关键词汇,从而决定哪些部分更值得关注。

  • “机器人”(robots)这个术语可能会吸引注意力,因为这是一个特定领域(人工智能的一个分支)的关键词。在预测下一个单词时,模型可能会考虑与机器人技术、应用或最新发展相关的词汇。
  • “发布”(publishing)这个动作则可能表明接下来的内容与新闻报道、研究成果的发布或信息的传播有关。因此,模型可能会预测与文章、期刊、发现或公告相关的词汇。

注意力机制通过为句子中的每个单词分配一个权重(即注意力分数),来确定每个单词在预测下一个单词时的重要性。权重较高的单词对模型的预测影响更大。这样,模型不仅能够捕捉局部的语法和语义信息,还能够捕捉到更远距离的依赖关系,这在处理复杂或长距离的语言结构时尤为重要。

demmo 句子的 Self-Attention 机制解释

Transformers中的注意力机制确实设计得非常巧妙,它能够实现对输入文本的选择性关注。这种机制评估文本中不同部分的重要性,并在生成响应时决定关注点,这与以往RNN等架构将所有输入信息压缩进单一状态或记忆中的方式截然不同。

注意力机制的工作原理类似于一个高效的键值检索系统。在预测句子中的下一个单词时,每个已出现的单词都相当于提供了一个“键”,这个“键”指示了该单词与预测任务的潜在相关性。然后,根据这些“键”与当前上下文(或查询)的匹配程度,为每个单词分配一个“值”或权重,这些权重共同作用于预测过程。

这种先进的深度学习模型已经被广泛应用于各种场景,从谷歌的BERT搜索引擎优化到GitHub的Copilot,后者利用大型语言模型(LLM)的能力,将简单的代码片段转化为完整的源代码。

GPT-4、Bard和LLaMA等大型语言模型(LLM)是规模庞大的结构,它们旨在解码和生成人类语言、代码等。这些模型的规模(从数十亿到数万亿个参数)是它们最显著的特征之一。通过大量文本数据的训练,这些法学硕士掌握了人类语言的复杂性。它们的一项显著能力是“少样本学习”,这意味着与传统模型相比,它们能够从极少量的示例中进行有效的学习和泛化。

4.2 截至 2024 年中后期的大型语言模型 (LLM) 状况

Model NameDeveloperParametersAvailability and AccessNotable Features & Remarks
GPT-4OpenAI1.5 TrillionNot Open Source, API Access OnlyImpressive performance on a variety of tasks can process images and text, maximum input length  32,768 tokens
GPT-3OpenAI175 billionNot Open Source, API Access OnlyDemonstrated few-shot and zero-shot learning capabilities. Performs text completion in natural language.
BLOOMBigScience176 billionDownloadable Model, Hosted API AvailableMultilingual LLM developed by global collaboration. Supports 13 programming languages.
LaMDAGoogle173 billionNot Open Source, No API or DownloadTrained on dialogue could learn to talk about virtually anything
MT-NLGNvidia/Microsoft530 billionAPI Access by applicationUtilizes transformer-based Megatron architecture for various NLP tasks.
LLaMAMeta AI7B to 65B)Downloadable by applicationIntended to democratize AI by offering access to those in research, government, and academia.

4.3 如何使用LLM

LLM通过多种方式使用,包括:

(1). 直接利用:只需使用预先训练的法学硕士进行文本生成或处理。 例如,使用 GPT-4 编写博客文章,无需任何额外的微调。
(2). 微调:针对特定任务调整预先训练的法学硕士,这种方法称为迁移学习。一个例子是定制 T5 来生成特定行业文档的摘要。
(3). 信息检索:使用 LLM(例如 BERT 或 GPT)作为大型架构的一部分来开发可以获取信息和对信息进行分类的系统。

生成式 AI ChatGPT 微调

4.4 多头注意力

然而,依赖单一的注意力机制可能会受到限制。 文本中的不同单词或序列可以具有不同类型的相关性或关联。 这就是多头注意力的用武之地。多头注意力不是一组注意力权重,而是采用多组注意力权重,使模型能够捕获输入文本中更丰富的关系。 每个注意力“头”可以关注输入的不同部分或方面,它们的组合知识用于最终预测。

4.5 ChatGPT:最流行的生成式人工智能工具

自 2018 年 GPT 诞生以来,该模型基本上建立在 12 层、12 个注意力头和 120 亿个参数的基础上,主要在名为 BookCorpus 的数据集上进行训练。 这是一个令人印象深刻的开始,让我们得以一睹语言模型的未来。

GPT-2 于 2019 年推出,其层数和注意力头增加了四倍。 值得注意的是,其参数数量猛增至 1.5 亿。 这个增强版本的训练源自 WebText,这是一个包含来自各种 Reddit 链接的 40GB 文本的数据集。

3 年 2020 月推出的 GPT-96 有 96 层、175 个注意力头和 3 亿个海量参数。 GPT-570 的与众不同之处在于其多样化的训练数据,包括 CommonCrawl、WebText、英语维基百科、书籍语料库和其他来源,总计 XNUMX GB。

ChatGPT 错综复杂的运作方式仍然是一个严格保守的秘密。 然而,众所周知,“根据人类反馈进行强化学习”(RLHF)的过程至关重要。 该技术源自早期的 ChatGPT 项目,有助于完善 GPT-3.5 模型,使其与书面指令更加一致。

ChatGPT 的培训包括三层方法:

(1). 监督微调:涉及策划人工编写的对话输入和输出,以完善底层 GPT-3.5 模型。
(2). 奖励建模:人类根据质量对各种模型输出进行排名,帮助训练一个奖励模型,该模型根据对话的上下文对每个输出进行评分。
(3). 强化学习:对话上下文作为基础模型提出响应的背景。 该响应通过奖励模型进行评估,并使用名为近端策略优化 (PPO) 的算法来优化该过程。

5. 扩散和多模态模型

虽然像VAE和GAN这样的模型通过单次生成过程产生输出,因此被锁定在它们所产生的任何内容中,但扩散模型引入了“迭代细化”的概念。通过这种方法,它们回顾并修正前几步中的错误,并逐渐产生更加精细的结果。

扩散模型的核心在于“腐败”和“细化”的艺术。在训练阶段,典型图像通过添加不同级别的噪声逐渐被损坏。然后这个嘈杂的版本被输入到模型中,模型尝试对其进行“去噪”或“去腐败”。经过多轮这样的过程,模型变得擅长于恢复,理解微妙和显著的像差。

5.1 Midjourney

从Midjourney生成新图像的过程在训练后非常有趣。从完全随机的输入开始,它使用模型的预测不断细化。目标是用最少的步骤获得一张纯净的图像。通过“噪声计划”控制腐败的水平,这是一个控制不同阶段应用多少噪声的机制。像“diffusers”这样的库中的调度器,根据既定算法决定这些嘈杂版本的性质。

对于许多扩散模型来说,UNet是其架构的重要支柱——一种为需要输出与输入空间维度相镜像的任务量身定制的卷积神经网络。它由下采样和上采样层组成,这些层复杂地连接在一起,以保留对图像相关输出至关重要的高分辨率数据。
生成式人工智能 - 中途提示

5.2 DALL-E 2

深入到生成模型的领域,OpenAI的DALL-E 2作为文本和视觉AI能力的融合,成为一个突出的例子。它采用了三层结构:

DALL-E 2展示了三重架构:

  • .文本编码器:它将文本提示转换为潜在空间中的概念嵌入。这个模型不是从零开始。它依赖于OpenAI的对比语言-图像预训练(CLIP)数据集作为其基础。CLIP通过使用自然语言学习视觉概念,作为视觉和文本数据之间的桥梁。通过一种称为对比学习机制,它识别并匹配图像与其相应的文本描述。
  • . 先验:从编码器派生的文本嵌入随后被转换为图像嵌入。DALL-E 2测试了自回归和扩散方法来完成这项任务,后者展示了更优越的结果。像在变换器和PixelCNN中看到的自回归模型,按顺序生成输出。另一方面,像DALL-E 2中使用的扩散模型,借助文本嵌入将随机噪声转换为预测的图像嵌入。
  • . 解码器:这个过程的高潮,这部分基于文本提示和先前阶段的图像嵌入生成最终的视觉输出。DALL·E 2的解码器在架构上归功于另一个模型,GLIDE,它也可以从文本提示中产生逼真的图像。
    在这里插入图片描述

6. 生成式人工智能的应用

6.1 文本领域

从文本开始,生成式人工智能已经因聊天机器人如ChatGPT而发生了根本性的改变。这些实体严重依赖自然语言处理(NLP)和大型语言模型(LLMs),它们被赋予执行从代码生成、语言翻译到摘要和情感分析等一系列任务的能力。例如,ChatGPT已经被广泛采用,成为数百万用户的必备工具。这进一步被基于如GPT-4、PaLM和BLOOM等大型语言模型的对话式人工智能平台所增强,这些平台能够轻松生成文本、协助编程,甚至提供数学推理。

从商业角度来看,这些模型正在变得非常宝贵。企业利用它们进行多种操作,包括风险管理、库存优化和预测需求。一些著名的例子包括Bing AI、Google的BARD和ChatGPT API。

6.1 艺术

自从2022年DALL-E 2推出以来,图像世界已经经历了戏剧性的转变。这项技术可以根据文本提示生成图像,具有艺术和专业意义。例如,midjourney利用这项技术生成了令人印象深刻的逼真图像。最近这篇文章在详细指南中揭开了Midjourney的神秘面纱,阐明了该平台及其提示工程的复杂性。此外,像Alpaca AI和Photoroom AI这样的平台利用生成式AI实现高级图像编辑功能,例如背景移除、对象删除甚至面部恢复。

6.3 视频制作

视频制作虽然在生成式人工智能领域仍处于初级阶段,但正在展示有希望的进展。像Imagen Video、Meta Make A Video和Runway Gen-2这样的平台正在突破可能的界限,即使真正真实的输出仍然在地平线上。这些模型为创建数字人类视频提供了巨大的实用性,其中Synthesia和SuperCreator等应用程序处于领先地位。值得注意的是,Tavus AI通过为个人观众提供个性化视频来提供独特的销售主张,这对企业来说是一个福音。

6.4 代码创建

编码是我们数字世界中不可或缺的一个方面,它也受到了生成式人工智能的影响。虽然ChatGPT是一个受欢迎的工具,但还开发了其他几种针对编码目的的人工智能应用程序。这些平台,如GitHub Copilot、Alphacode和CodeComplete,充当编码助手,甚至可以根据文本提示生成代码。有趣的是这些工具的适应性。Codex是GitHub Copilot背后的驱动力,可以根据个人的编码风格进行定制,凸显了生成式AI的个性化潜力。

7.结论

将人类创造力与机器计算相结合,已经成为一种宝贵的工具,平台如ChatGPT和DALL-E 2正在不断突破我们想象力的边界。它们不仅能够制作文本内容,还能够创造出视觉艺术作品,应用范围广泛且多样化。

然而,与任何技术一样,其道德影响也是至关重要的。尽管生成式人工智能带来了无限的创造潜力,但我们也必须负责任地使用它,并意识到其潜在的偏见和数据操控能力。

随着像ChatGPT这样的工具变得越来越易于使用,现在正是尝试和实验的最佳时机。无论你是艺术家、程序员还是技术爱好者,生成式人工智能领域都充满了等待被探索的可能性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/846887.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python替换“${}“占位符为变量,实现读取配置文件

文章目录 背景1、定义正则表达式2、替换变量占位符3、实现功能 背景 使用python编写小工具,有一个配置文件,希望实现类似shell命令的,定义变量并且使用${}或者$来引用。如果有好的建议欢迎讨论。 配置文件示例内容如下: D:\project\test\pr…

IGraph使用实例——线性代数计算(blas)

1 概述 在图论中,BLAS(Basic Linear Algebra Subprograms)并不直接应用于图论的计算,而是作为一套线性代数计算中通用的基本运算操作函数集合,用于进行向量和矩阵的基本运算。然而,这些基本运算在图论的相…

csrf漏洞与ssrf漏洞

环境:用kali搭建的pikachu靶场 一.CSRF 1.CSRF漏洞简介 跨站请求伪造(CSRF)漏洞是一种Web应用程序安全漏洞,攻击者通过伪装成受信任用户的请求来执行未经授权的操作。这可能导致用户在不知情的情况下执行某些敏感操作&#xff0…

遥感之特征选择-禁忌搜索算法

各类智能优化算法其主要区别在于算法的运行规则不同,比如常用的遗传算法,其规则就是变异,交叉和选择等,各种不同的变体大多是在框架内的实现细节不同,而本文中的禁忌算法也是如此,其算法框架如下进行介绍。…

丰盘v24.5集成OnlyOffice 7.5版本,支持子管理员高级特性

五一劳动节刚过,我们的开发小伙伴上线发布了v24.5版本,支持原生集成OnlyOffice 7.5的套件版本,无需管理员手工配置密钥证书等繁琐操作,对Word、PPT和Excel文件有了更强的兼容性和稳定性,例如当文件里包含Visio图像时&a…

C之动态内存管理(动态内存开辟与调整等)

目录 1.为什么要有动态内存分配 2.malloc、calloc、realloc和free malloc: calloc: realloc: free: 3.常见的动态内存的错误 3.1:对NULL指针的解引用操作 3.2:对动态开辟空间的越界访问 3.3&…

长城电脑如何恢复删除文件?盘点几个实用方法

咨询:急求帮助!我不慎在长城电脑上删除了文件,还有机会恢复吗?一个疏忽,就把一份至关重要的工作文件给删掉了!请大家快快伸出援手,帮我找回这份文件吧! 在使用长城电脑的过程中&…

Linux_应用篇(11) 线程

上一章,学习了进程相关的知识内容, 对进程有了一个比较全面的认识和理解; 本章开始, 将学习 Linux应用编程中非常重要的编程技巧---线程(Thread) ;与进程类似,线程是允许应用程序并发…

GaussDB数据库如何创建修改数据库和数据表

目录 一、背景 二、创建数据库和数据表 1. 创建数据库 2.创建数据表 三、修改表结构 1. 添加列 2. 修改列 3. 删除列 四、添加约束 1. 添加主键约束 2. 添加外键约束 3.添加唯一性约束 五、示例代码 -- 创建数据库 -- 使用新创建的数据库 -- 创建 department 表…

发送Http请求的两种方式

说明:在项目中,我们有时会需要调用第三方接口,获取调用结果,来实现自己的业务逻辑。调用第三方接口,通常是双方确定好,由对方开放一个接口,需要我们根据他们提供的接口文档,组装Http…

MySQL 使用方法以及教程

一、引言 MySQL是一个流行的开源关系型数据库管理系统(RDBMS),广泛应用于Web开发、数据分析等领域。它提供了高效、稳定的数据存储和查询功能。同时,Python作为一种强大的编程语言,也提供了多种与MySQL交互的库&#…

Ubuntu 24.04 LTS 安装Docker

1 更新软件包索引: sudo apt-get update 2 安装必要的软件包,以允许apt通过HTTPS使用仓库: sudo apt-get install apt-transport-https ca-certificates curl software-properties-common 3 添加Docker的官方GPG密钥: curl -fs…

算法金 | 你真的完全理解 Logistic 回归算法了吗

大侠幸会,在下全网同名「算法金」 0 基础转 AI 上岸,多个算法赛 Top 「日更万日,让更多人享受智能乐趣」 今日 178/10000 1. 引言 吴恩达:机器学习的六个核心算法!, 通透!!十大回…

Python专为开发和部署数据驱动的应用程序库之taipy使用详解

概要 Taipy 是一个强大的 Python 库,专为开发和部署数据驱动的应用程序而设计。它通过提供一套丰富的工具和组件,使开发者能够快速构建和维护复杂的业务逻辑和数据交互界面。无论是金融分析、供应链管理还是任何需要高度数据交互的应用,taipy 都能提供高效的解决方案。 安装…

Orange AIpro开箱上手

0.介绍 首先感谢官方给到机会,有幸参加这次活动。 OrangePi AIpro(8T)采用昇腾AI技术路线,具体为4核64位处理器AI处理器,集成图形处理器,支持8TOPS AI算力,拥有8GB/16GB LPDDR4X,可以外接32GB/64GB/128GB/2…

小程序抓包详细教程

小程序抓包详细教程 前言:关于小程序抓包一直想写出一个比较详细的教程 实验设备: ​ 微信: https://windows.weixin.qq.com/?langzh_CN ​ Proxifier:https://www.proxifier.com/download/ (需要挂梯子访问下载) ​ burpsuite&#xff…

1.JAVA小项目(零钱通)

一、说明 博客内容:B站韩顺平老师的视频,以及代码的整理。此项目分为两个版本: 面向过程思路实现面向对象思路实现 韩老师视频地址:【【零基础 快速学Java】韩顺平 零基础30天学会Java】 https://www.bilibili.com/video/BV1fh4…

Spring 源码:深度解析AOP源码配置解析

文章目录 一、 解析AOP配置的入口1.1 从XML配置到AOP Namespace的解析流程1.2 分析注解驱动的AOP配置解析流程 二、AOP配置解析的核心流程2.1 ConfigBeanDefinitionParser 类2.2 parse()2.3 parseAdvisor()2.4 parseAspect()2.5 parsePointcut()2.6 createAdvisorBeanDefinitio…

算法每日一题(python,2024.05.29) day.11

题目来源(力扣. - 力扣(LeetCode),简单) 解题思路: 法一:切片函数法 直接用python中的切片函数直接解决 法二:交换法 从俩头开始交换字符串的数字,若为奇数&#xff…

GITLAB常见问题总结

Troubleshooting GitLab Pages administration (FREE SELF) 原文地址 stage: Plan group: Knowledge info: To determine the technical writer assigned to the Stage/Group associated with this page, see https://about.gitlab.com/handbook/product/ux/technical-writing/…