【好书推荐-第九期】Sora核心技术相关书籍《扩散模型:从原理到实战》与《GPT 图解:大模型是怎样构建的》:Sora的两大核心技术,都藏在这两本书里!

在这里插入图片描述

😎 作者介绍:我是程序员洲洲,一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主、前后端开发、人工智能研究生。公众号:洲与AI。
🎈 本文专栏:本文收录于洲洲的《送书福利》系列专栏,该专栏福利多多,只需 关注+点赞+收藏 三连即可参与送书活动!欢迎大家关注本专栏~专栏一键跳转
🤓 同时欢迎大家关注其他专栏,我将分享Web前后端开发、人工智能、机器学习、深度学习从0到1系列文章。
🌼 同时洲洲已经建立了程序员技术交流群,如果您感兴趣,可以私信我加入我的社群~社群中将不定时分享各类福利
🖥 随时欢迎您跟我沟通,一起交流,一起成长、进步!点此即可获得联系方式~

本文目录

  • 一、《扩散模型:从原理到实战》与《GPT 图解:大模型是怎样构建的》
  • 二、OpenAI的新王炸,说话就能生成视频
  • 三、原来这就是扩散模型
  • 四、扩散模型能做成的事儿
    • 4.1 计算机视觉
    • 4.2 时序数据预测
    • 4.3 自然语言处理
    • 4.4 AI基础科学
  • 五、再显神威的Transformer
  • 六、学习两本书掌握Sora核心技术
    • 6.1《扩散模型:从原理到实战》
    • 6.2 《GPT 图解:大模型是怎样构建的》
  • 七、抽奖方式

一、《扩散模型:从原理到实战》与《GPT 图解:大模型是怎样构建的》

各位读者朋友,今天给大家推荐两本好书:《扩散模型:从原理到实战》购书跳转链接~ 和 GPT图解 大模型是怎样构建的 购书跳转链接~

在这里插入图片描述
在这里插入图片描述

二、OpenAI的新王炸,说话就能生成视频

2024 年 2 月 16 日凌晨,OpenAI 又发布王炸级产品——Sora,这是一款可以根据文本提示词直接生成视频的工具。其效果之炸裂,观者无不叹为观止。

只要使用自然语言描述情节、场景和要求,Sora 就能生成一分钟的视频内容。

大佬周鸿袆直言“Sora 意味着 AGI 实现将从 10 年缩短到 1 年”。他为什么会这么说?

首先,Sora 展现出了模拟真实物理世界的能力。从物体运动的轨迹到光影的变换,Sora 能够确定环境中每个对象的物理特性,并根据它们计算渲染视频。以至于 Nvidia 高级研究员 Jim Fan 认为 Sora 更像是一个“数据驱动的物理引擎”。
其次,Sora 可以生成长达一分钟的视频,并且保持情节的连贯以及画面的清晰度。对比同类型工具 Runway 或者 Pika 最多十几秒的生成能力,Sora 的实力是碾压式的。

另外,Sora 还具备超强的视频处理能力,支持向前或向后扩展视频,可以将多个视频平滑连接到一起。

Sora 为啥这么厉害?因为它是一个扩散模型(Diffusion Model),是在大量不同时长、分辨率和宽高比的视频及图像上训练而成的。《扩散模型:从原理到实战》一书对扩散模型的原理与应用有详尽的说明。
在这里插入图片描述
同时,Sora还采用了 Transformer 架构,也就是一种“扩散型 Transformer”。它通过预测干净补丁的方式生成视觉内容,再利用 Transformer 模型处理时空补丁。《GPT 图解:大模型是怎样构建的》一书提供了实现 Transformer 的完整代码示例,读者可以轻松理解 Transformer架构。
在这里插入图片描述

三、原来这就是扩散模型

《扩散模型:从原理到实战》中解释说,扩散模型是一类基于扩散思想的深度学习生成模型。而扩散思想则来自物理学中的非平衡热力学分支,一个典型研究案例就是一滴墨水在水中的扩散过程。
在这里插入图片描述非平衡热力学理论可以描述这滴墨水随时间推移的扩散过程中每一个“时间步”状态的概率分布。如果可以把这个过程反过来,就可以从简单的分布中逐步推断出复杂的分布。

公认的最早扩散模型 DDPM(Denoising Diffusion Probabilistic Model)的扩散原理就是由此而来。DDPM 的扩散过程分为前向过程和反向过程两部分。

前向过程是给数据添加噪声的过程,反向过程是“去噪”的过程,即从随机噪声中迭代恢复出清晰数据的过程。
在这里插入图片描述

在图像生成领域,DDPM 奠定了扩散模型的应用基础,随后涌现的众多扩散模型都是在此基础上进行了不同种类的改进。但在扩散模型发展早期,它生成图像的质量和稳定性还不如 GAN(Generative Adversarial Network,生成对抗网络)。

在 2021 年 5 月,OpenAI 出手发表了论文“Diffusion Models Beat GANs on Image Synthesis”,该论文介绍了在扩散过程中如何使用显式分类器引导,一举打败图像生成领域统治多年的 GAN,使得扩散模型成为新的霸主。当前一众热门的图像生成工具,诸如 Midjourney、DreamStudio、Adobe Firefly 等,都是基于扩散模型的。

可见,OpenAI 能有今日成就绝非一时侥幸,在 AIGC 大模型的发展之路上,OpenAI 的研究都走在了业界的最前沿。从文本问答 GPT 系列产品,到文生图 DALL-E 3,再到文生视频 Sora 的成功,这就是技术引导下水到渠成的结果。
需要指出的是,扩散只是一种思想,扩散模型也并非固定的深度网络结构。如果将扩散的思想融入其他领域,扩散模型同样能有出人意料的表现。

在宽广的 AI 赛道上,大家可以借鉴扩散思想,找到更多好机会。我们来继续了解扩散模型还能做成哪些事儿。
Part.3

四、扩散模型能做成的事儿

在 AI 的多个应用领域,扩散模型都有用武之地,包括计算机视觉、时序数据预测、自然语言处理、AI基础科学等。我们对这些应用一一介绍,读者也可以结合自己的专业领域探索扩散模型的用途。

4.1 计算机视觉

扩散模型可以在图像处理任务中发挥重要作用,有如下三种场景。

· 图像分割与目标检测。

· 图像超分辨率。

· 图像修复、图像翻译和图像编辑。
在这里插入图片描述

4.2 时序数据预测

时序数据预测是根据历史观测数据,预测未来可能出现的数据。而基于扩散思想,就可以将时序数据预测视为生成任务,基于历史数据的基本条件生成未来数据。

时序数据预测可以在多种业务中应用,包括气温预测、股票价格走势预测、销售与产能预测等。

4.3 自然语言处理

基于扩散思想,只要将自然语言类的句子分词并转换为词向量后,就可以通过扩散方法来学习自然语言的语句生成,实现语言翻译、问答对话、搜索补全、情感分析、文章续写等功能。

目前这一领域的霸主还是 GPT 模型,但扩散模型在自然语言处理领域的发展还是相当值得期待的。

4.4 AI基础科学

AI 基础科学也称 AI for Sicence,是以人工智能技术分析处理多维度、多模态、多场景下的模拟和真实数据,解决复杂推演计算问题,加快基础科学和应用科学的发现、验证、应用,打造下一代科学范式。

在基础科学中生成预测类的研究,就是扩散模型的擅长领域。例如,2021 年 DeepMind 研究的 AlphaFold 2 可以预测人类世界 98.5% 的蛋白质。
在这里插入图片描述

五、再显神威的Transformer

在 OpenAI 一战封神的 GPT 系列产品中,Transformer 架构是助其成功的头号功臣。而 Sora 的成功再次让 Transformer 大显神威,这说明 Transformer 并非只适用于文本大模型。

Transformer起源于 2017 年,谷歌大脑团队发布了论文“Attention is All You Need”,提出了这种结构。Transformer 的核心是自注意力机制,它能够为输入序列中的每个元素分配不同的权重 ,从而更好地捕捉序列内部的依赖关系。

Transformer 还摒弃了 RNN 和 LSTM 中的循环结构,采用全新的编码器-解码器结构,这种设计使得模型可以并行处理输入数据,进一步加速训练过程,提高计算效率。

在这里插入图片描述
相对于 Runway 和 Pika 在扩散模型中使用的 U-Net来说,Transformer架构的参数可拓展性强,即参数量增加,性能加速提升,同时支持任意分辨率、长宽比、时长的视频训练数据,不会因为压缩而导致训练数据质量下降。

OpenAI 利用 Transformer 的编码能力,配合扩散模型对视频进行训练,也就使得 Sora 生成视频的时长能够远超竞争对手。

Transformer 如此重要,它的技术底层是如何实现的?答案都在《GPT 图解:大模型是怎样构建的》这本书中,完整的代码示例让你一次性悟透 Transformer。

六、学习两本书掌握Sora核心技术

6.1《扩散模型:从原理到实战》

在这里插入图片描述
本书内容基于 Jonathan Whitaker 和 Lewis Tunstall 在 Hugging Face 上开设的 Diffusion Model 课程,本书是 Hugging Face 的第一本中文图书。

Hugging Face 是为机器学习从业者提供的协作和交流平台,涵盖了机器学习各方面的知识。学习者可以在平台上开源自己的机器学习模型、数据集或者创建机器学习应用。

这本书由 Hugging Face 中国社区的本地化志愿者团队成员完成,作者团队在 AI 领域有着丰富的理论与实践经验,高质量地将在线课程转化为本书内容。

书中首先详细介绍了扩散模型的原理,以及扩散模型退化、采样、DDIM 反转等重要概念与方法。然后对 Hugging Face 平台进行了简单介绍。接着说明从零开始搭建扩散模型的完整过程。通过 Diffusers 实战,演示了生成美丽蝴蝶图像的方法。

此外还介绍了 Stable Diffusion、ControlNet 与音频扩散模型等内容。附录还提供由扩散模型生成的高质量图像集,以及 Hugging Face 社区的相关资源。

本书的最大特点就是注重实战,书中配备大量案例帮助读者快速熟悉扩散模型。同时作者们还精心设计编写了大量功能完整的代码,清晰的代码结构与注释可以帮助读者快速实现扩散模型生成精美图像。

在这里插入图片描述
读者想学会扩散模型最好的办法,就是在阅读本书的过程中搭建自己的开发环境,编写并运行书中提供的源代码。
另外,书中通过诸多图例手把手地教会读者使用 Diffusers 库训练扩散模型,学会使用 Stable Diffusion 和 ControlNET 生成图像。读懂这本书,读者能够做到从零开始搭建扩散模型,并完成退化、训练、采样过程。
在这里插入图片描述

6.2 《GPT 图解:大模型是怎样构建的》

在这里插入图片描述
《GPT 图解:大模型是怎样构建的》从 NLP 技术的发展脉络梳理,讲述了 N-Gram、词袋模型(BoW)、Word2Vec(W2V)、神经概率语言模型(NPLM)、循环神经网络(RNN)、Seq2Seq(S2S)、注意力机制、Transformer,从初代 GPT 到 ChatGPT 再到 GPT-4 等一系列突破性技术的诞生与演进。

本书最大的特点是通过两位虚拟人物“咖哥”和“小冰”的对话来展开技术讨论,将枯燥的技术细节化作轻松幽默的故事和缤纷多彩的图画,引领读者穿梭于不同时空,见证自然语言处理技术的传承、演进与蜕变。

本书对于技术的讨论也绝非停留在理论上,而是以大量代码来演示技术的底层细节。书中实现了一个完整的 Transformer 框架,包含了 10 个关键组件。基于该 Transformer 框架,还实现了一个简版 GPT,帮助读者透彻理解大模型。

本书作者黄佳,笔名就是“咖哥”,他目前是新加坡科技研究局人工智能研究员,主攻方向为 NLP 大模型的研发与应用。咖哥在 AI 领域深耕多年,在政府、银行、医疗等多个行业有丰富的 AI 实践经验。

配套资源丰富是本书另一大特色,咖哥精心编写每一章的示例代码,并编排为 Python notebook 文件。读者可以在 notebook 的交互式环境中轻松运行调试代码,观察输出结果。

在这里插入图片描述

毫无疑问,Sora 是扩散模型极其成功的应用,将来一定还会有更加出色的应用出现。对于想要在 AI 时代获得跨越发展的诸君来说,现在学会《扩散模型:从原理到实战》和《GPT 图解:大模型是怎样构建的》,就是站在未来的制高点上!

七、抽奖方式

抽奖送书老规矩(不点赞收藏中奖无效):注意记得关注博主及时获取中奖通知。


1. 点赞+收藏 文章
2. 评论区留言:我要成为架构师(留言才能进入奖池,每人最多留言三条)
3. 2024310日 本周天晚八点随机抽奖34. 京东自营购买链接:https://item.jd.com/13958977.html 和 https://item.jd.com/13803847.html
5. 添加博主VX关注送书动态等福利:bdizztt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/724892.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解决DBeaver执行脚本报错No active connection

解决DBeaver执行脚本报错No active connection 1、报错问腿 2、问题解决 2.1、右键点击该数据库,选择SQL编辑器,选择新建SQL编辑器,然后将sql语句复制过去。 或者左击选中数据库后直接使用快捷键 Ctrl] 2.2、在Project-General中找到Scr…

Javaweb之SpringBootWeb案例之自动配置案例的自定义starter测试的详细解析

3.2.4.3 自定义starter测试 阿里云OSS的starter我们刚才已经定义好了,接下来我们就来做一个测试。 今天的课程资料当中,提供了一个自定义starter的测试工程。我们直接打开文件夹,里面有一个测试工程。测试工程就是springboot-autoconfigurat…

常见排序算法解析

芝兰生于深林,不以无人而不芳;君子修道立德,不为穷困而改节 文章目录 插入排序直接插入排序希尔排序 选择排序直接选择排序堆排序 交换排序冒泡排序快速排序优化挖坑法前后指针法非递归版 归并排序递归非递归 总结 插入排序 插入排序&#…

【编程小记】在Windows下使用C/C++代码判断一个文件是否被其他进程占用

在Windows下使用C/C代码判断文件是否被占用 一、原理二、函数简单介绍三、实例代码 一、原理 在Windows下有一个Windows API叫做CreateFile,通过这个接口我们可以创建或打开文件,我们打开文件时可以采用独占模式进行打开,如果能够打开文件说…

Word Game

题目链接&#xff1a;Problem - C - Codeforces 解题思路&#xff1a; 用map存字母和出现的次数&#xff0c;然后遍历三个字母数组&#xff0c;如果map值为1&#xff0c;则加三分&#xff0c;为2加1分&#xff0c;否则不加分。 下面是c代码&#xff1a; #include<iostrea…

第41期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区&#xff0c;集成了生成预训练Transformer&#xff08;GPT&#xff09;、人工智能生成内容&#xff08;AIGC&#xff09;以及大语言模型&#xff08;LLM&#xff09;等安全领域应用的知识。在这里&#xff0c;您可以找…

Linux学习-二级指针的使用

目录 ###指针传参时要用二级指针 ###函数体内部想要修改函数外部指针变量值的时候需要使用二级指针(指针变量的地址) ###指针传参时要用二级指针 char *str[5]; int Fun(char **ppstr,int len); ###函数体内部想要修改函数外部指针变量值的时候需要使用二级指针(指针变量的…

#微信小程序创建(获取onenet平台数据)

1.IDE&#xff1a;微信开发者工具 2.实验&#xff1a;创建一个小程序&#xff08;http get获取onenet平台数据&#xff09; 3.记录&#xff1a; 百度网盘链接&#xff1a;https://pan.baidu.com/s/1eOd-2EnilnhPWoGUMj0fzw 提取码: 2023 &#xff08;1&#xff09;新建一个工…

【C++STL详解 —— string类】

【CSTL详解 —— string类】 CSTL详解 —— sring类一、string的定义方式二、string的插入三、string的拼接四、string的删除五、string的查找六、string的比较七、string的替换八、string的交换九、string的大小和容量十、string中元素的访问十一、string中运算符的使用十二、…

2024年腾讯云发红包了,可用于抵扣订单金额,你们领了吗?

在2024年腾讯云新春采购节优惠活动上&#xff0c;可以领取新年惊喜红包&#xff0c;打开活动链接 https://curl.qcloud.com/oRMoSucP 会自动弹出红包领取窗口&#xff0c;如下图&#xff1a; 腾讯云2024新春采购节红包领取 如上图所示&#xff0c;点击“领”红包&#xff0c;每…

回溯算法01-组合(Java)

1.组合 题目描述 给定两个整数 n 和 k&#xff0c;返回范围 [1, n] 中所有可能的 k 个数的组合。 你可以按 任何顺序 返回答案。 示例 1&#xff1a; 输入&#xff1a;n 4, k 2 输出&#xff1a; [[2,4],[3,4],[2,3],[1,2],[1,3],[1,4]]示例 2&#xff1a; 输入&#x…

VMware虚拟机安装Centos7图解,提供软件包镜像(详细安装,小白入门必看)

目录 1. 安装vmware软件 2. 下载centos7镜像 3. 使用镜像安装centos操作系统 3.1 创建新的虚拟机 3.2 开机安装系统 4. 尝试网络连通性 5. 配置静态ip地址 1. 安装vmware软件 下载链接&#xff08;包含激活码&#xff09;&#xff1a;VMware https://www.alipan…

C语言初学10:共同体

一、共同体作用 提供一种在相同内存位置存储不同数据类型的有效方式 二、共同体定义 union [union tag] //tag是可选参数 {member definition;member definition;...member definition; } [one or more union variables]; // 共同体变量是可选的 三、共同体占用空间大小 #…

vCity 2.8 – 在线浏览器元宇宙游戏平台(虚拟现实网页游戏平台)可获取现实金钱对接贝宝

vCity Nulled 是一个采用最新网络技术开发的在线浏览器游戏平台。vCity Free Download Scripts 是多功能游戏脚本&#xff0c;可帮助您根据自己的喜好创建自己的在线浏览器游戏&#xff0c;因为它有许多选项和设置&#xff0c;可以通过这些选项和设置来修改和创建您想要的浏览器…

亚信安慧AntDB:编织数据丝路,缔造创新篇章

亚信安慧AntDB作为一款具备国产化升级改造经验的数据库系统&#xff0c;在15年的平稳运行中积累了丰富经验。通过持续的创新和技术进步&#xff0c;AntDB不断优化性能和功能&#xff0c;满足用户的需求&#xff0c;与国际先进数据库系统保持竞争力。 AntDB秉承着与用户和行业保…

【广度优先搜索】【堆】【C++算法】407. 接雨水 II

作者推荐 【二分查找】【C算法】378. 有序矩阵中第 K 小的元素 本文涉及知识点 广度优先搜索 堆 LeetCoce407. 接雨水 II 给你一个 m x n 的矩阵&#xff0c;其中的值均为非负整数&#xff0c;代表二维高度图每个单元的高度&#xff0c;请计算图中形状最多能接多少体积的雨…

使用MockJS模拟数据,如何获取入参?

场景描述 在使用MockJS进行模拟数据的时候&#xff0c;会遇到一种场景&#xff0c;当参数1时&#xff0c;展示A类数据&#xff0c;当参数B时&#xff0c;展示B类数据&#xff0c;为了实现这场景&#xff0c;那就要在模拟数据时拿到请求参数&#xff1f; 实现逻辑 mock方法的…

遇见未来的你——陪伴是最长情的告白

目录 一、背景介绍二、思路&方案三、过程1.家庭中彼此的陪伴最长情2.事业中与合伙人与同事与朋友与产品的陪伴最长情3.人生中与计划与落实与啊哈的陪伴最长情4.肉体与灵魂分分合合的体验 四、总结 一、背景介绍 人有时候一转身就是一辈子&#xff0c;所以珍惜转身的每一个…

项目一:踏上Java开发之旅(2023软件1班)

文章目录 一、实战概述二、实战步骤任务1&#xff1a;安装配置JDK开发第一个Java程序1、安装JDK2、配置Java环境变量3、开发第一个Java程序&#xff08;1&#xff09;编写源程序 - HelloWorld.java&#xff08;2&#xff09;编译成字节码文件 - HelloWorld.class&#xff08;3&…

vulhub中ThinkPHP5 5.0.23 远程代码执行漏洞复现

ThinkPHP是一款运用极广的PHP开发框架。其5.0.23以前的版本中&#xff0c;获取method的方法中没有正确处理方法名&#xff0c;导致攻击者可以调用Request类任意方法并构造利用链&#xff0c;从而导致远程代码执行漏洞。 环境启动后&#xff0c;访问http://your-ip:8080即可看到…