翻译: Gen AI生成式人工智能学习资源路线图一

Introduction 介绍

本文档旨在作为学习现代人工智能系统背后的关键概念的手册。考虑到人工智能最近的发展速度,确实没有一个好的教科书式的资源来快速了解 LLMs 或其他生成模型的最新和最伟大的创新,但互联网上有大量关于这些主题的优秀解释资源(博客文章、视频等)。我的目标是将这些资源中的“最好的”组织成教科书式的演示文稿,它可以作为满足个人人工智能相关学习目标的先决条件的路线图。我希望这将是一份“活文件”,随着新的创新和范式不可避免地出现而进行更新,并且理想情况下也是一份可以从社区投入和贡献中受益的文件。本指南针对的是那些具有某种技术背景、出于好奇或潜在职业而有兴趣深入研究人工智能的人。我假设您有一些编码和高中数学水平的经验,但否则将提供填写任何其他先决条件的指导。如果您认为有什么需要补充的,请告诉我!
在这里插入图片描述

The AI Landscape 人工智能前景

截至 2024 年 6 月,自 OpenAI 发布 ChatGPT 以来已经过去了大约 18 个月,世界开始更多地谈论人工智能。此后发生了很多事情:Meta 和 Google 等科技巨头发布了自己的大型语言模型,Mistral 和 Anthropic 等较新的组织也被证明是有力的竞争者,无数初创公司开始在他们的 API 基础上构建,每个人都在争夺强大的 Nvidia GPU、论文以极快的速度出现在 ArXiv 上、由 LLMs 驱动的物理机器人和人工程序员的演示在流传,聊天机器人似乎正在寻找进入在线生活的各个方面的方法(在不同程度上)的成功)。与LLM竞赛同时进行的,通过扩散模型生成图像也取得了快速发展; DALL-E 和 Midjourney 正在展示越来越令人印象深刻的结果,这些结果常常在社交媒体上难倒人们,随着 Sora、Runway 和 Pika 的进步,高质量视频生成似乎也指日可待。关于“AGI”何时到来、“AGI”到底意味着什么、开放模型与封闭模型的优点、价值一致性、超级智能、存在风险、假新闻和经济的未来,一直存在争论。许多人担心自动化会导致工作岗位流失,或者对自动化可能推动的进步感到兴奋。世界在不断发展:芯片变得更快,数据中心变得更大,模型变得更智能,上下文变得更长,能力通过工具和愿景得到增强,但目前尚不完全清楚这一切的发展方向。如果您在 2024 年关注“人工智能新闻”,您通常会感觉几乎每天都会发生某种重大的新突破。有很多事情需要跟上,尤其是当你刚刚开始收听时。

随着进展如此之快,那些寻求“参与行动”的人自然倾向于选择最新最好的可用工具(截至撰写本文时,可能是 GPT-4o、Gemini 1.5 Pro 或 Claude 3 Opus) ,取决于你问的是谁)并尝试在它们之上构建一个网站或应用程序。当然还有很大的空间,但这些工具会很快发生变化,对底层基础知识有深入的了解将使您更容易地充分利用您的工具,并在新工具推出时快速使用它们,并评估成本、性能、速度、模块化和灵活性等方面的权衡。此外,创新不仅仅发生在应用层,Hugging Face、Scale AI 和 Together AI 等公司通过专注于开放权重模型的推理、训练和工具(等等)而站稳了脚跟。无论您是想参与开源开发、从事基础研究,还是在因成本或隐私问题而无法使用外部 API 的环境中利用 LLMs,了解这些事情在hood,以便根据需要调试或修改它们。从更广泛的职业角度来看,当前的许多“AI/ML 工程师”角色除了高级框架之外还将重视具体知识,就像“数据科学家”角色通常寻求对理论和基础知识的牢固掌握一样对当前的 ML 框架过于熟练。深入研究是一条更艰难的道路,但我认为这是一条值得的道路。但随着过去几年创新的步伐,您应该从哪里开始呢?哪些主题是必不可少的,您应该按什么顺序学习它们,以及您可以浏览或跳过哪些主题?

The Content Landscape 内容格局

教科书非常适合提供一系列领域的高级路线图,其中“关键思想”集更加稳定,但据我所知,确实没有公开的 ChatGPT 后“人工智能指南”和教科书-风格的全面性或组织性。目前还不清楚有人编写一本涵盖人工智能当前状况的传统教科书是否有意义;许多关键想法(例如 QLoRA、DPO、vLLM)都还不到一年的时间,到印刷时该领域可能已经发生了巨大变化。经常引用的《Deep Learning》一书(Goodfellow 等人)已经有近十年的历史了,并且只粗略地提到了通过 RNN 进行语言建模。较新的《Dive into Deep Learning》一书涵盖了 Transformer 架构和 BERT 模型的微调,但 RLHF 和 RAG 等主题(按照我们将要涉及的一些更前沿主题的标准来看,这些主题已经“过时”) ) 缺失。即将出版的《Hands-On Large Language Models》一书可能很不错,但它尚未正式出版(现在可以通过付费专区在线获取),并且可能不会免费。如果您是斯坦福大学的学生,CS224n 课程似乎很棒,但如果没有登录,您只能使用幻灯片和主要由密集的学术论文组成的阅读列表。微软的“Generative AI for Beginners面向初学者的生成式人工智能”指南相当可靠,可以帮助您熟悉流行的框架,但它更侧重于应用程序而不是理解基础知识。

据我所知,与我的想法最接近的资源是 Github 上 Maxime Labonne 的 LLM 课程。它具有许多交互式代码笔记本,以及用于学习基本概念的资源链接,其中一些与我将在此处包含的内容重叠。我建议您在阅读本手册时将其作为主要配套指南,特别是如果您对应用程序感兴趣的话;本文档不包括笔记本,但我涵盖的主题范围更广泛,包括一些不太“标准”的研究线程以及多模式模型。

尽管如此,还有大量其他高质量且易于访问的内容涵盖了人工智能的最新进展——只是不是全部都井井有条。快速了解新创新的最佳资源通常是一次性博客文章或 YouTube 视频(以及 Twitter/X 线程、Discord 服务器以及 Reddit 和 LessWrong 上的讨论)。我编写本文档的目标是提供一个导航所有这些内容的路线图,将其组织成教科书式的演示文稿,而无需重新设计各个解释器。在整个过程中,我将尽可能包含多种风格的内容(例如视频、博客和论文),以及我对目标相关知识优先顺序的看法以及我在第一次遇到这些主题时发现有用的“心理模型”注释。

我并不是以“生成式人工智能专家”的身份来创建这份文档,而是以最近有过在短时间内熟悉这些主题的经验的人的身份来创建这份文档。虽然我从 2016 年左右就开始从事人工智能相关工作(如果我们将运行视觉模型评估的实习项目算作“开始”),但我只是在 18 个月后才开始密切关注 LLM 的发展之前,随着 ChatGPT 的发布。大约 12 个月前,我第一次开始使用开放重量 LLMs。因此,过去一年我花了很多时间筛选博客文章、论文和视频,以寻找其中的精华;希望本文档是该路径的更直接版本。它也是我与朋友进行的许多对话的精华,我们试图找到并分享处理复杂主题的有用直觉,以加快彼此的学习速度。编译这篇文章对于填补我自己的理解空白也是一个很大的推动作用。直到几周前我才知道 FlashAttention 是如何工作的,而且我仍然认为我还没有真正理解状态空间模型。但我比刚开始的时候知道了很多。

Resources 资源

我们将借鉴的一些来源是:

Blogs: 博客:

  • Hugging Face blog posts 拥抱脸博客文章
  • Chip Huyen’s blog 博客
  • Lilian Weng’s blog 博客
  • Tim Dettmers’ blog 博客
  • Towards Data Science 走向数据科学
  • Andrej Karpathy’s blog 博客
  • Sebastian Raschka’s “Ahead of AI” blog 博客

YouTube: YouTube:

  • Andrej Karpathy’s “Zero to Hero” videos “从零到英雄”视频
  • 3Blue1Brown videos 3Blue1Brown 视频
  • Mutual Information 互信息
  • StatQuest 统计任务

Textbooks 教科书

  • The d2l.ai interactive textbook d2l.ai 互动教科书
  • The Deep Learning textbook 深度学习教科书

Web courses: 网络课程:

  • Maxime Labonne’s LLM Course
  • Microsoft’s “Generative AI for Beginners” 微软的“面向初学者的生成式人工智能”
  • Fast.AI’s “Practical Deep Learning for Coders” Fast.AI 的“程序员实用深度学习”
  • Assorted university lecture notes 各种大学讲义
  • Original research papers (sparingly) 原创研究论文(少量)

我经常会参考原始论文的关键思想,但我们的重点将是更简洁和概念性的说明性内容,针对的是学生或从业者,而不是经验丰富的人工智能研究人员(尽管希望进行人工智能研究的前景会更好)当您在这些来源中取得进展时,就会变得不那么令人畏惧)。如果可能的话,将给出多种资源和媒体格式的指示,并对其相对优点进行一些讨论。

Chapter 1: Preliminaries 第一章:预备知识

Math 数学

如果你想了解现代深度学习,微积分和线性代数几乎是不可避免的,现代深度学习很大程度上是由矩阵乘法和梯度反向传播驱动的。许多技术人员围绕多元微积分或入门线性代数结束了他们的正式数学教育,并且由于必须记住一套不直观的恒等式或手动求逆矩阵而感到口酸,这似乎很常见,这可能会阻碍你的学习。进一步深入数学教育的前景。幸运的是,我们不需要自己进行这些计算——编程库将为我们处理它们——相反,掌握以下概念的实用知识更为重要:

  • Gradients and their relation to local minima/maxima 梯度及其与局部最小值/最大值的关系
  • The chain rule for differentiation 微分的链式法则
  • Matrices as linear transformations for vectors 矩阵作为向量的线性变换
  • Notions of basis/rank/span/independence/etc. 基础/等级/跨度/独立性/等等的概念。

良好的可视化确实可以帮助这些想法深入人心,我认为没有比 3Blue1Brown 的这两个 YouTube 系列更好的资源了:

  • Essence of calculus 微积分的本质
  • Essence of linear algebra 线性代数本质

如果你的数学很生疏,我当然鼓励你在深入研究之前(重新)观看这些内容。为了测试您的理解程度,或者作为我们前进方向的预览,同一频道上较短的神经网络 Neural networks视频系列也非常好,该系列中的最新几个视频对用于语言建模的 Transformer 网络进行了很好的概述。

滑铁卢Waterloo的这些讲义 对与优化相关的多变量微积分进行了一些有用的介绍,Sheldon Axler 的《Linear Algebra Done Right”线性代数》是线性代数的一本很好的参考书。 Boyd 和 Vandenberghe 的“凸优化Convex Optimization”展示了这些主题如何为机器学习中面临的各种优化问题奠定基础,但请注意,它确实具有相当的技术性,如果您最感兴趣的是应用程序,则可能不是必需的。

线性规划当然值得理解,并且基本上是您将遇到的最简单的高维优化问题(但仍然非常实用);这个视频应该为您提供大部分核心思想,如果您想更深入地了解数学,Ryan O’Donnell 的视频(本系列中的 17a-19c,取决于您想要深入的程度)非常好。 Tim Roughgarden 的这些讲座(#10、#11)还展示了线性编程和我们稍后将讨论的“在线学习”方法之间的一些有趣的联系,这将构成 GAN(以及许多其他事物)的概念基础。

Programming 编程

如今,大多数机器学习代码都是用 Python 编写的,这里的一些参考文献将包括用于说明所讨论主题的 Python 示例。如果您不熟悉 Python 或一般编程,推荐 Replit’s 100 Days of Python。一些系统级主题还将涉及 C++ 或 CUDA 中的实现 - 诚然,我在这方面都不是专家,并且将更多地关注可以通过 Python 库访问的更高级别的抽象,但我会尽管如此,在相关部分中仍包含这些语言的潜在有用参考。

Organization 组织

本文档分为几个部分和章节,如下和侧栏中所列。我们鼓励您跳到对您的个人学习目标最有用的部分。总的来说,我建议首先浏览许多链接的资源,而不是逐字阅读(或观看)。希望这至少能让您了解在任何特定学习目标的依赖性方面您的知识差距在哪里,这将有助于指导更有针对性的第二遍。

Section I: Foundations of Sequential Prediction 第一节:序列预测的基础

Goal: Recap machine learning basics + survey (non-DL) methods for tasks under the umbrella of “sequential prediction”.
目标:回顾“序列预测”下任务的机器学习基础知识 + 调查(非深度学习)方法。

Section II: Neural Sequential Prediction 第二节:神经序列预测

Goal: Survey deep learning methods + applications to sequential and language modeling, up to basic Transformers.
目标:调查深度学习方法以及顺序和语言建模的应用,直至基本的 Transformer。

Section III: Foundations for Modern Language Modeling 第三节:现代语言建模的基础

Goal: Survey central topics related to training LLMs, with an emphasis on conceptual primitives.
目标:调查与培训LLMs相关的中心主题,重点是概念原语。

Section IV: Finetuning Methods for LLMs 第四节:LLMs的微调方法

Goal: Survey techniques used for improving and “aligning” the quality of LLM outputs after pretraining.
目标:用于改进和“调整”预训练后 LLM 输出质量的调查技术。

Section V: LLM Evaluations and Applications 第五节:LLM评估和应用

Goal: Survey how LLMs are used and evaluated in practice, beyond just “chatbots”.
目标:调查 LLMs 在实践中的使用和评估方式,而不仅仅是“聊天机器人”。

Section VI: Performance Optimizations for Efficient Inference 第六节:高效推理的性能优化

Goal: Survey architecture choices and lower-level techniques for improving resource utilization (time, compute, memory).
目标:调查用于提高资源利用率(时间、计算、内存)的架构选择和底层技术。

Section VII: Sub-Quadratic Context Scaling 第七节:次二次上下文缩放

Goal: Survey approaches for avoiding the “quadratic scaling problem” faced by self-attention in Transformers.
目标:避免 Transformers 中自注意力所面临的“二次缩放问题”的调查方法。

Section VIII: Generative Modeling Beyond Sequences 第八节:超越序列的生成建模

Goal: Survey topics building towards generation of non-sequential content like images, from GANs to diffusion models.
目标:调查主题旨在生成非序列内容,如图像,从 GAN 到扩散模型。

Section IX: Multimodal Models 第九节:多式联运模型

Goal: Survey how models can use multiple modalities of input and output (text, audio, images) simultaneously.
目标:调查模型如何同时使用多种输入和输出模式(文本、音频、图像)。

一群人走得远
在这里插入图片描述

参考

https://genai-handbook.github.io/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/26580.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

蒂姆·库克解释Apple Intelligence和与ChatGPT合作的区别|TodayAI

在2024年全球开发者大会(WWDC 2024)上,苹果公司首席执行官蒂姆库克(Tim Cook)隆重介绍了公司的最新人工智能(AI)计划——Apple Intelligence,并宣布了与OpenAI的ChatGPT的合作。虽然…

定时器0电机控制PWM输出

/*立式不锈钢波纹管机控制板2021 2 26 pcb PAST******/ #include <REG52.H> #include <intrins.H> #define uint unsigned int #define uchar unsigned char #define …

JVM性能优化案例:优化垃圾回收器的年轻代和老年代占比

JVM性能优化案例&#xff1a;优化垃圾回收器的年轻代和老年代占比 我们有一款在线交易系统&#xff0c;要求低延迟和高吞吐量。系统运行在Ubuntu服务器上&#xff0c;使用OpenJDK 11&#xff0c;并启用了G1垃圾回收器。以下是系统的基本配置和GC日志信息&#xff1a; 操作系统…

CID引流电商下的3C产品选品策略深度解析

​摘要&#xff1a;随着电商行业的迅猛发展和消费者需求的日益多样化&#xff0c;CID引流电商作为一种新兴的电商模式&#xff0c;逐渐受到了广泛关注。在这一模式下&#xff0c;3C产品作为高客单价、高技术含量的代表品类&#xff0c;其选品策略的制定显得尤为重要。本文将从多…

KEYSIGHT N1000A与KEYSIGHT 86100D 区别?

N1000A与86100D设计理念和应用领域 N1000A&#xff1a;N1000A是一款宽带宽示波器主机&#xff0c;主要用于高速数字设计的精确测量&#xff0c;从50 Mb/s到超过80 Gb/s。它适用于光收发机设计和生产测试、ASIC/FPGA/IC设计和表征、串行总线设计、电缆和印刷电路板&#xff08;P…

如何使您的IT资产审计变得轻而易举?

无论您在审核准备方面处于哪个阶段&#xff0c;强大的资产管理策略都至关重要。现在&#xff0c;不可否认的是最初的障碍——精确追踪每一台设备、软件许可证和外围设备可能会让人感到不知所措。 然而&#xff0c;好消息是有简化流程可以帮助您将资产管理从一项令人望而却步的…

Elasticsearch 第二期:倒排索引,分析,映射

前言 正像前面所说&#xff0c;ES真正强大之处在于可以从无规律的数据中找出有意义的信息——从“大数据”到“大信息”。这也是Elasticsearch一开始就将自己定位为搜索引擎&#xff0c;而不是数据存储的一个原因。因此用这一篇文字记录ES搜索的过程。 关于ES搜索计划分两篇或…

Python私教张大鹏 Vue3整合AntDesignVue之Checkbox 多选框

何时使用 在一组可选项中进行多项选择时&#xff1b; 单独使用可以表示两种状态之间的切换&#xff0c;和 switch 类似。区别在于切换 switch 会直接触发状态改变&#xff0c;而 checkbox 一般用于状态标记&#xff0c;需要和提交操作配合。 案例&#xff1a;多选框组件 核心…

Hack The Box-Blurry

总体思路 CVE-2024-24590->修改脚本/劫持python库 信息收集&端口利用 nmap -sSVC blurry.htbStarting Nmap 7.94SVN ( https://nmap.org ) at 2024-06-10 21:40 EDT Nmap scan report for app.blurry.htb (10.10.11.19) Host is up (0.20s latency).PORT STATE S…

【电机】了解无刷直流电机BLDC

1 介绍 无刷直流电机&#xff08;Brushless Direct Current Motor&#xff0c;简称BLDCM&#xff09;由电动机主体和驱动器组成&#xff0c;是一种典型的机电一体化产品。无刷电机是指无电刷和换向器&#xff08;或集电环&#xff09;的电机&#xff0c;又称无换向器电机。这是…

本地靶场搭建

1、windows service2003 链接&#xff1a;https://pan.baidu.com/s/1RIealrcfcDWKu1AIuYFbAQ?pwd4bv8 提取码&#xff1a;4bv8 2、asp环境搭建&#xff08;虚拟机内&#xff09; ①asp工作原理&#xff1a; 客户发送网站请求&#xff0c;iis接收客户请求&#xff0c;解析…

基于JSP的超市管理系统

你好呀&#xff0c;我是计算机学长猫哥&#xff01;如果有相关需求&#xff0c;文末可以找到我的联系方式。 开发语言&#xff1a;Java 数据库&#xff1a;MySQL 技术&#xff1a;JSP MyBatis 工具&#xff1a;IDEA/Eclipse、Navicat、Maven 系统展示 员工管理界面图 管…

Ecahrts横向柱状图自动滚动

1.定义一个定时器标识 let timer: NodeJS.Timer; // 定时器 2.定义展示的数据的条数 const dataZoomEndValue 5; // 数据窗口范围的结束数值(一次性展示几个) 3.设置datazoom的相关参数 dataZoom: [{show: false, // 是否显示滑动条xAxisIndex: 0, // 表示从X轴的零刻度线…

谷粒商城实战(035 k8s集群学习1-前置介绍)

Java项目《谷粒商城》架构师级Java项目实战&#xff0c;对标阿里P6-P7&#xff0c;全网最强 总时长 104:45:00 共408P 此文章包含第339p-第p342的内容 分布式高级篇总结 高可用集群 内容 k8s介绍 为什么使用k8s 组件 master组件 node&#xff08;节点&#xff09;组件 要部…

[SWPUCTF 2022 新生赛]ez_1zpop(php反序列化之pop链构造)

[SWPUCTF 2022 新生赛]ez_ez_unserialize <?php class X {public $x __FILE__;function __construct($x){$this->x $x; }function __wakeup(){if ($this->x ! __FILE__) {$this->x __FILE__; }}function __destruct(){highlight_file($this->x);//flag is…

称重显示模块 Modbus RTU 通信

目录 一、智能称重数字显示器模块(带通信)1、称重传感器接线说明称重显示模块称重传感器USB 转 TTL 2、校准传感器&#xff08;标定&#xff1a;零点标定、满度标定&#xff09; 二、Modbus RTU 协议1、Modbus RTU 数据帧2、数据帧格式请求帧响应帧 三、上位机电脑与称重显示模…

携手知名律所,合合信息旗下名片全能王打造数字化名片“新范式”

在低碳办公理念盛行的当下&#xff0c;数字名片成为商务交流的新方式&#xff0c;以数字化智能化赋能绿色化。近期&#xff0c;合合信息旗下名片全能王企业数字名片升级&#xff0c;与上海市律师协会、广州市律师协会、北京大成&#xff08;上海&#xff09;律师事务所等多家律…

MySQL 8.0 安装、配置、启动、登录、连接、卸载教程

目录 前言1. 安装 MySQL 8.01.1 下载 MySQL 8.01.2 安装 MySQL 8.0 2. 配置 MySQL 8.02.1打开环境变量2.2新建变量 MYSQL_HOME2.3编辑 Path 变量 3. 启动MySQL 8.03.1验证安装与配置是否成功3.2初始化并注册MYSQL3.3 启动MYSQL服务 4.登录MySQL4.1修改账户默认密码4.2登录MYSQL…

【产品经理】发票系统简述

一、发票类型 增值税电子普通发票&#xff1a;简称电票 增值税普通发票和增值税专用发票&#xff0c;简称&#xff1a;纸票 蓝票&#xff1a;开票金额为正值的发票。红票&#xff1a;发票金额为负值的发票。 注&#xff1a;专票电子化系统国家目前在推&#xff0c;后续有更新…

三、网络服务协议

目录 一、FTP&#xff1a;文件传输协议 二、Telnet&#xff1a;远程登录协议 三、AAA认证 四、DHCP 五、DNS 六、PPP协议 七、ISIS协议 一、FTP&#xff1a;文件传输协议 C/S架构&#xff0c;现多用于企业内部的资料共享和网络设备的文件传输&#xff0c;企业内部搭建一…