大型语言模型基础知识的可视化指南

直观分解复杂人工智能概念的工具和文章汇总

在这里插入图片描述

如今,LLM(大型语言模型的缩写)在全世界都很流行。没有一天不在宣布新的语言模型,这加剧了人们对错过人工智能领域的恐惧。然而,许多人仍在为 LLM 的基本概念而苦苦挣扎,这使他们难以跟上时代的进步。本文的目标读者是那些希望深入了解此类人工智能模型的内部运作,从而扎实掌握相关知识的人。有鉴于此,我将介绍一些工具和文章,它们可以帮助巩固概念并分解 LLM 的概念,使其易于理解。

目录

1.图解Transformer《The Illustrated Transformer by Jay Alammar》

杰伊是最早用强大的可视化功能撰写技术文章的先驱之一。只要浏览一下这个博客网站,你就会明白我想表达的意思。多年来,他激励了许多作者效仿,教程的理念也从简单的文字和代码转变为身临其境的可视化。言归正传,回到图文并茂的 Transformer。变换器架构是所有带变换器的语言模型(LLM)的基本构件。因此,了解其基本原理至关重要,而这正是杰伊所做的出色工作。该博客涵盖了以下重要概念:

  • Transformer的高级视角
  • 探索Transformer的编码和解码组件
  • Self-Attention自注意力机制
  • 自注意力机制的矩阵计算
  • Multi-Headed Attention多注意力头的概念
  • 位置编码
  • Transformer结构中的余量
  • 解码器的最终线性和Softmax层
  • 模型训练中的损失函数

Link: https://jalammar.github.io/illustrated-transformer/

他还制作了一个 "讲述Transformer "的视频,以更温和的方式来探讨这个话题。阅读完这篇博文后,Attention Is All You Need 一文和Transformer blog post 官方博文将是很好的补充。

2.图解GPT-2 《The Illustrated GPT-2 by Jay Alammar》

杰伊-阿拉玛(Jay Alammar)的另一篇精彩文章–《图解GPT-2》。这是对图解Transformer 博客的补充,包含更多可视化元素来解释Transformer 的内部工作原理,以及自原始论文发表以来Transformer 是如何演变的。此外,它还有一个专门的部分介绍Transformer 在语言建模之外的应用。
相关链接:🔗: https://jalammar.github.io/illustrated-gpt2/

3. 大语言模型可视化《LLM Visualization by Brendan Bycroft》

LLM 可视化项目提供了支持 OpenAI 的 ChatGPT 的 LLM 算法演练。这是一个探索算法的绝佳资源,可以深入到运行单个标记推理所需的每一个步骤,看到整个过程的运行情况。

该项目的特色是一个网页,其中包含一个小型 LLM 的可视化效果,类似于 ChatGPT,但具有令人惊叹的 3D 效果。该工具提供了单标记推理的逐步指导,并具有互动元素,可让用户亲身体验。截至目前,以下架构的可视化工具已经可用:

  • GPT-2(small)
  • Nano GPT
  • GPT-2(XL)
  • GPT-3

相关链接:: https://bbycroft.net/llm

在这里插入图片描述

4. 生成式AI因transformer而存在《Generative AI exists because of the transformer — Financial Times》

《金融时报》的视觉研发团队和 Madhumita Murgia 做得很好,他们运用视觉效果阐释了 LLM 的功能,特别强调了自我注意机制和 Transformer 架构。
相关链接:https://ig.ft.com/generative-ai/

5. OpenAI 的Token工具《Tokenizer tool by OpenAI》

大型语言模型使用标记(数字序列)处理文本。标记符转换器可将文本转换为标记符。OpenAI 的标记化工具提供了一种有用的方法来测试特定字符串,并查看它们是如何转化为标记的。您可以使用该工具了解语言模型如何对一段文本进行标记化,以及这段文本中的标记总数。

Link: https://platform.openai.com/tokenizer

6. 理解GPT的分词器《Understanding GPT tokenizers by Simon Wilson》

虽然我们已经提到过 OpenAI 提供了一个令牌生成器(Tokenizer)工具来探索令牌是如何工作的,但西蒙-威尔逊(Simon Wilson)自己创建了一个令牌生成器工具,这就更有趣了。该工具可作为 Observable 笔记本使用。该笔记本将文本转换为令牌,将令牌转换为文本,并根据完整的令牌表进行搜索。
西蒙分析得出的一些重要见解包括:

  • 大多数常用英语单词都有一个标记
  • 有些单词的标记带有前导空格,从而能更有效地对完整句子进行编码
  • 非英语语言的标记化效率可能较低
  • 差错标记可能导致意想不到的行为。

相关链接:https://lnkd.in/eXTcia8Z

7. 块可视化《Chunkviz app》

分块是一种策略,包括在构建 LLM 应用程序时将大段文本分解成较小的片段。这一点很重要,这样您就可以将文档放入模型的上下文窗口中。上下文窗口指的是语言模型可以一次性处理的最大文本长度。但是,分块的策略有很多种,而这正是该工具的优势所在。您可以从各种分块策略中进行选择,并查看其对文本的影响。目前,您可以从四种不同的 LangChainAI 拆分器中可视化文本拆分和分块策略。

相关链接:https://chunkviz.up.railway.app/

8. 机器学习模型是记忆还是泛化?《Do Machine Learning Models Memorize or Generalize?》

Explorables是谷歌PAIR团队撰写的互动文章,试图通过互动媒介简化复杂的人工智能相关主题。这篇特别的探索文章深入探讨了 "泛化 "和 "记忆 "的概念,探讨了一个至关重要的问题–大型语言模型(LLMs)是否真正了解世界,还是它们只是在从大量训练数据中回忆信息?

在这篇互动文章中,作者对一个微小模型的训练动态进行了一次调查之旅。他们对找到的解决方案进行了逆向工程,精彩地展示了令人兴奋的新兴机制可解释性领域。

相关链接:🔗 https://pair.withgoogle.com/explorables/grokking/

Conclusion

这些宝贵的工具和文章,它们试图将复杂的技术术语分解成易于理解的形式。以交互式、可视化的形式撰写和呈现技术概念。
本文重点介绍的文章和工具旨在降低初学者和爱好者的入门门槛,使学习更有吸引力,更容易获得。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/650103.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

8.16单调递增的数字(LC738-M)

算法: 拿一个两位的数字来举例。 例如:98,一旦出现strNum[i - 1] > strNum[i]的情况(非单调递增),首先想让strNum[i - 1]--,然后strNum[i]给为9,这样这个整数就是89&#xff0c…

《动手学深度学习(PyTorch版)》笔记4.1

注:书中对代码的讲解并不详细,本文对很多细节做了详细注释。另外,书上的源代码是在Jupyter Notebook上运行的,较为分散,本文将代码集中起来,并加以完善,全部用vscode在python 3.9.18下测试通过。…

tf卡被格式化怎么恢复里面的数据?恢复指南在此

在日常生活中,我们经常使用TF卡来存储各种数据,如照片、视频、文档等。然而,有时候我们会误将TF卡格式化,导致其中的数据丢失。为了挽救这些宝贵的数据,我们需要采取一些措施来进行恢复。本文将为你介绍如何恢复TF卡中…

java中Collections的常用方法(三)

如何使用Collections类来计算集合中元素的出现次数? 在Java中,你可以使用Collections类中的frequency方法来计算集合中元素的出现次数。但是,Collections.frequency()方法并不直接属于Collections类,而是属于Collections工具类的…

最近一周没能完成任务 羞愧

反思了一下,许多失败的项目都是一年内没有维护的项目 还有的是一年内有维护,但是文档少的额可怜,官方文档就几行,按照官方文档操作确实跑不起来 这种项目运行起来总会各种问题 以后一年内不维护的项目 坚决不去接触,文档不全的也不去 浪费时间 浪费精力

华为二层交换机与防火墙配置上网示例

二层交换机与防火墙对接上网配置示例 组网图形 图1 二层交换机与防火墙对接上网组网图 二层交换机简介配置注意事项组网需求配置思路操作步骤配置文件相关信息 二层交换机简介 二层交换机指的是仅能够进行二层转发,不能进行三层转发的交换机。也就是说仅支持二层…

php中判断一维数组和多元数组中的元素是否相等并输出键值key

在php中,如何判断[1,0,1]和[ [0, 0, 0],//体质正常 [1, 0, 0],//气虚体质 [0, 1, 0],//血瘀体质 [0, 0, 1],//阴虚体质 [1, 1, 0],//气虚兼血瘀体质 [1, 0, 1],//气虚兼阴虚体质 [0, 1, 1],//血瘀兼阴虚体质 [1, 1, 1],//气虚兼血瘀兼阴虚体质 ];中的第n项相等&…

sklearn 学习-混淆矩阵 Confusion matrix

混淆矩阵Confusion matrix:也称为误差矩阵,通过计算得出矩阵的结果用来表示分类器的精度。其每一列代表预测值,每一行代表的是实际的类别。 from sklearn.metrics import confusion_matrixy_true [2, 0, 2, 2, 0, 1] y_pred [0, 0, 2, 2, 0…

Spring中的以Aware结尾的接口是做什么的?

在Spring框架中,以 Aware 结尾的接口主要用于提供一种机制,允许Spring管理的beans获得对Spring容器的某些特定功能的访问权。当一个bean实现了这些 Aware 接口之一时,它能够获得对容器的某些资源或信息的访问,这通常涉及到一些容器…

Executors工具类

concurrent包提供了Executors工具类,jdk基于Executors提供了很多种线程池。 public class Executors {/*** Creates a thread pool that reuses a fixed number of threads*/public static ExecutorService newFixedThreadPool(int nThreads) {return new ThreadPo…

域名被劫持了该怎么办

随着互联网的日益发展,很多企业都开始建设网站。但是在网站经营的过程当中经常会遇到各种各样的问题,比如说域名被劫持的问题,域名被劫持就说明互联网受到了攻击。那么如果一旦域名被劫持的话,又应该如何进行处理呢? …

1688工厂货源对接跨境电商代购系统API官方数据API免费测试

众所周知,阿里巴巴(1688.com)是全球企业间(B2B)电子商务的著名品牌,为数千万网商提供海量商机信息和便捷安全的在线交易市场,也是商人们以商会友、真实互动的社区平台。工厂货源的优势让它成为很多跨境卖家外贸从业者的首选货源平台。如何实现1688商品自动对接到自己…

《WebKit技术内幕》学习之十五(2):Web前端的未来

2 嵌入式应用模式 2.1 嵌入式模式 读者可能会奇怪本章重点表达的是Web应用和Web运行平台,为什么会介绍嵌入式模式(Embedded Mode)呢?这是因为很多Web运行平台是基于嵌入式模式的接口开发出来的,所以这里先解释一下什…

npm create vue3项目特别慢

问题:Vue CLI v5.0.8在配置了淘宝镜像的情况下,创建项目报Failed to check for updates,还特别慢,等了好久都创建不好 查看 npm config get registry更换npm镜像 npm config set registryhttps://registry.npmmirror.com这样创建…

电脑文件pdf怎么转换成word?30秒教你轻松转换

现在我们在工作和学习中经常接触到的文件类型一种是word文件,另一种就是pdf文件啦,这两种文件各有各的有点,适用的使用场景也不太一样,但是难免遇到需要把pdf转word的情况,那么pdf怎么转word呢?除了下载安装…

设计模式—行为型模式之责任链模式

设计模式—行为型模式之责任链模式 责任链(Chain of Responsibility)模式:为了避免请求发送者与多个请求处理者耦合在一起,于是将所有请求的处理者通过前一对象记住其下一个对象的引用而连成一条链;当有请求发生时&am…

华清远见作业第三十二天——C++(第一天)

思维导图&#xff1a; 提示并输入一个字符串&#xff0c;统计字符中大写、小写个数、空格个数以及其他字符个数要求使用C风格完成。 代码&#xff1a; #include <iostream> #include<array> using namespace std;int main() {string str;cout << "请输…

【开发工具】从eclipse到idea的过度

背景 随着eclipse相比以前性能慢了不少&#xff0c;idea在开发工具领域越战越猛&#xff0c;市场份额也逐年增加&#xff0c;其体验得了软件工程师的热爱。 概要 本文只是做了一个简要的记录&#xff0c;简单描述下本人从eclipse到idea的过度的心态。 正文 在大厂都会研发自…

5G时代下的融合CDN新风口

近年来&#xff0c;随着网络技术的飞速发展&#xff0c;互联网流量视频化的趋势日益明显&#xff0c;视频应用使互联网的可扩展性、可演进性、服务质量和网络安全面临诸多挑战。为克服传统IP网络在服务视频应用当中的不足&#xff0c;内容分发网络CDN被提出&#xff0c;并迅速成…

stm32中的SDIO

SDIO-SD卡 文章目录 SDIO-SD卡SD卡结构物理结构SD卡寄存器列表 SDIO总线SDIO总线拓扑SDIO总线SDIO总线协议常规数据传输宽位数据包 命令命令格式命令的类型命令集 SD卡的操作模式数据传输模式 STM32 的 SDIO 功能框图控制单元命令路径CPSM 状态机描述图数据路径数据 FIFO SDIO结…