大型语言模型基础知识的可视化指南

直观分解复杂人工智能概念的工具和文章汇总

在这里插入图片描述

如今,LLM(大型语言模型的缩写)在全世界都很流行。没有一天不在宣布新的语言模型,这加剧了人们对错过人工智能领域的恐惧。然而,许多人仍在为 LLM 的基本概念而苦苦挣扎,这使他们难以跟上时代的进步。本文的目标读者是那些希望深入了解此类人工智能模型的内部运作,从而扎实掌握相关知识的人。有鉴于此,我将介绍一些工具和文章,它们可以帮助巩固概念并分解 LLM 的概念,使其易于理解。

目录

1.图解Transformer《The Illustrated Transformer by Jay Alammar》

杰伊是最早用强大的可视化功能撰写技术文章的先驱之一。只要浏览一下这个博客网站,你就会明白我想表达的意思。多年来,他激励了许多作者效仿,教程的理念也从简单的文字和代码转变为身临其境的可视化。言归正传,回到图文并茂的 Transformer。变换器架构是所有带变换器的语言模型(LLM)的基本构件。因此,了解其基本原理至关重要,而这正是杰伊所做的出色工作。该博客涵盖了以下重要概念:

  • Transformer的高级视角
  • 探索Transformer的编码和解码组件
  • Self-Attention自注意力机制
  • 自注意力机制的矩阵计算
  • Multi-Headed Attention多注意力头的概念
  • 位置编码
  • Transformer结构中的余量
  • 解码器的最终线性和Softmax层
  • 模型训练中的损失函数

Link: https://jalammar.github.io/illustrated-transformer/

他还制作了一个 "讲述Transformer "的视频,以更温和的方式来探讨这个话题。阅读完这篇博文后,Attention Is All You Need 一文和Transformer blog post 官方博文将是很好的补充。

2.图解GPT-2 《The Illustrated GPT-2 by Jay Alammar》

杰伊-阿拉玛(Jay Alammar)的另一篇精彩文章–《图解GPT-2》。这是对图解Transformer 博客的补充,包含更多可视化元素来解释Transformer 的内部工作原理,以及自原始论文发表以来Transformer 是如何演变的。此外,它还有一个专门的部分介绍Transformer 在语言建模之外的应用。
相关链接:🔗: https://jalammar.github.io/illustrated-gpt2/

3. 大语言模型可视化《LLM Visualization by Brendan Bycroft》

LLM 可视化项目提供了支持 OpenAI 的 ChatGPT 的 LLM 算法演练。这是一个探索算法的绝佳资源,可以深入到运行单个标记推理所需的每一个步骤,看到整个过程的运行情况。

该项目的特色是一个网页,其中包含一个小型 LLM 的可视化效果,类似于 ChatGPT,但具有令人惊叹的 3D 效果。该工具提供了单标记推理的逐步指导,并具有互动元素,可让用户亲身体验。截至目前,以下架构的可视化工具已经可用:

  • GPT-2(small)
  • Nano GPT
  • GPT-2(XL)
  • GPT-3

相关链接:: https://bbycroft.net/llm

在这里插入图片描述

4. 生成式AI因transformer而存在《Generative AI exists because of the transformer — Financial Times》

《金融时报》的视觉研发团队和 Madhumita Murgia 做得很好,他们运用视觉效果阐释了 LLM 的功能,特别强调了自我注意机制和 Transformer 架构。
相关链接:https://ig.ft.com/generative-ai/

5. OpenAI 的Token工具《Tokenizer tool by OpenAI》

大型语言模型使用标记(数字序列)处理文本。标记符转换器可将文本转换为标记符。OpenAI 的标记化工具提供了一种有用的方法来测试特定字符串,并查看它们是如何转化为标记的。您可以使用该工具了解语言模型如何对一段文本进行标记化,以及这段文本中的标记总数。

Link: https://platform.openai.com/tokenizer

6. 理解GPT的分词器《Understanding GPT tokenizers by Simon Wilson》

虽然我们已经提到过 OpenAI 提供了一个令牌生成器(Tokenizer)工具来探索令牌是如何工作的,但西蒙-威尔逊(Simon Wilson)自己创建了一个令牌生成器工具,这就更有趣了。该工具可作为 Observable 笔记本使用。该笔记本将文本转换为令牌,将令牌转换为文本,并根据完整的令牌表进行搜索。
西蒙分析得出的一些重要见解包括:

  • 大多数常用英语单词都有一个标记
  • 有些单词的标记带有前导空格,从而能更有效地对完整句子进行编码
  • 非英语语言的标记化效率可能较低
  • 差错标记可能导致意想不到的行为。

相关链接:https://lnkd.in/eXTcia8Z

7. 块可视化《Chunkviz app》

分块是一种策略,包括在构建 LLM 应用程序时将大段文本分解成较小的片段。这一点很重要,这样您就可以将文档放入模型的上下文窗口中。上下文窗口指的是语言模型可以一次性处理的最大文本长度。但是,分块的策略有很多种,而这正是该工具的优势所在。您可以从各种分块策略中进行选择,并查看其对文本的影响。目前,您可以从四种不同的 LangChainAI 拆分器中可视化文本拆分和分块策略。

相关链接:https://chunkviz.up.railway.app/

8. 机器学习模型是记忆还是泛化?《Do Machine Learning Models Memorize or Generalize?》

Explorables是谷歌PAIR团队撰写的互动文章,试图通过互动媒介简化复杂的人工智能相关主题。这篇特别的探索文章深入探讨了 "泛化 "和 "记忆 "的概念,探讨了一个至关重要的问题–大型语言模型(LLMs)是否真正了解世界,还是它们只是在从大量训练数据中回忆信息?

在这篇互动文章中,作者对一个微小模型的训练动态进行了一次调查之旅。他们对找到的解决方案进行了逆向工程,精彩地展示了令人兴奋的新兴机制可解释性领域。

相关链接:🔗 https://pair.withgoogle.com/explorables/grokking/

Conclusion

这些宝贵的工具和文章,它们试图将复杂的技术术语分解成易于理解的形式。以交互式、可视化的形式撰写和呈现技术概念。
本文重点介绍的文章和工具旨在降低初学者和爱好者的入门门槛,使学习更有吸引力,更容易获得。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/650103.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

8.16单调递增的数字(LC738-M)

算法: 拿一个两位的数字来举例。 例如:98,一旦出现strNum[i - 1] > strNum[i]的情况(非单调递增),首先想让strNum[i - 1]--,然后strNum[i]给为9,这样这个整数就是89&#xff0c…

《动手学深度学习(PyTorch版)》笔记4.1

注:书中对代码的讲解并不详细,本文对很多细节做了详细注释。另外,书上的源代码是在Jupyter Notebook上运行的,较为分散,本文将代码集中起来,并加以完善,全部用vscode在python 3.9.18下测试通过。…

tf卡被格式化怎么恢复里面的数据?恢复指南在此

在日常生活中,我们经常使用TF卡来存储各种数据,如照片、视频、文档等。然而,有时候我们会误将TF卡格式化,导致其中的数据丢失。为了挽救这些宝贵的数据,我们需要采取一些措施来进行恢复。本文将为你介绍如何恢复TF卡中…

华为二层交换机与防火墙配置上网示例

二层交换机与防火墙对接上网配置示例 组网图形 图1 二层交换机与防火墙对接上网组网图 二层交换机简介配置注意事项组网需求配置思路操作步骤配置文件相关信息 二层交换机简介 二层交换机指的是仅能够进行二层转发,不能进行三层转发的交换机。也就是说仅支持二层…

sklearn 学习-混淆矩阵 Confusion matrix

混淆矩阵Confusion matrix:也称为误差矩阵,通过计算得出矩阵的结果用来表示分类器的精度。其每一列代表预测值,每一行代表的是实际的类别。 from sklearn.metrics import confusion_matrixy_true [2, 0, 2, 2, 0, 1] y_pred [0, 0, 2, 2, 0…

Executors工具类

concurrent包提供了Executors工具类,jdk基于Executors提供了很多种线程池。 public class Executors {/*** Creates a thread pool that reuses a fixed number of threads*/public static ExecutorService newFixedThreadPool(int nThreads) {return new ThreadPo…

《WebKit技术内幕》学习之十五(2):Web前端的未来

2 嵌入式应用模式 2.1 嵌入式模式 读者可能会奇怪本章重点表达的是Web应用和Web运行平台,为什么会介绍嵌入式模式(Embedded Mode)呢?这是因为很多Web运行平台是基于嵌入式模式的接口开发出来的,所以这里先解释一下什…

npm create vue3项目特别慢

问题:Vue CLI v5.0.8在配置了淘宝镜像的情况下,创建项目报Failed to check for updates,还特别慢,等了好久都创建不好 查看 npm config get registry更换npm镜像 npm config set registryhttps://registry.npmmirror.com这样创建…

电脑文件pdf怎么转换成word?30秒教你轻松转换

现在我们在工作和学习中经常接触到的文件类型一种是word文件,另一种就是pdf文件啦,这两种文件各有各的有点,适用的使用场景也不太一样,但是难免遇到需要把pdf转word的情况,那么pdf怎么转word呢?除了下载安装…

设计模式—行为型模式之责任链模式

设计模式—行为型模式之责任链模式 责任链(Chain of Responsibility)模式:为了避免请求发送者与多个请求处理者耦合在一起,于是将所有请求的处理者通过前一对象记住其下一个对象的引用而连成一条链;当有请求发生时&am…

华清远见作业第三十二天——C++(第一天)

思维导图&#xff1a; 提示并输入一个字符串&#xff0c;统计字符中大写、小写个数、空格个数以及其他字符个数要求使用C风格完成。 代码&#xff1a; #include <iostream> #include<array> using namespace std;int main() {string str;cout << "请输…

5G时代下的融合CDN新风口

近年来&#xff0c;随着网络技术的飞速发展&#xff0c;互联网流量视频化的趋势日益明显&#xff0c;视频应用使互联网的可扩展性、可演进性、服务质量和网络安全面临诸多挑战。为克服传统IP网络在服务视频应用当中的不足&#xff0c;内容分发网络CDN被提出&#xff0c;并迅速成…

stm32中的SDIO

SDIO-SD卡 文章目录 SDIO-SD卡SD卡结构物理结构SD卡寄存器列表 SDIO总线SDIO总线拓扑SDIO总线SDIO总线协议常规数据传输宽位数据包 命令命令格式命令的类型命令集 SD卡的操作模式数据传输模式 STM32 的 SDIO 功能框图控制单元命令路径CPSM 状态机描述图数据路径数据 FIFO SDIO结…

SQL注入实战:二阶注入

一、二阶注入的原理 1、二阶注入也称为SOL二次注入。 2、二次注入漏洞是一种在Web应用程序中广泛存在的安全漏洞形式:相对于一次注入漏洞而言&#xff0c;二次注入漏洞更难以被发现&#xff0c;但是它却具有与一次注入攻击漏洞相同的攻击威力。 3、简单的说&#xff0c;二次…

3D应用开发工具HOOPS引领数字化工厂浪潮:制造业转型的关键角色!

随着科技的迅猛发展&#xff0c;制造业正经历着数字化转型的浪潮。在这一变革的前沿&#xff0c;Tech Soft 3D 的 HOOPS技术正扮演着关键的角色。 本文将深入研究HOOPS技术如何在数字化工作流程中发挥作用&#xff0c;以及它是如何引领制造业朝着更高效、智能的未来迈进的。 …

NeRF:神经辐射场复杂场景的新视图合成技术

NeRF&#xff1a;神经辐射场复杂场景的新视图合成技术 NeRF&#xff1a;神经辐射场复杂场景的新视图合成技术项目背景与意义如何运行&#xff1f;快速开始更多数据集 预训练模型方法与实现结语服务 NeRF&#xff1a;神经辐射场复杂场景的新视图合成技术 在计算机视觉领域&…

vue项目如何打包,java项目如何打包

目录 vue项目如何打包 java项目如何打jar包 使用Maven打包为JAR&#xff08;方式一&#xff09;视图&#xff1a; 先双击clean再双击package即可打包 使用Maven打包为JAR&#xff08;方式二&#xff09;命令&#xff1a; 1、确保你已经安装了Maven&#xff0c;并且配置了相应…

美赛提交流程与注意事项详细介绍

美赛提交流程 01 美赛选题步骤选题第一步&#xff1a;选题第二步&#xff1a;选题第三步: 02 论文提交邮箱登录提交论文发送邮箱查询进度 03 美赛提交注意事项04 题型分布/获奖技巧资料获取 内含获奖技巧、提交步骤等超多干货&#xff01; 01 美赛选题步骤 选题第一步&#xff…

kafka summary

最近整体梳理之前用到的一些东西&#xff0c;回顾Kafka的时候好多东西都忘记了&#xff0c;把一些自己记的比较模糊并且感觉有用的东西整理一遍并且记忆一遍&#xff0c;仅用于记录以备后续回顾 Kafka的哪些场景中使用了零拷贝 生产者发送消息&#xff1a;在 Kafka 生产者发送…

仅使用 Python 创建的 Web 应用程序(前端版本)第09章_购物车

在本章中,我们将实现购物车页面。 完成后的图像如下。 创建过程与之前相同,如下。 No分类内容1Model创建继承BaseDataModel的数据类Cart、CartItem2Service创建一个 CartAPIClient3Page定义PageId并创建继承自BasePage的页面类4Application将页面 ID 和页面类对添加到 Multi…