LLM背后的基础模型 1

写在最前面的话

任何开源技术是最有生命力的,也是最具分享精神的。一直觉得大模型领域需要有一个系列能够从零开始系统性的讲述领域知识,给与这个领域的从业人员或者对其有兴趣的门外汉及时的帮助。国外承担“布道者”的公司众多,而数砖公司在这个领域一直走在前面。恰逢数砖的“从头开始大模型的基础模型”于近期发布,借花献佛,在基础上加入自身理解进而形成这个特殊的专栏。

虽然生成式人工智能技术的正在迅猛发展,但是现阶段面临的主要挑战是没有一个模型能够适用于所有情况。所以人们对为特定用例创建定制化模型的兴趣日益浓厚。为了找到实践中的最佳模型,亦或是追求在隐私、品质、成本、服务及模型使用延迟等多方面达到平衡,决定了一定需要定制化模型。由此可见,开发新的大型语言模型是一项浩大的工程。

目前,市场上有许多成功的专有和开源LLM模型,它们由不同的公司和研究团队提供,如Anthropic、ChatGPT、PaLM-2、Databricks的Dolly、Mosaic MPT、StabilityAI的模型以及Hugging Face上的众多模型,这些模型如何选择让人左右为难。通过这个专栏,能够帮助大家更好地理解和应用这些模型,通过理解它们的基本原理和应用方法,进而构建出高品质的应用程序和模型。

令人兴奋的是随着开源模型的兴起,免费模型的品质正在快速提升,相关的知识也在不断积累。源源不断出现的新开源模型和研究社群正在探索的技术,能够帮助需要者快速的构建出色的语言模型和应用。即便是许多开源模型源于最初无法商业使用的技术。例如,Meta或Facebook在2023年初发布的Llama模型,激发了许多研究人员的创新。史丹佛大学的一个团队基于Llama模型开发了Alpaca模型,它擅长聊天和遵循指示,使其在多种应用中更具实用性。此外,Databricks的Dolly、MosaicML的MPT等模型也开始提供商业许可,让模型的使用更加灵活和广泛。评估模型也是极为重要,如何有效的构建评估体系也是这个专栏会讨论之一。Hugging Face已经存在LLM排行榜专注于不同任务的评估,帮助开发者了解模型的表现,并构建更好的模型。

虽然LLM领域的知识和技术日新月异,但是万地高楼平地起,在这个系列中会更加关注基础。通过细节了解模型的基本运作原理、预训练数据和推理过程,以及各个阶段的可用选项,这些基础知识的微小变化构成了其他所有内容。

Transformer架构

在这个系列的第一部分将进入深度学习和自然语言处理的奇妙世界,首先聚焦于Transformer架构——这是现代大型语言模型的核心技术。本部分内容不仅是整个系列的基石,也是理解后续章节的关键所在。

Transformer的当前形式首次亮相是在2017年的BERT论文中。自那以后,大多数的大型语言模型都是基于Transformer的某种变体,包括OpenAI推出的GPT,这是一个预训练的Transformer模型,对当前基于聊天的语言模型产生了深远的影响。有趣的是,在Transformer出现之前,虽然有许多深度学习模型的快速实验,但它们更像是寒武纪大爆炸,各种不同层次和模块的组合。而Transformer的出现,至少在自然语言处理领域,使得许多模型设计都遵循了相同的基本构建块。这使得研究的关注点转移到了不同的训练技术和数据生成方法上。

尽管底层架构并没有经历过大规模的改变,但Transformer架构的强大之处在于它允许模型学习输入不同方面之间的多种交互,并且可以堆叠到不同的深度,以便理解模型的不同特性。即使今天存在一些变化,这些变化可能旨在提高速度或降低成本,但基本的构建块仍然是相同的。

2023年,在大型语言模型领域见证了思想、概念和创新的爆炸式增长,这些创新不断给我们带来惊喜。ChatGPT和其他类似技术代表了人类与技术之间的一种新型交互方式,因为它们基于自然语言处理,我们能够更自然地与它们交流。同时,它们广泛的应用和深厚的技术知识也使我们能够更好地处理日常生活中的事务。

对于过去10年左右熟悉深度学习世界的人来说,您可能已经注意到,在2010至2012年初,我们经历了一个类似的热潮时刻。当时,卷积神经网络的创新震撼了计算机视觉世界。这项创新就是卷积层,它使我们能够查看不同空间区域中的图像,尝试了解图像内部的情况。正如您在图片中看到的,这意味着我们可以与旧技术竞争并将其彻底击败。通过ImageNet的测试,卷积神经网络轻松地在竞争中占据主导地位,并且自2012年以来,每个模型都基于卷积神经网络,使得结果达到了饱和状态。自然语言处理领域也在等待这样的发展。

我们在2018年左右迎来了这一突破,释放大型语言模型力量的创新被称为“注意力机制”。正如这个词所暗示的,注意力机制允许计算机(或者在这个情况下是Transformer)准确地了解一个单词如何按照特定顺序与其他单词相关联,并给出序列中每个单词之间的重要性分数。对我们来说,这似乎是一个显而易见的概念,它是我们在生命早期就开发出来的,但它对于自然语言处理来说是至关重要的一部分,能够释放以前无法实现的能力。虽然注意力机制在我们掌握自然语言处理方面迈出了一大步,但它实际上只是构建我们现在看到的Transformer和类似模型所需的一小部分。因此,深入了解Transformer非常重要。后续的旅途将围绕着如下的问题展开:

  • 明确掌握如何使用Python代码实现Transformer模型。

  • 深入理解不同类型Transformer架构中的构建块,包括编码器、解码器以及编码器-解码器组合模型。

  • 充分理解注意力机制的原理、工作方式及其重要性

  • 将大模型应用于多种自然语言处理(NLP)任务,并评估它们的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/20606.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

云技术最全详解

目录 云技术 1.定义 2.特点 2.类型 2.1IaaS(基础设置即服务) 2.2PaaS(平台即服务) 2.3SaaS(软件即服务) 3.云技术模型 3.1公有云 3.2私有云 3.3混合云 云技术 1.定义 云技术是一种云计算和存储…

如何让 LightRoom 每次导入照片后不自动弹出 SD 卡 LR

如何让 LightRoom 每次导入照片后不自动弹出 SD 卡 LR 在导入窗口左上角有个选项: 导入后弹出 把这个去掉就可以了

Qt Creator(Qt 6.6)拷贝一行

Edit - Preference - Environment: 可看到,拷贝一行的快捷键是: ctrl Ins

数据结构-堆(带图)详解

前言 本篇博客我们来仔细说一下二叉树顺序存储的堆的结构,我们来看看堆到底如何实现,以及所谓的堆排序到底是什么 💓 个人主页:普通young man-CSDN博客 ⏩ 文章专栏:数据结构_普通young man的博客-CSDN博客 若有问题 评…

程序员是牛马吗?

在今天的讨论中,一个引人深思的问题被提出:程序员是否只是现代社会的牛马?这个问题迅速引发了激烈的争论。许多程序员开始意识到,尽管他们辛勤工作,但最终可能仍无法摆脱被剥削的命运。因此,他们渴望改变&a…

MySQL(二)-基础操作

一、约束 有时候,数据库中数据是有约束的,比如 性别列,你不能填一些奇奇怪怪的数据~ 如果靠人为的来对数据进行检索约束的话,肯定是不行的,人肯定会犯错~因此就需要让计算机对插入的数据进行约束要求! 约…

混合模型方差分析

文章目录 一、说明二、受试者“间”因素和受试者“内”因素的意思?三、混合模型方差分析回答 3 件事四、混合模型方差分析的假设 一、说明 在本文中,我将讨论一种称为混合模型方差分析的方差分析变体,也称为具有重复测量的 2 因素方差分析。…

VB.net进行CAD二次开发(四)

netload不能弹出对话框&#xff0c;参考文献2 参考文献1说明了自定义菜单的问题&#xff0c;用的是cad的系统命令 只要加载了dll&#xff0c;自定义的命令与cad的命令同等地位。 这时&#xff0c;可以将自定义菜单的系统命令替换为自定义命令。 <CommandMethod("Add…

STL-queue的使用及其模拟实现

在C标准库中&#xff0c;队列(queue)是一种容器适配器&#xff0c;它以先进先出的方式组织数据&#xff0c;其中从容器一端插入元素&#xff0c;另一端取出元素。 queue的使用 queue的构造函数 queue的成员函数 empty&#xff1a;检测队列是否为空size&#xff1a;返回队列中有…

代码随想录算法训练营 day23| ● 669. 修剪二叉搜索树 ● 108.将有序数组转换为二叉搜索树 ● 538.把二叉搜索树转换为累加树

文章目录 前言669. 修剪二叉搜索树思路方法一 递归法方法二 迭代法 108.将有序数组转换为二叉搜索树思路方法一 递归法方法二 迭代法 538.把二叉搜索树转换为累加树思路方法一方法二 总结 前言 迭代法都没看主要是669和538【538很简单】 669. 修剪二叉搜索树 思路 不用看教程…

【基本数据结构】平衡二叉树

文章目录 前言平衡二叉树1 简介2 旋转2.1 左旋2.2 右旋2.3 何时旋转 3 插入节点4 删除节点5 代码 参考资料写在最后 前言 本系列专注更新基本数据结构&#xff0c;现有以下文章&#xff1a; 【算法与数据结构】数组. 【算法与数据结构】链表. 【算法与数据结构】哈希表. 【…

【斯坦福因果推断课程全集】1_随机对照试验1

目录 The average treatment effect Difference-in-means estimation IID Sampling and Population Asymptotics Example: The linear model Regression adjustments with a linear model 随机对照试验&#xff08;RCT&#xff09;是统计因果推论的基础。如果有的话&#…

关于FPGA 使用SPI FLASH固化时如何配置固化参数

关于FPGA 使用SPI FLASH固化时如何配置固化参数 EDA工具&#xff1a;Vivado 关于FPGA 使用SPI FLASH固化时如何配置固化参数一、引言二、如何设置固化参数&#xff1a;使用50M的速度 &#xff0c;SPI为X4 &#xff0c;以及bit压缩第一&#xff1a;点open implenment design第二…

安装软件缺少dll文件怎么办,分享多种解决dll问题的方法

在计算机使用过程中&#xff0c;我们经常会遇到安装软件时提示缺少dll文件的问题。这种情况通常会导致软件无法正常运行或启动。为了解决这个问题&#xff0c;我总结了以下五种方法&#xff0c;希望对大家有所帮助。 一&#xff0c;了解DLL文件是什么 动态链接库&#xff08;D…

简单说说我对集成学习算法的一点理解

概要 集成学习&#xff08;Ensemble Learning&#xff09;是一种机器学习技术框架&#xff0c;它通过构建并结合多个学习器&#xff08;也称为个体学习器或基学习器&#xff09;来完成学习任务。 集成学习旨在通过组合多个基学习器的预测结果来提高整体模型的性能。每个基学习…

常见仪表盘指示灯的含义,这次够全了!

汽车是当前主要的交通工具之一&#xff0c;给人们的工作、生活提供了便利。大家在学会开车的同时&#xff0c;也得了解一些基本的汽车常识&#xff0c;可以及时的发现车辆的问题&#xff0c;并作出正确的判断&#xff0c;以此降低车辆的损耗和维修成本。其中最基本的&#xff0…

房产证上加名?手把手教你操作,省钱又省心!

随着《民法典》的实施&#xff0c;房产的权属问题愈发受到重视。夫妻双方及其亲属常希望能在房产证上增添自己的名字&#xff0c;以保障各自的权益。那么&#xff0c;房产证上到底能写几个名字呢&#xff1f;以下是对这一问题的详细解答。 一、房产证命名无固定限制 在购房时&…

民国漫画杂志《时代漫画》第39期.PDF

时代漫画39.PDF: https://url03.ctfile.com/f/1779803-1248636473-6bd732?p9586 (访问密码: 9586) 《时代漫画》的杂志在1934年诞生了&#xff0c;截止1937年6月战争来临被迫停刊共发行了39期。 ps: 资源来源网络!

SpringBoot注解--10--@Bean,对象注入的三种方法

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 Bean一、如何使用方法注解注意Bean 的命名规则&#xff0c;当没有设置 name 属性时&#xff0c;那么 bean 默认的名称就是方法名&#xff0c;当设置了 name 属性之后…

33【Aseprite 作图】树——拆解

1 树叶 画树叶真累啊&#xff0c;可以先画一个轮廓&#xff0c;细节一点点修 2 1 2 &#xff1b;2 2 2 &#xff08;横着横&#xff09;&#xff0c;这样一点点画树叶 填充颜色&#xff0c;用了喷雾工具 2 树干部分 轮廓部分&#xff0c;左边的是3 3 3 &#xff1b;上下都是…