5 种技术,可用于系统中的大数据模型,而不会使系统崩塌

文章目录

  • 一、说明
  • 二、第一种:批量大小
  • 三、第二种:主动学习
  • 四、第三种:增加代币数量
  • 五、第四种: 稀疏激活
  • 六、第五种:过滤器和更简单的模型
  • 后记

一、说明

以下是本文重要观点的摘要。阅读它以获取更多详细信息/获取原始源链接。很多 AI 人都想构建像 GPT 4 这样的大型 AI 模型。让我们来谈谈一些技术,这些技术可以让您在不崩溃的情况下扩展您的模型。这些技术将使您能够扩展 AI 模型,在不显着增加成本的情况下提高系统的表达能力

在这里插入图片描述

这张图片由我在这里介绍的 Pathways 系统提供

二、第一种:批量大小

增加批处理大小可以减少训练时间和成本,但可能会影响泛化。人工智能研究人员已经清楚地注意到,增加批量大小会扰乱你的准确性和泛化。对于大批量训练的低泛化,甚至有一个众所周知的术语——泛化差距。关于那个——这是一个神话。 它确实存在,如果你增加批处理大小而不做其他事情。
在这里插入图片描述

如果您只是增加批量大小而不更改任何其他内容,您的模型将卡在更尖锐的最小值中。这就是泛化差距背后的原因,这在论文《深度学习的大批量训练:泛化差距和尖锐最小值》中得到了证明。
这种权衡可以通过“幽灵批量归一化”等技术来缓解,正如论文“训练时间更长,泛化更好:缩小神经网络大批量训练中的泛化差距”中所建议的那样。
在这里插入图片描述

还有其他技术可以克服这一限制。所有这些都将使您能够最大限度地节省大批量产品的成本,而不会错过性能。

三、第二种:主动学习

这里有一个非常简单的想法 - 如果你有一个预训练的模型,那么有些数据点更容易建模,而另一些数据点则更难建模。较难处理的数据点为您的模型提供了更多潜在信息。因此,将训练重点放在忽略模型认为容易的数据点上是有意义的。如果埃尔林·哈兰德(Erling Haaland)想从“联赛2”球员毕业,那么他最好与困难的对手一起训练,而不是我。

一个很好的实现是 Meta 的“超越神经缩放定律:通过数据修剪击败幂律缩放”。

广泛观察到的神经缩放定律,其中误差会随着训练集大小、模型大小或两者的幂而下降,这推动了深度学习的性能大幅提高。然而,仅通过扩展进行这些改进就需要相当大的计算和能源成本。在这里,我们重点关注误差随数据集大小的缩放,并展示了在理论和实践中,如果我们能够访问高质量的数据修剪指标,我们可以如何突破幂律缩放并将其简化为指数缩放,该指标对应丢弃训练示例的顺序进行排序,以实现任何修剪后的数据集大小。然后,我们用修剪后的数据集大小实证测试了这种新的指数缩放预测,并且确实在 CIFAR-10、SVHN 和 ImageNet 上训练的 ResNets 上观察到比幂律缩放性能更好的结果。鉴于寻找高质量修剪指标的重要性,我们在 ImageNet 上对 10 种不同的数据修剪指标进行了首次大规模基准测试研究。我们发现大多数现有的高性能指标都无法扩展到 ImageNet,而最好的指标是计算密集型的,并且需要为每张图像添加标签。因此,我们开发了一种新的简单、廉价且可扩展的自监督修剪指标,该指标的性能与最佳监督指标相当。总的来说,我们的研究表明,发现良好的数据修剪指标可能会为大幅改进神经缩放定律提供一条可行的途径,从而降低现代深度学习的资源成本。

四、第三种:增加代币数量

Deepmind 的论文“训练计算-最优大型语言模型”的研究强调了平衡语言模型中参数数量和训练令牌数量的重要性,以更低的成本实现更好的性能。如果你喜欢LLM,强烈建议你阅读这篇论文,因为它是世代相传的。
在这里插入图片描述

五、第四种: 稀疏激活

稀疏权重激活训练 (SWAT) 等算法可以通过仅激活神经网络的一部分来显着减少训练和推理期间的计算开销。5/7 必须知道想法。让我们来谈谈它。

回想一下神经网络的工作原理。当我们训练它们时,输入流经所有神经元,包括向前和向后传递。这就是为什么向神经网络添加更多参数会成倍增加成本的原因。

在我们的网络中添加更多的神经元允许我们的模型从更复杂的数据(如来自多个任务的数据和来自多个感官的数据)中学习。但是,这会增加大量计算开销。

对于 ImageNet 上的 ResNet-50,SWAT 将训练期间的总浮点运算 (FLOPS) 减少了 80%,从而在代表新兴平台的模拟稀疏学习加速器上运行时,训练速度提高了 3.3×而验证精度仅降低 1.63%。此外,SWAT 在向后传递期间将内存占用量减少了 23% 到 50%,对于权重减少了 50% 到 90%。

稀疏激活允许两全其美的方案。添加大量参数可以让我们的模型有效地学习更多任务(并建立更深层次的联系)。稀疏激活允许您仅使用网络的一部分,从而减少推理。这使得网络可以学习并擅长多项任务,而不会花费太高的成本。

六、第五种:过滤器和更简单的模型

与其仅仅依赖大型模型,不如使用更简单的模型或过滤器来处理大多数任务,将大型模型保留给复杂的边缘情况。你会惊讶于你可以用正则表达式、规则和一些数学完成多少。

通过结合这些策略,我们可以释放大型人工智能模型的潜力,同时最大限度地降低其对环境的影响和计算成本。正如亚马逊云科技所指出的,“在深度学习应用程序中,推理占总运营成本的 90%”,这使得这些优化对于广泛采用至关重要。

再一次,要了解有关这些技术的更多信息,请阅读以下内容-

如何高效构建 ChatGPT 等大型 AI 模型
可用于在系统中使用大型数据模型而不会破坏系统的技术

后记

感谢您抽出宝贵时间。与往常一样,如果您有兴趣与我合作或查看我的其他作品,我的链接将位于此电子邮件/帖子的末尾。如果你在这篇文章中发现了价值,我将不胜感激你与更多的人分享。正是像您这样的口碑推荐帮助我成长。
我花了很多精力来创作信息丰富、有用且不受不当影响的作品。如果您想支持我的写作,请考虑成为本通讯的付费订阅者。这样做可以帮助我投入更多的精力进行写作/研究,接触更多的人,并支持我严重的巧克力牛奶成瘾。帮助我每周向超过 100K 读者宣传 AI 研究和工程中最重要的思想。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/847957.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《深入浅出存储引擎》不同数据库背后的数据存储方案

在大数据和AI时代,数据库成为各类应用不可或缺的重要组成部分。而数据库中的数据依赖存储引擎进行管理,包括数据的存储、查询、更新和删除等。因此,在设计系统时,选择正确的数据库存储引擎方案变得尤为重要。这篇文章将以关系型、…

会计电子档案系统方案

会计电子档案系统方案是指建立一个以电子方式存储和管理会计档案的系统。该方案具体包括以下几个方面: 1. 系统架构设计:确定系统的组成以及各个组件之间的关联和交互方式。包括数据库设计、系统服务器和客户端的部署等。 2. 电子档案管理:建…

一切模型皆可联邦化:高斯朴素贝叶斯代码示例

联邦学习是一种分布式的机器学习方法,其中多个客户端在一个中央服务器的协调下合作训练模型,但不共享他们的本地数据。一般情况下我们对联邦学习的理解都是大模型和深度学习模型才可以进行联邦学习,其实基本上只要包含参数的机器学习方法都可…

C# 实时声音频率图绘制

C# 实时声音频率图绘制 采集PCM音频数据 音频原来自麦克风 音频源来自录音文件 处理PCM音频数据 使用 FftSharp.FFT 将PCM数据进行傅里叶变换 安装FftSharp框架 在Nuget包管理器中搜索FftSharp并安装 傅里叶变换 将采集到的PCM数据进行傅里叶变换 // 傅里叶变换System.…

新手如何正确使用代理IP,一篇文章学会,包含实战案例

前言 一、代理IP1.1 什么是代理IP?1.2 代理ip分类1.3 代理IP的作用和优势 二、更换代理IP的方法2.1 重启路由器或光猫2.2 用拨号 vps 重拨更换动态IP代理。2.3 使用浏览器更换IP 三、IPIDEA代理的优势四、提取代理IP4.1 提取步骤4.2 浏览器使用代理IP 五、使用代理I…

CSS(盒子模型,定位,浮动,扩展)

CSS 盒子模型:外边距:内边距:水平居中: 定位:相对定位:绝对定位:固定定位: 浮动:扩展: 盒子模型: 盒子模型(Box Model) 规定了元素框处理元素内容…

Java核心: 使用instrumentation

在上一篇Java核心: 注解处理器我们提到,通过实现AbstractProcessor,并调用javac -processor能够生成代码来实现特殊逻辑。不过它存在两个明显的问题: 只能新增源文件来扩展逻辑,无法修改现有的类或方法必须有一个单独的编译过程,…

3毛钱的QC协议芯片TYPE-C USB快充接口物理层IC

前言: 现在基本使TYPE-C打天下了。很多产品和TYPEC息息相关,如笔记本的电源接口,手机更不用说了,甚至电烙铁也使TYPE-C接口的了,很多涉及采用TYPE-C接口的快充接口,简单的可以用电阻欺骗快充头&#xff0c…

什么是it运维工单系统?有哪些应用价值?

it运维工单系统是一个智能化的it运维服务管理系统,可以为企业和服务提供商提供高效的it运维服务管理,它可以自动分配任务、优化工作流程并跟踪工作进展,从而大大提高it运维工作效率和客户满意度。 一、it运维工单系统是什么? it…

100000开发的系统,执意重构钱多执念?

收到一位客户询盘,要重做自己的系统,原因:嫌弃基于PHP做的系统服务器消耗大。咨询了好几拨人,觉得外包公司贵,个人程序员又不靠谱,总之一门心思要重构。 现状: 1、系统研发耗费100000。 2、目…

Java编程常见问题汇总五

系列文章目录 文章目录 系列文章目录前言一、捕获不可能出现的异常二、transient的误用三、不必要的初始化四、最好用静态final定义Log变量五、选择错误的类加载器 前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分…

docker create rm export exec命令详解

容器生命周期管理命令教程-3 1. 创建容器 docker create:创建一个新的容器但不启动它。 docker create -it --name mycontainer ubuntu bash通常使用 docker run(详细可看上一篇关于run命令的详细介绍) 2. 删除容器 docker rm:删除一个或多个容器。 d…

【python】 ModuleNotFoundError: No module named datasets

成功解决“ModuleNotFoundError: No module named datasets”错误的全面指南 在Python编程中,遇到ModuleNotFoundError: No module named datasets这样的错误通常意味着Python解释器无法找到名为datasets的模块。datasets是一个流行的Python库,常用于加载…

[leetcode hot 150]第一百三十六题,只出现一次的数字

题目: 给你一个 非空 整数数组 nums ,除了某个元素只出现一次以外,其余每个元素均出现两次。找出那个只出现了一次的元素。 你必须设计并实现线性时间复杂度的算法来解决此问题,且该算法只使用常量额外空间。 根据题目关于空间、…

心链9----组队功能开发以及请求参数包装类和包装类实现

心链 — 伙伴匹配系统 组队功能开发 需求分析 理想的应用场景 我要跟别人一起参加竞赛或者做项目,可以发起队伍或者加入别人的队伍 用户可以 创建 一个队伍,设置队伍的人数、队伍名称(标题)、描述、超时时间 P0 队长、剩余的人数…

【WEB系列】过滤器Filter

Filter,过滤器,属于Servlet规范,并不是Spring独有的。其作用从命名上也可以看出一二,拦截一个请求,做一些业务逻辑操作,然后可以决定请求是否可以继续往下分发,落到其他的Filter或者对应的Servl…

海报在线制作系统

文章转载自:FastAdmin海报在线制作系统 - 源码1688 应用介绍 介绍 新机构海报是一款基于FastAdminThinkPHP开发的一款新机构海报。 采用JavaScript vue canvas技术,实现在线一键制作海报,生成海报。 功能特性 1、自由创作 2、一键制作…

Django使用正则表达式

本书1-7章样章及配套资源下载链接: https://pan.baidu.com/s/1OGmhHxEMf2ZdozkUnDkAkA?pwdnanc 源码、PPT课件、教学视频等,可以从前言给出的下载信息下载,大家可以评估一下。 在Django框架的新版本(v2.0 )中,URLc…

ECharts 图形化看板 模板(简单实用)

目录 一、官网 二、模板 ①定义请求​编辑 ② 将请求统一管理,别的页面引用多个请求时更便于导入。​编辑 ③最终模板 三、执行效果 四、后端代码 4.1 controller 4.2 xml 4.3 测试接口 一、官网 获取 ECharts - 入门篇 - 使用手册 - Apache ECharts 二、…

ARM32开发——串口库封装(初级)

🎬 秋野酱:《个人主页》 🔥 个人专栏:《Java专栏》《Python专栏》 ⛺️心若有所向往,何惧道阻且长 文章目录 开发流程分组创建 接口定义完整代码 开发流程 在文件系统中,创建库目录Library在keil工程中,创建分组管理…