做废钢那个网站好/优化设计三年级上册答案语文

做废钢那个网站好,优化设计三年级上册答案语文,成都疫情防控指挥部,wordpress绑定百家号近期大语言模型(LLM)的基准测试结果引发了对现有架构扩展性的思考。尽管OpenAI推出的GPT-4.5被定位为其最强大的聊天模型,但在多项关键基准测试上的表现却不及某些规模较小的模型。DeepSeek-V3在AIME 2024评测中达到了39.2%的Pass1准确率,在SWE-bench Ve…

近期大语言模型(LLM)的基准测试结果引发了对现有架构扩展性的思考。尽管OpenAI推出的GPT-4.5被定位为其最强大的聊天模型,但在多项关键基准测试上的表现却不及某些规模较小的模型。DeepSeek-V3在AIME 2024评测中达到了39.2%的Pass@1准确率,在SWE-bench Verified上获得42%的准确率,而GPT-4.5在这两项基准测试上的得分分别仅为36.7%和38%。

DeepSeek-V3与其他LLM的性能对比(数据来源:ArXiv研究论文《DeepSeek-V3 Technical Report》)

GPT-4.5与其他OpenAI模型的性能对比(数据来源:OpenAI博客文章《Introducing GPT-4.5》)

这一现象促使研究者思考:现有的LLM架构是否需要根本性的改进以实现更高水平的扩展性能?

研究人员最近提出的FANformer架构为这一问题提供了一个可能的解决方案。该架构通过将傅里叶分析网络(Fourier Analysis Network, FAN)整合到Transformer的注意力机制中,形成了一种创新的模型结构。实验数据显示,随着模型规模和训练数据量的增加,FANformer始终表现出优于传统Transformer架构的性能。特别值得注意的是,拥有10亿参数的FANformer模型在性能上超过了同等规模和训练量的开源LLM。

本文将深入探讨FANformer的工作原理及其架构创新,分析使其在性能上超越传统Transformer的关键技术要素。

傅里叶分析网络基础

标准深度神经网络(MLP)在捕获和建模训练数据中的大多数模式方面表现良好,但在处理数据中的周期性模式时存在明显的不足。由于实际数据中通常包含隐含的周期性特征,这一局限性会影响传统神经网络的学习效率。

下图展示了一个典型案例,即使在充足的训练资源条件下,Transformer也难以有效地对简单的mod函数进行建模。

傅里叶分析网络(FAN)通过将傅里叶分析原理直接整合到神经网络结构中,有效解决了这一问题。如下图所示,相较于MLP、KAN和Transformer,FAN能够更准确地对周期性sin函数进行建模。

FAN层可通过以下数学公式表示:

其中:

  • X为输入数据
  • W(p)W(p̄)为可学习的投影矩阵
  • B(p̄)为偏置项
  • σ表示非线性激活函数
  • ||表示向量连接操作

与MLP层应用简单的线性变换后进行非线性激活不同,FAN层明确地将周期性变换(正弦和余弦函数)与线性变换和非线性激活相结合,从而增强了捕获数据中周期性模式的能力。

下图展示了MLP和FAN层在架构和数学表达上的差异:
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

MLP和FAN层的架构差异对比(数据来源:ArXiv研究论文《FAN: Fourier Analysis Networks》)

MLP和FAN层的数学表达差异(数据来源:ArXiv研究论文《FAN: Fourier Analysis Networks》)

FANformer的注意力机制设计

当前主流的LLM基于仅解码器的Transformer架构。FANformer通过从FAN借鉴周期性捕获原理,并将其应用于Transformer架构的注意力机制,形成了一种称为**注意力-傅里叶(ATtention-Fourier, ATF)**模块的新型结构。

对于长度为

l

的输入序列

s = {s(1), s(2), ..., s(l)}

,首先将其映射为输入嵌入

X(0) = {x(1), x(2), ..., x(l)}

。该嵌入通过模型的多个层处理,最终获得输出

X(N)

,其中

N

为模型的总层数。

具体而言,每一层的处理过程如下:

给定输入嵌入

X

,其傅里叶变换表示计算为:

注意,此转换使用经过修改的

FANLayer'

,其中原始

FANLayer

公式中的激活函数

σ

被替换为恒等函数

σ(x) = x

随后,通过线性变换计算查询(Q)、键(K)和值(V):

其中

W(Q)

W(K)

W(V)

为可学习权重矩阵,分别用于计算查询(Q)、键(K)和值(V)。

接下来,使用傅里叶变换后的Q、K和V计算缩放点积注意力:

其中

d(h)

为模型的隐藏维度。

值得注意的是,

ATF(X)

在数学上等价于

Attention(FANLayer′(X))

,这意味着傅里叶变换并不改变注意力机制本身,而是改变了输入表示的计算方式。这种设计使FANformer能够与FlashAttention等高级注意力优化技术兼容。

多头ATF机制实现

注意力模块进一步扩展为多头结构,类似于传统的多头注意力机制。对于给定输入

X

,首先使用ATF模块将其投影到

k

个独立的注意力头:

对于第

i

个注意力头:

  • W(Q)(i)W(K)(i)W(V)(i)为每个头计算查询(Q(i))、键(K(i))和值(V(i))的可学习权重矩阵,计算如下:

  • d(k)为使用k个注意力头时每个头的维度,计算为d(k) = d(h) / k,其中d(h)为模型的隐藏维度。

所有注意力头的输出经过连接后,通过输出权重矩阵(

W(O)

)进行线性变换:

FANformer的整体架构如下图所示:
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

与传统多头注意力对比,传统机制中的查询、键和值直接从输入嵌入计算,而不经过任何傅里叶变换处理:

传统多头注意力机制,其中Q、K、V通过每个头的可学习权重矩阵直接从输入嵌入X计算(数据来源:研究论文《Attention Is All You Need》)

多头ATF的伪代码实现如下:

参数

p

作为一个超参数,控制输入

X

通过周期性(

X_p

)与非周期性分量(

X_p̄

)处理的比例,遵循

FANLayer'

公式。在实验中,

p

默认设置为0.25。

FANformer的层级结构

FANformer通过堆叠

N

个FANformer层构建,每层包含:

  • 一个多头ATF(注意力-傅里叶)模块
  • 一个前馈网络(FFN)模块

多头ATF输出基于前述公式计算:

每层的处理采用预归一化(Pre-Norm)策略处理输入(

X(n)

),并将原始输入添加到从

MultiHeadATF

计算的输出中:

随后前馈网络(FFN)模块对

Y(n)

进行转换:

其中FFN采用SwiGLU激活函数:

其中

W(1)

W(2)

W(3)

为可学习权重矩阵,⊗表示元素级乘法操作。

FANformer性能评估

研究人员通过将ATF模块集成到开源LLM OLMo中构建FANformer,并以OLMo作为基准Transformer模型进行比较。实验使用从OLMo的训练数据集Dolma中采样的tokens,预训练了不同规模的FANformer模型。

模型规模扩展性分析

在模型规模扩展实验中,FANformer在所有参数规模上始终优于标准Transformer,且仅使用标准Transformer 69.2%的参数即可达到相当的性能水平。

研究还评估了一个名为

Transformer + ATM

的FANformer变体,该变体使用MLP层替代FAN层。结果显示,其扩展曲线与标准Transformer非常接近,这表明周期性捕获能力的架构改进是FANformer性能提升的关键因素。

进一步的实验表明,FANformer仅需使用比标准Transformer少20.3%的训练数据即可达到相当的性能水平。

下游任务性能评估

FANformer-1B的零样本(zero-shot)性能与7个相似规模/训练量的开源LLM在8个下游任务基准上进行了对比,这些基准包括:

  • ARC-C和ARC-E(高级推理)
  • BoolQ(布尔问题回答)
  • HellaSwag(常识推理完成)
  • OBQA(开放书籍问题回答)
  • PIQA(物理推理)
  • SCIQ(科学问题回答)
  • WinoGrande(共指消解)

实验结果表明,FANformer-1B在较少训练数据条件下持续优于其他同等参数规模的LLM。特别值得注意的是,FANformer-1B的性能与当前10亿参数级别最先进的LLM之一Qwen2.5-1.5B相当。

研究还将FANformer与从DeepSeek-R1提炼出的模型R1-Distill-Qwen1.5B进行了对比。结果显示,尽管后者在推理任务上表现优异,但在大多数非推理常识任务上无法超越FANformer,这凸显了预训练过程的重要性,并表明模型提炼技术本身不足以确保下游任务上的全面性能优势。

FANformer-1B与其他同等级开源LLM在下游任务上的零样本性能对比

训练动态分析

在训练初期阶段,FANformer的损失下降速度相对较慢,可能是因为模型尚未有效识别数据中的周期性模式。然而,随着训练进行,FANformer的收敛速度超过了标准Transformer。

指令遵循能力评估

预训练的FANformer-1B模型在tulu-3-sft-olmo-2-mixture数据集上进行了监督微调(SFT),形成FANformer-1B-SFT。同样,OLMo的10亿参数版本OLMo-1B-SFT也在相同数据集上进行了监督微调。

这些模型在以下四个基准上进行了评估:

  • MMLU(通用知识和推理能力)
  • TruthfulQA(回答真实性和信息性)
  • AlpacaEval(指令遵循质量)
  • ToxiGen(有害内容过滤能力)

评估结果再次表明,FANformer-1B-SFT在MMLU、AlpacaEval和TruthfulQA基准上的性能优于OLMo-1B-SFT。

FANformer-1B和OLMo-1B的评估结果对比。对于MMLU、AlpacaEval和TruthfulQA,数值越高表示性能越好;对于ToxiGen,数值越低表示性能越好。

数学推理能力分析

2024年的一项研究表明,基于Transformer的LLM主要通过基于案例的推理解决数学问题,即记忆训练数据中的特定示例,并在推理过程中通过寻找相似案例进行泛化。这与基于规则的推理不同,后者涉及学习潜在数学规则并系统性地应用这些规则来解决问题。

基于案例的推理与基于规则的推理对比(数据来源:ArXiv研究论文《Case-Based or Rule-Based: How Do Transformers Do the Math?》)

为分析FANformer的数学推理机制,研究人员对OLMo-1B和FANformer-1B在两种数学任务上进行了评估:

  • 模加法:求解c = (a + b) mod 113,其中a, b ∈ [0, 112]
  • 线性回归:求解c = a + 2b + 3,其中a, b ∈ [0, 99]

评估采用留方块法(leave-square-out):从训练集中移除一个方形区域的数据点,并在剩余数据上训练模型,确保模型未接触到该方形区域。随后在测试阶段评估模型对这些未见数据点的预测能力。

实验显示,两种架构在训练数据集上都达到了接近完美的准确率。然而,在测试数据上,Transformer表现出明显的性能下降。

Transformer在留方块测试中表现出"黑洞"现象,即在未见过的数据上准确率接近零,这证实了它可能未能有效应用基于规则的推理来解决数学问题。

相比之下,FANformer的测试结果显著不同。在测试图中未观察到明显的"黑洞"现象,这表明FANformer能够学习并应用解决问题的数学规则,从而实现更好的泛化性能。

FANformer和Transformer在模加法和线性回归任务上的性能对比

总结

FANformer通过将周期性捕获能力显式编码到深度神经网络架构中,实现了相较于传统Transformer架构的显著性能提升。尽管仍需更全面的实验验证,但FANformer已展现出在未来大规模语言模型中的应用潜力。在相同参数规模和训练资源条件下,FANformer能够提供更高的性能和更强的泛化能力,特别是在涉及周期性模式和数学推理的任务中。这种架构创新为解决大语言模型的扩展性挑战提供了一种有前景的新方向。

论文:

https://avoid.overfit.cn/post/1b2f515689d947fc9aae9d22f41b506f

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/71929.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【 IEEE出版 | 快速稳定EI检索 | 往届已EI检索】2025年储能及能源转换国际学术会议(ESEC 2025)

重要信息 主会官网:www.net-lc.net 【论文【】投稿】 会议时间:2025年5月9-11日 会议地点:中国-杭州 截稿时间:见官网 提交检索:IEEE Xplore, EI Compendex, Scopus 主会NET-LC 2025已进入IEEE 会议官方列表!&am…

react基础语法视图层类组件

react基础语法视图层&类组件 MVVM *区别mvc&mvvm 两者的区别: 数据模型去渲染视图。数据层改了,vue自己会监听到帮我们拿最新的数据去渲染视图;构建数据构建视图,数据驱动的思想。这一套是非常相似的。 视图中的内容改变&…

开发、科研、日常办公工具汇总(自用,持续更新)

主要记录汇总一下自己平常会用到的网站工具,方便查阅。 update:2025/2/11(开发网站补一下) update:2025/2/21(补充一些AI工具,刚好在做AI视频相关工作) update:2025/3/7…

51c大模型~合集10

我自己的原文哦~ https://blog.51cto.com/whaosoft/11547799 #Llama 3.1 美国太平洋时间 7 月 23 日,Meta 公司发布了其最新的 AI 模型 Llama 3.1,这是一个里程碑时刻。Llama 3.1 的发布让我们看到了开源 LLM 有与闭源 LLM 一较高下的能力。 Meta …

如何使用postman来测试接口

一、postman的介绍与下载 可参考: https://blog.csdn.net/freeking101/article/details/80774271 二、api获取网站 阿里云API应用市场 地址:云市场_镜像市场_软件商店_建站软件_服务器软件_API接口_应用市场 - 阿里云 三、具体测试过程 可模拟浏览…

数据库系统概论(二)数据模型

数据库系统概论(二)数据模型 数据库系统概论(二)数据模型前言一、数据建模二、概念模型三、数据模型的三要素四、层次模型五、网状模型六、关系模型 总结(核心概念速记): 数据库系统概论&#x…

清华同方国产电脑能改windows吗_清华同方国产系统改win7教程

清华同方国产电脑能改windows吗?清华同方国产电脑如果采用的是兆芯kx-6000系列或kx-7000系列以及海光c86 3250 3350 X86架构处理器可以安装windows。在安装win7时bios中要关闭“安全启动”和开启legacy传统模式支持,如果是NVME接口的固态硬盘&#xff0c…

安卓Android与iOS设备管理对比:企业选择指南

目录 一、管理方式差异 Android Enterprise方案包含三种典型模式: Apple MDM方案主要提供两种模式: 二、安全防护能力 Android系统特点: 三、应用管理方案 四、设备选择建议 五、典型场景推荐 需求场景 推荐方案 六、决策建议要点…

再聊 Flutter Riverpod ,注解模式下的 Riverpod 有什么特别之处,还有发展方向

三年前我们通过 《Flutter Riverpod 全面深入解析》 深入理解了 riverpod 的内部实现,而时隔三年之后,如今Riverpod 的主流模式已经是注解,那今天就让我们来聊聊 riverpod 的注解有什么特殊之处。 前言 在此之前,我们需要先回忆…

前端项目Axios封装Vue3详细教程(附源码)

前端项目Axios封装Vue3详细教程(附源码) 一、引言 在前端项目开发中,HTTP请求是不可或缺的一部分。Axios作为一个基于Promise的HTTP客户端,因其易用性和丰富的功能而广受欢迎。在Vue3项目中,合理地封装Axios不仅可以提…

手写一个Tomcat

Tomcat 是一个广泛使用的开源 Java Servlet 容器,用于运行 Java Web 应用程序。虽然 Tomcat 本身功能强大且复杂,但通过手写一个简易版的 Tomcat,我们可以更好地理解其核心工作原理。本文将带你一步步实现一个简易版的 Tomcat,并深…

Matlab 多项式拟合点法线(二维)

文章目录 一、简介二、实现代码三、实现效果一、简介 这个思路其实很简单,假设我们有一组曲线点,我们可以对其拟合曲线并计算其导数来获取每个点的法向量,当然这一思路也可以扩展至三维。具体过程如下所示: 二、实现代码 %% *********

DeepSeek-R1 论文阅读总结

1. QA问答(我的笔记) Q1: DeepSeek如何处理可读性问题? 通过构建冷启动数据(数千条长CoT数据)微调基础模型,结合多阶段训练流程(RL训练、拒绝采样生成SFT数据),并优化输…

Manus AI:多语言手写识别的技术革命与未来图景

摘要:在全球化浪潮下,跨语言沟通的需求日益迫切,但手写文字的多样性却成为技术突破的难点。Manus AI凭借其多语言手写识别技术,将潦草笔迹转化为精准数字文本,覆盖全球超百种语言。本文从技术原理、应用场景、行业价值…

【C++11】移动语义

回顾 const int c的c是可以被取地址的,尽管是常量。所以以是否为常量来判断是否为右值是错误的。 左值与右值正确的区分方法是是否能够被取地址。(能被取地址也就代表着是一个持久状态,即有持久的存储空间的值) 常见的左值有我们…

移动Android和IOS自动化中常见问题

APP测试逻辑 在app编写自动化测试用例时,通常会出现只是简单的点点点过程,然而却忽略了在实际的自动化实现过程中,软件是对app元素的判断来执行测试脚本。所以会出现在后期已经写好自动化脚本之后还会对测试用例的更新。 App在测试时&#…

python高效试用17---两个字符串组成一个新的字符串和两个字符串组成元组作为key哪个更高效

在 Python 中,使用字符串连接 (str1 str2) 作为 key 和使用元组 ((str1, str2)) 作为 key 的效率差异,主要受以下因素影响: 哈希计算速度: 字符串连接 (str1 str2):会创建一个新的字符串对象,并计算哈希…

【SpringMVC】深入解析使用 Postman 在请求中传递对象类型、数组类型、参数类型的参数方法和后端参数重命名、及非必传参数设置的方法

SpringMVC—请求传参 1. 传递对象 如果参数比较多时,方法声明就需要有很多形参;并且后续每次新增一个参数,也需要修改方法声明. 我们不妨把这些参数封装为一个对象; Spring MVC 也可以自动实现对象参数的赋值,比如 Us…

Linux练级宝典->进程控制详解(进程替换,fork函数)

目录 进程创建 fork函数 写时拷贝 进程终止 进程退出码 exit函数 _exit函数 return,exit _exit之间的区别和联系 进程等待 进程等待的必要性 获取子进程status 进程等待的方法 wait waipid 多子进程创建理解 非阻塞轮询检测子进程 进程程序替换 替…

RabbitMq--消息可靠性

12.消息可靠性 1.消息丢失的情况 生产者向消息代理传递消息的过程中,消息丢失了消息代理( RabbitMQ )把消息弄丢了消费者把消息弄丢了 那怎么保证消息的可靠性呢,我们可以从消息丢失的情况入手——从生产者、消息代理&#xff0…