双边性:构建神经网络的新方法

正如承诺的那样,这是最近我遇到的最有趣的想法之一的第二部分。如果你错过了,请务必观看本系列的第一部分 - 神经科学家对改进神经网络的看法 - 我们讨论了双边性的生物学基础以及我们大脑的不对称性质如何带来更高的性能。

在这篇文章中,我将介绍一些人工智能研究,这些研究对这个想法有很大的希望。如果你们中有人正在寻找下一篇研究论文/项目 - 这可能是一个不错的选择。无论我的意见如何 - 我相信解决神经网络中的双边性将真正改变人工智能领域的游戏规则。

NSDT工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - Three.js虚拟轴心开发包 - 3D模型在线减面 - STL模型在线切割

1、为什么双边性会改变现状

在我开始分析研究之前,我想花点时间谈谈我为什么如此重视双边性(bilaterality)。当然,它可能适用于生物系统,但我们希望通过为我们的 ANN 实施类似的想法来实现什么?

为了回答这个问题,让我们退一步来看看神经网络的架构对学习结果有多大的影响。简单地说,每个模型/架构决策都会对我们的系统施加一定的归纳偏差。通过选择实现某个激活函数、模型配置等,你隐式地选择优先考虑数据/域的一个方面而不是另一个方面。因此,直观地说,不同的架构设置会导致不同的结果,这是有道理的。

我可以在这里结束这一部分 - 但那有什么乐趣呢?我不得不阅读了不少论文,如果我必须阅读,你也必须阅读 ❤。所以让我们回顾一下展示架构决策的研究,以及它们如何影响模型对数据的内部表示。

让我们从很小的地方开始 - 当谈到视觉转换器与 CNN 时,我们看到它们的不同操作导致输入数据的客观不同表示。注意力机制允许 Transformers 保持“图像的全局视图”,从而使它们能够提取与 ConvNets 非常不同的特征。请记住,CNN 使用内核来提取特征,这限制了它们找到局部特征的方法。注意力允许 Transformers 绕过这一点。

在图像分类基准上分析 ViTs 和 CNN 的内部表示结构,我们发现两种架构之间存在显着差异,例如 ViT 在所有层上具有更统一的表示。我们探索了这些差异是如何产生的,发现了自我注意力所起的关键作用,它能够实现全局信息的早期聚合,而 ViT 残差连接则可以将特征从较低层传播到较高层。

上面的引文摘自非常有趣的《视觉变换器是否像卷积神经网络那样看?》。它很有趣,我稍后会对此论文进行分析。重要的是下面的引文,也来自这篇论文。

...证明访问更多全局信息也会导致与 ResNet 较低层的局部接受场计算出的特征在数量上不同的特征

这超出了图像任务的范围。不久前,我们试图回答 Transformers 是否适用于时间序列预测任务(哈哈,不)。Transformer 架构的缺陷之一是它们的注意力机制,它在数据排序中引入了置换不变性(不利于 TSF)。

更重要的是,Transformer 架构的主要工作能力来自其多头自注意力机制,它具有提取长序列中成对元素之间的语义相关性的卓越能力(例如,文本中的单词或图像中的 2D 块),并且该过程是置换不变的,即无论顺序如何。然而,对于时间序列分析,我们主要感兴趣的是建模连续点集之间的时间动态,其中顺序本身通常起着最关键的作用。

对于那些特别有自虐倾向的人来说,《论深度学习模型的对称性及其内部表征》这篇论文是一篇关于这一概念的好文章。数学是精神病学的,但结论相对简单——

我们的研究表明,网络的对称性会传播到该网络的数据表示的对称性中

希望这足以让你相信架构可以直接影响模型感知数据的方式。因此,像双边性这样强大的想法值得探索。通过将某种互补风格的网络集成到同一个网络中,我们可能能够创建一种超越任何一种结构限制的架构。

说完这些,现在让我们来谈谈本期的主角——双边性论文以及我们如何扩展它。

我一直想重读雷·库兹韦尔 (Ray Kurzweil) 的《如何创造思维》一书,从中我学到的一点就是统计学在人工智能中的作用。如果每个连续的结果都会覆盖过去的结果,我可以想象偏见的结论会在几代人中积累多少。应用双边架构来保留先前知识的权重似乎是一种很好的对冲方法。

上面是对本文第 1 部分的评论。感谢 Daniel Kurland 的精彩分享。

2、如何将双边性应用于神经网络

《双侧大脑深度学习与半球特化》的作者在将双边性应用于神经网络方面做了大量工作。让我们来看看他们的方法和结果。

首先要理解的是他们的设置。所提出的架构基于 ResNet-9 模型,该模型因其在分类和简单性方面的良好性能而被选中。为了模拟两个半球,我们使用了两个不同的 ResNet 模型(我知道这很令人震惊)。为了进行实验,我们比较了以下模型(第一个是双边模型,其余的是基线)-

  • 具有特化的双边性- 我们用不同的目标训练模型,“左半球在特定类别上进行训练,右半球在一般类别上进行训练”。这是什么意思?一般类别是:海洋生物,而特定类别是:企鹅、海豹、鲨鱼等。这类似于我们的大脑,右半球模拟一般性,左半球更具体。
  • 无专业化的双边性——“为了更好地理解专业化的作用,我们将双边模型与没有专业化的等效网络进行了比较。我们训练了整个网络(两个半球和头部),而没有首先明确地在各个半球中诱导专业化。”
  • 单腔网络——双边性使模型拥有更多的计算资源。为了解释这一点,作者还使用了两个更大的单一模型,其中两个头部分别用于一般和特定类别。更具体地说,他们使用了“预定义的 18 层和 34 层 ResNet 架构。18 层网络的可训练参数数量与双边网络大致相同,而 34 层网络的可训练参数数量大约是其两倍。”
  • 集成模型——你可能知道,集成模型是机器学习中性能的秘诀。而这种双边模型是一种集成。因此,与其他集成进行比较也很重要,以便更清楚地了解专业化与其他因素的影响。为了理解差异化专业化和传统集成之间的区别,我们比较了两个不同的模型,一个是 2 模型集成,一个是 5 模型集成。为了构建集成,我们使用了一种常见的方法,即训练 10 个单腔 ResNet-9 模型,并选择前 k 个(k 分别为 2 和 5)。集成在训练和推理中的输出是模型的平均输出。

这些模型必须相互竞争才能确定谁是王者。对于喜欢视觉效果的人来说,可以在下面看到一般架构。

我喜欢他们模拟专业化的方法,因为它相当简单和优雅。未来的扩展可能是使用不同的架构,一个具有更密集的局部连接,另一个具有更宽的连接(可能使用跳过连接)。要真正改变,我们需要调整梯度下降的单向性,朝着在多个方向上调整权重的协议发展。这并非易事,但它将是未来探索的绝佳途径。

为了查看从两个专门模型中提取的特征之间的差异,作者使用了两种技术。首先,他们利用梯度相机(Grad-Cam)可视化。我们知道双侧网络和各个半球利用卷积层的编码特征来预测类标签。为了了解提取的特征如何有助于分类,我们使用 Grad-Cam 库可视化了模型预测类别时卷积层上的平均梯度流。梯度热图突出显示了两个半球和整个网络(两个头部的平均值)的焦点区域。你可以在下面看到 grad-cam 可视化效果。

这是通过计算相同标签图像特征的余弦相似度得分来补充的。它们应该具有相似的特征,因此测量网络不同部分的特征相似度应该很有启发性。以下是特征的可视化-

图 10:场景 1 的余弦相似度分布:双边网络是正确的,左半球和右半球是错误的。许多对(相同标签)在左右半球具有不同的(值更接近 0)特征,这可以从靠近原点的点的密度中看出。连接的特征也不相似,但双边网络提高了许多点的相似度。每个点都是一对具有相同标签的图像。x 轴表示左半球的相似度,y 轴表示右半球的相似度。颜色表示组合表示中的相似度。此外,左半球和右半球的单变量边际分布以双变量分布上方和侧面的直方图显示。

有了这些设置,让我们进入正题。这种架构与竞争对手相比表现如何?这就是事情变得令人兴奋的地方。

Grad-Cam 图像显示,左半球提取的局部特征比右半球多。不同的学习目标使它们能够捕捉环境的不同方面。总体而言,特征集大于一个具有一个目标的网络。有趣的是,即使左半球明确地针对特定的类别标签进行训练,它提取的特征对一般类别也很有帮助。右半球的情况正好相反……

总之,专业化创造了更高的特征多样性。网络主管以任务相关的方式有选择地对左半球和右半球实施一种加权注意力,从而改善整体类别预测。

为什么双腔结构有帮助?

3、专业化和双边性真的能提高神经网络的性能吗?

简而言之 - 是的。看看专业化架构与竞争对手的比较。一定要控制好你的荷尔蒙,因为这些结果看起来真的很漂亮 -

唯一具有可比性能的竞争对手是 5 模型组合 - 但成本要高得多。

我非常希望看到这如何扩展到对抗性学习和检测等相关任务中。也许这将是后续论文的一部分。鉴于这些结果,我认为我们有一个相当有力的概念证明。

最后,让我们谈谈可以扩展这个想法的一些方法。

4、未来的双边性

如前所述,未来探索最有希望的途径之一是创建一个更细致入微的权重更新机制,反映我们的神经元和连接一起激发的更复杂方式。作者还提出了几项极好的建议(基于神经科学)——“复制循环连接、半球之间更复杂的生物启发相互作用、模仿半球之间已知的基质差异(如拓扑差异)、资源分配(见图 1)和在无监督的情况下诱导专业化的实验。”

作者还提到了如何利用这种专业化来开发物理机器人,因为它可能与运动技能有关。右半球可以是一个通才,可以在初学者时执行不熟悉的任务,而左半球则随着时间的推移成为专家。代理将能够接受新任务,而不会对它们感到无能为力。目前,持续强化学习领域并不专注于避免表现不佳,而是最大限度地提高最佳表现。然而,在现实生活中,代理必须避免自己和周围人的死亡和严重伤害(也适用于物理机器人和虚拟人工智能代理)。

最后,双边主义融入更多架构将是一件令人着迷的事情,看看这个想法如何很好地扩展到不同的挑战和领域。


原文链接:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/47805.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

v-for 进行列表的 增删改查

通过对象下标替换属性值 但是通过实践此方法是错误的&#xff0c;Vue监听的是students这个对象&#xff0c;而不是这个对象里面的数组信息&#xff0c;也就是说&#xff0c;改变里面的值&#xff0c;并不能在页面上实现更新的功能 <!DOCTYPE html> <html lang"en…

通俗地理解主动元数据管理

元数据管理&#xff0c;是企业开展数据管理的核心基础&#xff0c;内容涉及元数据的创建&#xff0c;确定需要捕获哪些元数据&#xff0c;通过哪些工具和流程进行创建&#xff0c;继而将元数据妥善存储&#xff0c;保障安全性和可访问性&#xff0c;并不断更新维护&#xff0c;…

[渗透测试] 反序列化漏洞

反序列化漏洞 ​ 序列化&#xff1a;将对象的状态信息转换为可以传输或存储的形式的过程。简单的来说&#xff0c;就是将一个抽象的对象转换成可以传输的字符串 &#xff0c;以特定的形式在进行之间实现跨平台的传输。 序列化大多以字节流、字符串、json串的形式来传输。将对…

linux/windows wps node.js插件对PPT状态监听并且通知其他应用

需求背景 公司要求对Window系统&#xff0c;和国产操作系统&#xff08;UOS&#xff09;的wps 软件在 PPT开始播放 结束播放&#xff0c;和播放中翻页 上一页 下一页 等状态进行监听&#xff0c;并通知到我们桌面应用。 技术方案 开发WPS插件&#xff0c;使用node.JS 插件开…

系统架构设计师①:计算机组成与体系结构

系统架构设计师①&#xff1a;计算机组成与体系结构 计算机结构 计算机的组成结构可以概括为以下几个主要部分&#xff1a;中央处理器&#xff08;CPU&#xff09;、存储器&#xff08;包括主存和外存&#xff09;、输入设备、输出设备&#xff0c;以及控制器、运算器、总线和…

如何查看jvm资源占用情况

如何设置jar的内存 java -XX:MetaspaceSize256M -XX:MaxMetaspaceSize256M -XX:AlwaysPreTouch -XX:ReservedCodeCacheSize128m -XX:InitialCodeCacheSize128m -Xss512k -Xmx2g -Xms2g -XX:UseG1GC -XX:G1HeapRegionSize4M -jar your-application.jar以上配置为堆内存4G jar项…

使用puma部署ruby on rails的记录

之前写过一篇《记录一下我的Ruby On Rails的systemd服务脚本》的记录&#xff0c;现在补上一个比较政治正确的Ruby On Rails的生产环境部署记录。使用Puma部署项目。 创建文件 /usr/lib/systemd/system/puma.service [Unit] DescriptionPuma HTTP Server DocumentationRuby O…

[AWS]MSK调用,报错Access denied

背景&#xff1a;首先MSK就是配置一个AWS的托管 kafka&#xff0c;创建完成之后就交给开发进行使用&#xff0c;开发通常是从代码中&#xff0c;编写AWS的access_key 和secret_key进行调用。 但是开发在进行调用的时候&#xff0c;一直报错连接失败&#xff0c;其实问题很简单&…

Electron 企业级开发通信与本地存储实用解决方案

背景 之前写了一篇Electron通信的方式&#xff0c;讲述了一下三者之间的通信机制&#xff0c;比较恶心&#xff0c;后来发现有个electron/remote&#xff0c; Electron 渲染进程直接调用主进程的API库electron/remote引用讲解-CSDN博客文章浏览阅读58次。remote是个老库&…

蓝队黑名单IP解封提取脚本

应用场景&#xff1a;公司给蓝队人员一个解封IP列表&#xff0c;假如某个IP满足属于某某C段&#xff0c;则对该IP进行解封。该脚本则是进行批量筛选出符合条件的白名单IP 实操如下&#xff1a;公司给了一个已经封禁了的黑名单IP列表如下&#xff08;black&#xff09; 公司要求…

高清视频,无损音频,LDR6023——打造极致视听与高效充电的双重享受!

Type-C PD&#xff08;Power Delivery&#xff09;芯片是一种支持USB Type-C接口规范的电源管理单元&#xff0c;其主要功能包括&#xff1a; 快速充电&#xff1a;Type-C PD芯片支持高功率传输&#xff0c;能够提供更快的充电速度&#xff0c;使电子设备在短时间内充满电&…

微信小程序:多图片显示及图片点击放大,多视频显示

微信小程序&#xff1a;多图片显示及图片点击放大&#xff0c;多视频显示 01 多图片显示及图片点击放大02 多视频03 全部代码 01 多图片显示及图片点击放大 <view><view class"title">图片&#xff1a;</view><block wx:if"{{photoUrlList…

源码搭建国内微短剧系统(APP+小程序)云存储配置流程

国内微短剧系统很多人不知道云存储和配置的操作流程&#xff0c;我整理了一份非常详细的操作文档流程&#xff0c;给大家介绍短剧系统云存储配置的详细操作流程。顺便推荐一下国内微短剧系统。 推荐下他们的开源地址&#xff1a;https://gitee.com/nymaite_com_2878868888/tjg…

CrowdStrike更新致850万Windows设备宕机,微软紧急救火!

7月18日&#xff0c;网络安全公司CrowdStrike发布了一次软件更新&#xff0c;导致全球大范围Windows系统宕机。 预估CrowdStrike的更新影响了将近850万台Windows设备&#xff0c;多行业服务因此停滞&#xff0c;全球打工人原地放假&#xff0c;坐等吃瓜&#xff0c;网络上爆梗…

适用于 Mac 或 MacBook 的最佳数据恢复软件

Apple 设计的电脑可靠且用户友好&#xff0c;但即使是最好的最新款 MacBook硬件也会出现故障。当您的存储出现问题时&#xff0c;数据恢复软件可以帮助您恢复丢失和损坏的文件。 数据丢失的另一个原因是有时会发生令人尴尬的错误。如果您不小心丢弃了所需的文件&#xff0c;然…

【RaspberryPi】树莓派Matlab/Simulink支持包安装与使用

官网支持与兼容性 Raspberry Pi Support from MATLAB - Hardware Support - MATLAB & Simulink Raspberry Pi Support from Simulink - Hardware Support - MATLAB & Simulink Matlab与树莓派兼容性 Simulink与树莓派兼容性 树莓派Matlab&Simulink RaspberryPi支…

本地部署 mistralai/Mistral-Nemo-Instruct-2407

本地部署 mistralai/Mistral-Nemo-Instruct-2407 1. 创建虚拟环境2. 安装 fschat3. 安装 transformers4. 安装 flash-attn5. 安装 pytorch6. 启动 controller7. 启动 mistralai/Mistral-Nemo-Instruct-24078. 启动 api9. 访问 mistralai/Mistral-Nemo-Instruct-2407 1. 创建虚拟…

240722视频识别红色物体

文章目录 1.实验目的2.实验思路3.实验代码4.实验结果展示1.实验目的 针对需求,拍摄视频并实时识别其中红色物体。 2.实验思路 针对HSV模型可以很好的区分色彩这一特性,所以我们可以很好的找到我们需要的ROI 3.实验代码 # @File: 13.2拍视频识别其中的红色物体.py # @Au…

【测开能力提升-fastapi框架】fastapi能力提升 - 中间件与CORS

1. 中间件 1.1 介绍&#xff08;ChatGPT抄的&#xff0c;大致可以理解&#xff09; 一种机制&#xff0c;用于在处理请求和响应之前对其进行拦截、处理或修改。中间件可以在应用程序的请求处理管道中插入自定义逻辑&#xff0c;以实现一些通用的功能&#xff0c;如身份验证、…

传神社区|数据集合集第7期|法律NLP数据集合集

自从ChatGPT等大型语言模型&#xff08;Large Language Model, LLM&#xff09;出现以来&#xff0c;其类通用人工智能&#xff08;AGI&#xff09;能力引发了自然语言处理&#xff08;NLP&#xff09;领域的新一轮研究和应用浪潮。尤其是ChatGLM、LLaMA等普通开发者都能运行的…