使用复数改进神经网络
文章目录
- 一、说明
- 二、了解卷积神经网络
- 三、进入混合神经网络
- 四、令人惊叹的 CoSh 网络
- 五、复杂函数的神奇性质
- 六、相位一致性
- 七、结论
一、说明
本文题为“CoShNet:使用Shearlets的混合复杂值神经网络”,提出了在混合神经网络中使用复杂函数的方法。如果你对这些话感到非常困惑,在本文中,我将解释混合神经网络的概念,以及如何使用它们来改进传统的卷积神经网络。然后,我们将介绍如何使用复杂函数来进一步提高这些模型的性能。这将是一个非常有趣的过程。
由此产生的网络称为复杂剪切网络 (CoShNet)。它在 Fashion-MNIST 上针对 ResNet-50 和 Resnet-18 进行了测试,分别获得了 92.2% 和 90.7% 和 91.8% 的分数。与ResNet-18相比,所提出的网络具有49.9k参数,参数为11.18m,使用的FLOP减少了52倍。最后,我们在不到 20 个 epoch 中进行了训练,而 ResNet 需要 200 个 epoch,并且不需要任何超参数调整或正则化。
- 如果您正在寻找对这个想法感到兴奋的理由。
二、了解卷积神经网络
卷积神经网络自诞生以来一直是OG计算机视觉架构。事实上,CNN的基础比我还要古老。CNN实际上是为视觉而生的。
特征提取是真正的CNN革命。摘自 IBM 关于 ConvNets 的文章
那么CNN有什么好处呢?卷积神经网络背后的主要思想是它们逐段浏览图像,并从中提取主要特征。CNN 的早期图层通常会提取更粗糙的特征,例如边缘和颜色。但是,添加更多图层允许以非常高的细节分辨率提取特征。
CNN 使用滑动窗口技术来构建其特征图。正如你所看到的,好的机器学习需要好的软件工程。图片来源
本文将更详细地介绍CNN。就我们的目的而言,有一件事很重要:CNN一直是计算机视觉的首选,主要是因为它们能够构建特征图。 即使随着视觉变形金刚的兴起,CNN 仍然保持强劲(前提是您使用下面给出的技术对管道进行现代化改造)。
目前为止,一切都好。那么有什么收获呢?他们的方法存在一个问题。卷积(构建特征图)可能会变得非常昂贵。
三、进入混合神经网络
如果你学过一点计算机科学(你应该在ML上做得很有效),你就会对特征映射过程有所了解。它真的很贵。您必须多次滑动窗口。正如我们已经说过的,早期的图层只提取了粗略的特征。高分辨率特征仅在后面的级别中被发现。这是一些真正聪明的人看到机会的地方。如果我们做一些数学运算来找到一个可以帮助我们直接发现一些低级特征的函数呢? 这样,我们就可以发现特征,而无需经历昂贵的早期卷积——
在混合神经网络中,昂贵的卷积层被不可训练的固定变换所取代,参数大大减少。
如果你能找到一个好的函数,那么你就大大减少了你的计算开销。我们有一些很棒的功能可以做到这一点。事实证明,复杂函数效果更好。请看下图和结果的差异。
这张图片是进入下一节的完美续集。现在让我们来谈谈复杂函数为我们的神经网络带来的所有优势,以及为什么它们首先能如此出色地工作。其中一些可能会变得非常数学化,但如果你有这种感觉,一定要闭上眼睛,想想 Twitter 上的深度学习兄弟告诉你的机器学习不需要数学。真正的机器学习是关于将大模型过度拟合到整洁的数据中,而不是这种技术性的数学知识(涉及大量实验)。
因此,让我们进入混合网络中的复杂函数(特别是复杂剪切函数)。
混合神经网络和本文背后的基本思想
四、令人惊叹的 CoSh 网络
在我进入细节之前,这里简要介绍了这个网络可以完成的一些令人惊奇的事情。这应该告诉你为什么我要介绍这个想法(并希望说明为什么我周末会阅读随机的 ML 论文)。
你已经知道我对这些结果感到非常兴奋。使用 Math 构建的经济高效的 ML 解决方案?一个概括得很好?我只是打这个就很兴奋。然而,真正让我印象深刻的一件事是该网络对噪声和扰动的适应能力。这是我从开始写作以来一直在报道的内容,这些结果非常令人兴奋,可以解决这个问题。
看看这张图,他们用干净和受干扰的数据集的排列来测试网络。结果非常稳定,特别是考虑到相对较小的训练数据集大小。我通常期望更大的数据集具有这种鲁棒性。
煽风点火,为什么会这样?是什么原因可以如此有效?这是侥幸,还是复杂函数有什么效果很好的东西?
如果我们能够理解是什么让这些惊人的结果发挥作用,我们就可以创造出更好的解决方案。
让我们继续讨论为什么复杂函数可能是深度学习的下一个飞跃。
这与最近的一篇论文形成鲜明对比[41]“…共同优化架构和培训程序的必要性:…拥有相同的培训程序不足以比较不同架构的优点。这与人们想要的相反——针对不同数据集和模型的简单、可靠的训练程序。
— 作者表明,调整和昂贵的搜索并不是唯一的方法。
五、复杂函数的神奇性质
有一些非常有趣的特性使复杂神经网络与众不同。首先,我们来谈谈决策边界。复杂神经元创建以下边界-
这没什么奇怪的。然而,这带来了一些有趣的属性,尤其是泛化。根据作者的说法——
CVnn 的决策边界由两个正交相交的超曲面组成(图 7),并将决策区域划分为四个相等的部分。此外,3层CVnn的决策边界几乎保持正交[27]。这种正交性改善了泛化。例如,几个不能用单个真实神经元解决的问题(例如 Xor),可以使用正交属性用单个复值神经元求解
对我来说,下一个突出的是马鞍点的存在。鞍点出现在多变量函数中。它们是函数既不达到局部最大值也不达到局部最小值的临界点。
图片来源
为什么这很重要?在鞍点处,损失函数的导数仍然等于 0。然而,正如作者所指出的,“具有随机inits的SGD可以在很大程度上避免鞍点[29] [30],但不是局部最小值。这种行为可能允许更快的收敛,因为算法不会卡在局部最小值中。这种方法提供了与集成随机重启以对更大的搜索空间进行采样非常相似的好处。作者甚至提到,这个CoShNet不需要数据增强来达到稳定嵌入(关于扰动)。
如果您有使用 split-ReLU 的经验,请告诉我。
这两个属性都朝着同一个方向起作用——它们允许网络以更少的资源实现更多的目标。
最后一个属性值得拥有自己的部分。是时候进入相位一致性以及它如何帮助对抗鲁棒性了。
六、相位一致性
在电子信号中,相位是波形周期上时间点(瞬时)位置的定义。相位也可以是具有相同频率的波之间或波之间的相对位移的表达(源)。该视频提供了视觉表示。相位在信号处理中非常重要。
如果相位在扰动后可以保持稳定,那么我们就可以提取出稳定的特征。这与我之前分享的麻省理工学院关于为什么会发生扰动的分析论文非常吻合。“CoShRem 可以提取对比度不变的稳定特征——边缘、脊和斑点。在图6.b中,我们可以看到通过使用相位一致性,图像中关键特征的稳定和稳健(不受噪声和对比度变化的影响)定位。
渐变在尺度上波动很大,但在图像的关键部分,相位仍然非常稳定。这使得相位成为检测重要特征的重要基础。
在检测施加扰动的图像中的特征(及其大小)时,这非常有效。
“图4显示,尽管存在相当大的扰动(模糊和高斯噪声),但CoShRem对大多数特征边缘和脊(近距离的两步不连续)保持稳定。”
这种阶段一致性在创建健壮的模型方面创造了奇迹。我很想看看这种性能如何与更专业的对抗性网络(如单像素攻击)相媲美。这将是对稳健性的真正考验。
我想多谈谈这个问题,但其中很多都与信号处理有关。我对此一无所知。我有足够的数学知识来浏览和理解主要的想法/推导,但我并不完全相信我理解有关相位和复杂小波的一些细节。如果您对此主题有任何经验/资源,请在评论中留言。我很想向你学习。
在这篇论文之后,我将更多地研究复杂的函数和分析,因为它看起来非常强大。期待后续跟进,提供有关复杂功能如何在网络中使用的更多细节/想法。如果您有任何问题/说明,可以联系 Manny Ko。他是苹果公司的首席工程师,也是本文的作者之一。他与我分享了这篇文章,并且绝对比我更了解这个主题。
七、结论
神经网络CNN的最大不妥之处在于只能解实数方程,这意味着对于频率较高的信号只能pass掉,这极大妨碍图像信息提取的详细精致性。本文引出 CoSh 网络,这种网络特点就是兼顾震荡的信号、周期性信号等,此更能保留图像细节。