1、Deep Networks Always Grok and Here is Why
中文标题:深度网络总是让人摸不着头脑,原因如下
简介:本文探讨了深度神经网络(DNN)中一种称为"延迟泛化"或"Grokking"的现象。在接近零的训练误差之后,DNN的泛化会在较长时间后才发生。先前的研究已经报道了在特定的控制环境下出现延迟泛化的情况,例如使用大范数参数初始化的DNN或在算法数据集上训练的transformers。本文证明了延迟泛化实际上更为普遍,并出现在许多实际环境中,例如在CIFAR10上训练的卷积神经网络(CNN)或在Imagenette上训练的Resnet。我们引入了延迟鲁棒性的新概念,即DNN在插值和/或泛化之后才能理解对抗性示例并变得鲁棒。我们基于DNN的输入输出映射的局部复杂度提出了延迟泛化和延迟鲁棒性的出现解释。我们的局部复杂度测量了"DNN输入空间中所谓的"线性区域"(也称为样条分区区域)的密度,并作为训练的有用进展测量。我们首次提供了证据表明,在分类问题中,线性区域在训练过程中会发生相变,之后它们会远离训练样本(使DNN在那里的映射更平滑),并朝着决策边界移动(使DNN在那里的映射不那么平滑)。Grokking发生在相变之后,因为DNN映射在训练点周围的线性化导致了输入空间的鲁棒分区的出现。更多详情请参阅网址:https://bit.ly/grok-adversarial
2、DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion Models
中文标题:DistriFusion:高分辨率扩散模型的分布式并行推理
简介:扩散模型在生成高质量图像方面已经取得了巨大的成功。然而,由于计算成本的限制,使用扩散模型生成高分辨率图像仍然面临挑战,这导致交互式应用程序的响应延迟无法接受。为了解决这个问题,本文提出了DistriFusion方法,通过充分利用多个GPU之间的并行性。我们的方法将模型输入分成多个补丁,并将每个补丁分配给一个GPU进行处理。然而,简单地实现这样的算法会破坏补丁之间的相互作用并导致失真,而将这种相互作用纳入算法中则会增加大量的通信开销。为了克服这个困境,我们观察到相邻扩散步骤的输入具有很高的相似性,并提出了位移补丁并行性的概念。该方法通过重复使用前一时间步骤的预计算特征图作为当前步骤的上下文,利用扩散过程的顺序性。因此,我们的方法支持异步通信,并可以通过计算进行流水线处理。经过大量实验证明,我们的方法可以应用于最新的Stable Diffusion XL模型,而不会降低生成图像的质量。与使用单个NVIDIA A100 GPU的情况相比,在使用8个GPU时,我们实现了高达6.1倍的加速。我们已经在https://github.com/mit-han-lab/distrifuser上公开了我们的代码。
3、Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers
中文标题:Panda-70M:与多个跨模态教师一起为 70M 视频添加字幕
简介:数据和注释的质量对下游模型的质量产生了限制。尽管存在大量的文本语料库和图像-文本对,但获取高质量的视频-文本数据却非常困难。首先,手动标注非常耗时,因为需要注释者观看整个视频。其次,视频具有时间维度,由多个场景和多个动作组成。为了构建一个具有高质量标题的视频数据集,我们提出了一种自动方法,利用多模态输入,如文本视频描述、字幕和单个视频帧。具体来说,我们从公开可用的HD-VILA-100M数据集中收集了380万个高分辨率视频。然后,我们将这些视频分成语义一致的片段,并使用多个跨模态的教师模型为每个视频获取标题。接下来,我们在一个小的子集上微调检索模型,手动选择每个视频的最佳标题,然后将该模型应用于整个数据集,以选择最佳标题作为注释。通过这种方式,我们获得了一个包含70M个视频与高质量文本标题配对的数据集,称为Panda-70M。我们展示了该数据集在三个下游任务上的价值:视频字幕生成、视频和文本检索以及文本驱动的视频生成。在所有任务中,基于我们提出的数据集进行训练的模型在大多数指标上显著优于其他模型。