JPEG图像格式加速神经网络训练--使用DCT训练CNN

JPEG图像格式加速神经网络训练

  • JPEG图像格式加速神经网络训练
    • 工作原理
      • DCT系数与JPEG
      • 直接利用DCT系数
        • 阶段 1: 数据准备
          • 步骤 1: 读取JPEG文件结构
          • 步骤 2: 提取量化表和Huffman表
          • 步骤 3: 解析图像数据
          • 步骤 4: 反量化
          • 步骤 5: 获取DCT系数
        • 阶段 2: 输入处理
          • 预处理 1: 正规化(Normalization)
          • 预处理 2: 中心化(Centering)
          • 预处理 3: 选择性剔除
          • 预处理 4: 量化系数补偿
          • 预处理 5: 重排DCT系数
          • 预处理 6: 分布调整
          • 预处理 7: 批量处理
        • 阶段 3: 网络架构适配
          • 1. 输入层调整
          • 2. 卷积核大小和卷积层设计
          • 3. 频率选择性特征映射
          • 4. 抗量化噪声能力
          • 5. 特征融合策略
          • 6. 模型深度和复杂性
          • 7. 训练策略
          • 8. 输出层和损失函数
          • 9. 软件和硬件兼容性
          • 例子
        • 阶段 4: 模型训练
        • 阶段 5: 模型评估与优化
        • 阶段 6: 部署与推理
    • 实际应用
      • 网络训练加速
      • 保留信息完整性
    • 相关开源内容
    • 相关论文

JPEG图像格式加速神经网络训练

在处理和利用图像数据训练神经网络的过程中,JPEG是一种广泛采用的图像格式。传统的方法需要将JPEG图像解码成RGB像素值后才能够输入给卷积神经网络(CNN)进行训练,这个解码过程不仅增加了额外的计算成本,还可能导致原始数据信息的丢失。然而,“从JPEG图像格式直接加速神经网络(Faster Neural Networks Straight from JPEG)”的研究,提出了一种新的观点:直接在JPEG图像格式的块状离散余弦变换(DCT)系数上训练CNN。
在这里插入图片描述
研究结果(https://www.uber.com/en-CA/blog/neural-networks-jpeg/):
在这里插入图片描述

我们发现速度的提升仅仅是由于输入层和后续层上的数据量较小,正如人们所期望的那样。精度的提高主要归功于 DCT 表示的具体使用,结果证明它对于图像分类非常有效。令人惊讶的是,简单地将 ResNet-50 的第一个卷积层替换为步长 8 DCT 变换会带来更好的性能。它的效果甚至比完全相同形状的学习变换还要好。换句话说,与传统观点相反,我们发现使用较大的感受野和步幅(各 8 个)比使用较小的感受野和步幅效果更好,并且对第一层进行硬编码比学习它效果更好。当Residual Networks在 2015 年确立了 ImageNet 的最新技术水平时,只需用冻结的 DCT 替换第一层就可以进一步提高现有技术水平。

工作原理

DCT系数与JPEG

JPEG图像文件使用的压缩技术基于一种称为离散余弦变换(Discrete Cosine Transform,DCT)的方法。DCT是一种将信号或图像矩阵转换到不同频率空间的技术。在JPEG压缩中,DCT用于将图像数据从其空间域(即原始像素)转换到频率域。这个转换的结果就是一组DCT系数,它们描述了图像区块的频率成分。

具体来说,JPEG压缩过程包括以下步骤:

  1. 颜色空间转换:首先,图像从RGB颜色空间转换到YCbCr颜色空间。Y代表亮度(也就是灰度),而Cb和Cr代表色差分量。

  2. 分块处理:图像被分割成8x8像素的块。

  3. 计算DCT:对每个8x8的块进行DCT,由空间域的64个像素值到频率域的64个DCT系数。这些DCT系数代表了不同频率的信息,其中的第一个系数(DC系数)代表块的平均亮度,其余的63个系数(AC系数)代表更高频率内容的细节。

  4. 量化:DCT系数接着被量化,以实现数据压缩。量化过程中高频系数通常会被大幅度缩减,因为人类视觉对这些细节的敏感度较低。

  5. 编码与压缩:量化后的DCT系数然后用不同的编码技术(如Huffman编码)进行编码,并存储为JPEG文件。

在传统的图像处理流程中,一个JPEG文件在被送入神经网络之前,需要将上述过程逆转,通过解码、逆DCT及色域转换回RGB空间。然而,“直接从JPEG的DCT系数训练神经网络”这一技术提倡跳过这些步骤,直接使用压缩后的DCT系数作为网络的输入,从而减少计算开销和加快训练速度。

直接利用DCT系数

该研究利用的关键想法是:由于DCT系数已经包含在JPEG文件中,可以直接将这些系数用作网络的输入,省去了将JPEG解码到RGB像素的步骤。这种方法降低了模型训练的前期准备工作,并且保留了图像的原始频率特征。

以下是一个基于DCT系数直接应用于机器学习的流程:

阶段 1: 数据准备

在数据准备阶段,无需将JPEG图像文件解压缩到完整的RGB像素矩阵,而是直接解析JPEG文件,提取图像的DCT系数。

将JPEG图像文件解析为DCT系数涉及到对JPEG文件格式的了解以及图像解码的相关技术。通常,这个过程涉及以下步骤:

步骤 1: 读取JPEG文件结构

JPEG文件由多个不同的段组成,如Start of Image (SOI)段、Define Quantization Tables (DQT)、Start of Frame (SOF)、Huffman Tables (DHT)、Start of Scan (SOS)和图像数据本身等。

步骤 2: 提取量化表和Huffman表

量化表和Huffman表是解码JPEG图像至关重要的部分。它们分别定义了如何量化DCT系数和如何使用Huffman编码对这些系数进行失真压缩。

步骤 3: 解析图像数据

在SOS段之后,实际的图像数据开始。这些数据是使用Huffman编码压缩过的。解码器需要使用提取的Huffman表来解码这些数据,还原成原始的DCT系数。

步骤 4: 反量化

由于在JPEG编码过程中,DCT系数被量化以减少数据大小,因此解码包括反量化步骤,这涉及到将编码的DCT系数与量化表中的值相乘,以恢复大致的原始DCT系数。

步骤 5: 获取DCT系数

完成上述步骤后,就可以获得每个8x8像素块的DCT系数。这些系数现在可以直接用于机器学习或其他图像处理任务。

为了实现以上步骤,可以使用各种编程语言的库或工具。例如,在Python中,可以使用jpeg4pyPillow库进行JPEG图像的解析与处理。下面是一个简单的代码示例,展示如何利用Pillow库获取JPEG图像的DCT系数:

from PIL import Image
import numpy as np
import jpeg4py as jp# 使用jpeg4py库加载图片
image = jp.JPEG('path_to_your_image.jpg').decode()# 此时,image变量包含了图像的DCT系数
# 你可以进一步处理DCT系数或者直接使用它们进行机器学习训练

需要注意的是,不同的库可能提供不同层次的解析能力。某些库可能直接提供DCT系数,而其他较低级的库则可能需要进行一些额外的步骤来手动提取这些信息。为了处理更加复杂的图像或进行大量图像的处理,可能需要深入了解JPEG文件格式。

阶段 2: 输入处理

针对从JPEG文件中提取出的DCT系数,进行必要的归一化或其他预处理操作,使其适应训练模型的输入要求。

下面是一些通常在DCT系数上执行的预处理步骤:

预处理 1: 正规化(Normalization)

由于量化过程影响了DCT系数的数值范围,所以常常需要将DCT系数进行正规化处理,以保证输入数据处于相对统一和有助于网络学习的范围内。正规化可以简单地通过将系数值缩放到一个特定的范围,比如[0, 1]或[-1, 1]。

预处理 2: 中心化(Centering)

中心化是将数据的平均值移动到原点的过程。对于DCT系数,这意味着从每个系数中减去该系数在训练集中的平均值,有助于减少不同图片间亮度差异导致的影响。

预处理 3: 选择性剔除

在JPEG压缩时,很多高频的DCT系数可能因为量化操作被设置为零或近零值,这些系数包含的信息量很少。因此,有时可以选择性剔除一些不重要的高频DCT系数,以减少输入数据的维度。

预处理 4: 量化系数补偿

考虑到JPEG的量化过程会导致图像质量的损失,可以通过对量化系数进行补偿来尝试恢复一些信息,例如通过乘以量化表中的逆量化系数。

预处理 5: 重排DCT系数

通常DCT系数是按照Zigzag顺序排序的,这种顺序是为了更好的数据压缩。但在输入到CNN之前,可能需要将这些系数重排到更适合卷积操作的顺序。

预处理 6: 分布调整

DCT系数的分布可能会由于图像内容而有很大的变化,要使用机器学习算法,一种可能的预处理步骤是转换DCT系数的分布,让其更接近于正态分布或其他有利于模型学习的分布。

预处理 7: 批量处理

在准备用于神经网络训练的批量数据时,需要确保所有数据的维度一致,可以通过填充或剪切来保证这一点。

这些预处理步骤不是全部必须执行的。实际操作中,适用哪些预处理取决于具体的应用场景、所使用的机器学习模型和期望达到的性能指标。进行适当的数据探索和实验来确定最优预处理步骤通常是实践中的一个重要环节。

阶段 3: 网络架构适配

设计适合DCT系数输入的网络架构,这可能包括改变传统用于像素输入的卷积层,使其能够处理频率域的数据。例如,可以使用适应频率特征的卷积滤波器。

设计能够接受DCT系数作为输入的网络架构,需要考虑DCT数据的特性和卷积神经网络(CNN)对输入数据的预期。DCT系数代表的是图像块的频率信息,和常规的基于像素的图像数据有所不同。这意味着网络需要能够处理和学习这种频率域的信息。以下是设计适应DCT输入的网络架构的一些关键考虑因素:

1. 输入层调整

CNN的第一个层通常是一个卷积层,用于提取输入数据的特征。对于DCT输入,网络的输入层需调整为接受单通道或多通道的DCT系数,这取决于使用的量化表的数量和种类(例如Y, Cb, Cr通道)。

2. 卷积核大小和卷积层设计

由于DCT块是8x8的大小,通常网络中第一层卷积(或前几层)的卷积核大小需要匹配这个尺寸,或者设计为能够有效处理这种尺寸的卷积核。这有助于网络学习到这些8x8块内的频率模式。

3. 频率选择性特征映射

可以设计专门针对低频和高频DCT系数的特征映射,以此分别处理图像的不同频率成分。例如,网络可以有分支或模块,专注于低频信息的广义内容和高频信息的细节特征。

4. 抗量化噪声能力

DCT系数由于经过了压缩和量化,可能包含噪声。网络设计需要具备对量化噪声的鲁棒性,通过网络层的设计和训练策略来减少这种噪声的不利影响。

5. 特征融合策略

在网络中应用特征融合的策略可以是关键,特别是对于将低频和高频信息结合起来的任务。可以使用不同级别的特征融合技术,如串联、加和或者注意力机制。

6. 模型深度和复杂性

考虑模型的深度和复杂性,以保证模型可以提取足够丰富的特征而不致过于复杂导致过拟合。DCT系数可能不需要非常深层的网络来处理,深度和复杂度需要通过实验来确定。

7. 训练策略

设计网络时应考虑训练策略,如使用预训练权重、数据增强、正则化技术,以及学习率调度,以提高训练的稳定性和模型的泛化能力。

8. 输出层和损失函数

根据任务(分类、回归、检测等)选择适当的输出层和损失函数,以确保网络输出符合期望的任务结果。

9. 软件和硬件兼容性

确保所设计的网络架构能够在目标软件框架和硬件上有效运行,以利用现有的算力资源。

在设计适应DCT输入的网络架构时,实验和迭代是非常重要的。通常需要进行多次试验来找到性能最佳的网络配置。利用现有的神经网络架构为基础,并对其进行适应性调整,是一种常见的策略。这样做的好处是可以借鉴已有架构的优点,同时为特定数据类型做出优化。

例子

构建一个接受DCT系数输入的最简单的示例神经网络通常会从一个基本的卷积神经网络(CNN)开始,其核心功能是识别图像中的模式,即使是在频率域中的模式。以下是一个简单CNN框架的实现,用于处理DCT系数输入,我们将以Python和Keras作为示例:

from keras.models import Sequential
from keras.layers import Conv2D, Flatten, Dense, MaxPooling2D# 假设我们已经有了DCT系数的输入数据,大小为(batch_size, 8, 8, 1),
# 其中8x8代表一个DCT块的大小,1代表单通道(灰度图)。# 创建一个Sequential模型
model = Sequential()# 添加第一个卷积层,用于提取DCT系数的特征,使用较小的卷积核进行细粒度的特征检测
# 选择合适的卷积核大小和数量。这里使用3x3大小的卷积核,并定义了16个不同的卷积核。
model.add(Conv2D(16, (3, 3), activation='relu', input_shape=(8, 8, 1)))# 添加最大池化层以减小特征图的维度,同时保留最重要的特征
model.add(MaxPooling2D((2, 2)))# 展平特征图,以便可以传递给后面的全连接层
model.add(Flatten())# 添加一个全连接层(即稠密层),这里用64个神经元
model.add(Dense(64, activation='relu'))# 最后添加输出层,注意这里的节点数需要根据你的任务来设置
# 例如,如果是一个10类分类问题,则应该有10个节点
model.add(Dense(10, activation='softmax'))  # 适用于10类分类的输出层# 编译模型,选择合适的损失函数和优化器。
# 对于多类分类,损失函数通常是'categorical_crossentropy'。
model.compile(optimizer='adam',loss='categorical_crossentropy',metrics=['accuracy'])# 打印网络结构
model.summary()# 现在模型已经定义好,接下来可以在准备好的DCT系数数据集上对其进行训练。

在这个示例中,输入假定是一批8x8大小的单通道DCT系数。网络开始于一个卷积层,随后是池化层和全连接层,最后是适合分类任务的输出层。需要根据具体的应用场景调整网络的深度、卷积层的数量、卷积核的大小、层间连接方式以及激活函数等。此示例网络假设您已经有了预处理后的DCT系数数据,并准备好用于训练。在实际应用中,您还需要写代码来加载和预处理JPEG图像以获得DCT系数。

阶段 4: 模型训练

正常训练神经网络,只是这一次输入的是处理过的DCT系数而不是完整的像素数据。依旧通过前馈、梯度下降等步骤来训练网络,优化模型参数。

阶段 5: 模型评估与优化

在验证集上评估模型的性能,并根据实际应用场景调整网络结构和参数,以进一步提升模型的准确率和效率。

阶段 6: 部署与推理

将训练好的模型部署到实际的应用环境中,直接使用DCT系数进行快速推理。

使用DCT系数的关键优点是能够减少图像从JPEG格式到输入张量转换过程中产生的计算开销。而且,由于避免了解压缩和颜色空间转换的步骤,理论上可以保留更多的原始图像信息,有助于提高模型的性能。

然而,直接使用DCT系数需要克服一些挑战,比如设计一个能够适应JPEG压缩特性的网络架构,以及适应于量化后DCT系数的范围和分布的预处理技术。此外,由于DCT系数包含大量的高频信息,可能已在JPEG压缩过程中被抑制,因此模型需要在高频信息不足的情况下进行有效学习。

实际应用

网络训练加速

采用直接从JPEG图像的DCT系数训练CNN的方法,可以显著减少数据预处理的时间,从而加速整个网络训练过程。

保留信息完整性

由于没有进行额外的解码或转换,原始的图像信息得以更好地保留,在某些情况下,这可能有助于提高模型的表现。

相关开源内容

  1. jpeg-sandbox

    • 描述:在浏览器中交互式编辑任何JPEG图像中的个别DCT块。
    • 语言:JavaScript
  2. epeg

    • 描述:使用极小的开销进行极快的JPEG/JPG缩略图缩放,它利用了libjpeg的特性,即只解码重建所需大小图像的DCT系数即可加载图像。
    • 语言:C
  3. jpeg2dct

    • 描述:直接来自 JPEG 的更快神经网络:jpeg2dct 子例程。
    • 语言:C++
  4. jpgjs

    • 描述:JPEG/DCT数据解码器。
    • 语言:JavaScript
  5. jpegio

    • 描述:一个Python包,用于访问JPEG文件格式的内部变量,如DCT系数和量化表。
    • 语言:C

相关论文

  • [1] Faster Neural Networks Straight from JPEG: 本文提出并探讨了直接在JPEG的DCT系数上训练CNN的简单理念。
  • [2] Accelerating Faster Neural Networks Straight from JPEG: 这篇文章进一步探讨了如何通过DCT系数加速卷积神经网络的训练。
  • [3] Faster Neural Networks Straight from JPEG - OpenReview: 提供了关于使用JPEG格式中可用的DCT系数作为卷积网络输入表示的有效性的评述。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/679459.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

bert-vits2本地部署报错疑难问题汇总

环境: bert-vits2.3 win 和wsl 问题描述: bert-vits2本地部署报错疑难问题汇总 解决方案: 问题1: Conda安装requirements里面依赖出现ERROR: No matching distribution found for opencc1.1.6 解决方法 需要在 Python 3.11 上使用 Op…

巴尔加瓦算法图解:算法运用(上)

目录 树反向索引傅立叶变换 并行算法MapReduce函数 树 如果能将用户名插入到数组的正确位置就好了,这样就无需在插入后再排序。为此,有人设计了一种名为二叉查找树(binary search tree)的数据结构。 每个node的children 都不大于两个。对于其中的每个…

openGauss学习笔记-217 openGauss性能调优-确定性能调优范围-硬件瓶颈点分析-内存

文章目录 openGauss学习笔记-217 openGauss性能调优-确定性能调优范围-硬件瓶颈点分析-内存217.1 查看内存状况217.2 性能参数分析 openGauss学习笔记-217 openGauss性能调优-确定性能调优范围-硬件瓶颈点分析-内存 获取openGauss节点的CPU、内存、I/O和网络资源使用情况&…

怎么把视频音乐提取成mp3?分享详细工具和方法!

在数字媒体时代,音乐已经成为我们生活中不可或缺的一部分。有时候,我们会在社交媒体、视频分享网站或在线视频平台上看到一些非常喜欢的视频音乐,想要将其保存为MP3格式以便随时随地聆听。那么,如何从视频中提取音乐并转换为MP3格…

python+flask+django医院预约挂号系统6nrhh

医院预约挂号系统主要有管理员、用户和医生三个功能模块。以下将对这三个功能的作用进行详细的剖析。 技术栈 后端:python 前端:vue.jselementui 框架:django/flask Python版本:python3.7 数据库:mysql5.7 数据库工具…

【Spring框架】Spring事务同步

目录 一、什么是Spring事务同步 二、 事务同步管理器 2.1 TransactionSynchronizationManager事务同步管理器 2.1.1 资源同步 2.1.2 事务同步 2.1.3 总结 三、事务同步管理器保障事务的原理 四、spring事务为何使用TransactionSynchronizationManager spring源码实现 …

第二十七天| 39. 组合总和 、40.组合总和II、131.分割回文串

Leetcode 39. 组合总和 题目链接:39 组合总和 题干:给你一个 无重复元素 的整数数组 candidates 和一个目标整数 target ,找出 candidates 中可以使数字和为目标数 target 的 所有 不同组合 ,并以列表形式返回。你可以按 任意顺序…

【网络】:序列化和反序列化

序列化和反序列化 一.json库 二.简单使用json库 前面已经讲过TCP和UDP,也写过代码能够进行双方的通信了,那么有没有可能这种通信是不安全的呢?如果直接通信,可能会被底层捕捉;可能由于网络问题,一方只接收到…

JavaScript中的for循环和map方法

JavaScript中的for循环和map方法 在JavaScript中,循环是一种常见的编程技巧,用于重复执行一段代码。for循环和map方法都可以用于循环操作,但它们在语法和应用场景上存在一些区别。本文将详细讲解JavaScript中的for循环和map方法,以…

【Linux技术宝典】Linux入门:揭开Linux的神秘面纱

文章目录 官网Linux 环境的搭建方式一、什么是Linux?二、Linux的起源与发展三、Linux的核心组件四、Linux企业应用现状五、Linux的发行版本六、为什么选择Linux?七、总结 Linux,一个在全球范围内广泛应用的开源操作系统,近年来越来…

神经网络(Nature Network)

最近接触目标检测较多,再此对最基本的神经网络知识进行补充,本博客适合想入门人工智能、其含有线性代数及高等数学基础的人群观看 1.构成 由输入层、隐藏层、输出层、激活函数、损失函数组成。 输入层:接收原始数据隐藏层:进行…

Stable Diffusion 模型下载:Disney Pixar Cartoon Type B(迪士尼皮克斯动画片B类)

本文收录于《AI绘画从入门到精通》专栏,专栏总目录:点这里。 文章目录 模型介绍生成案例案例一案例二案例三案例四案例五案例六案例七案例八案例九案例十

阿里云服务器带宽计费模式是什么?怎么选择?

阿里云服务器带宽计费模式分为“按固定带宽”和“按使用流量”,有什么区别?按固定带宽是指直接购买多少M带宽,比如1M、5M、10M、100M等,阿里云直接分配用户所购买的带宽值,根据带宽大小先付费再使用;按使用…

Windows Server 2019 搭建并加入域

系列文章目录 目录 系列文章目录 文章目录 前言 一、域是什么? 二、配置服务器 1.实验环境搭建 1)实验服务器配置和客户端 2)实验环境 2.服务器配置 账户是域服务器的账户和密码 文章目录 Windows Server 2003 Web服务器搭建Windows Server 2003 FTP服务器搭…

Hadoop:认识MapReduce

MapReduce是一个用于处理大数据集的编程模型和算法框架。其优势在于能够处理大量的数据,通过并行化来加速计算过程。它适用于那些可以分解为多个独立子任务的计算密集型作业,如文本处理、数据分析和大规模数据集的聚合等。然而,MapReduce也有…

《UE5_C++多人TPS完整教程》学习笔记4 ——《P5 局域网连接(LAN Connection)》

本文为B站系列教学视频 《UE5_C多人TPS完整教程》 —— 《P5 局域网连接(LAN Connection)》 的学习笔记,该系列教学视频为 Udemy 课程 《Unreal Engine 5 C Multiplayer Shooter》 的中文字幕翻译版,UP主(也是译者&…

Java 学习和实践笔记(6)

各数据类型所占的空间: byte: 1个字节 short:2个字节 int:4个 long:8个 float:4个 double: 8个 char:1个 boolean:1bit 所有引用数据类型都是4个字节,实际其值是指向该数据类型的地址。 上图中稍特…

blender怎么保存窗口布局,怎么设置默认输出文件夹

进行窗口布局大家都会,按照自己喜好来就行了,设置输出文件夹如图 这些其实都简单。关键问题在于,自己调好了窗口布局,或者设置好了输出文件夹之后,怎么能让blender下次启动的时候呈现出自己设置好的窗口布局&#xff…

【开源】SpringBoot框架开发木马文件检测系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 数据中心模块2.2 木马分类模块2.3 木马软件模块2.4 安全资讯模块2.5 脆弱点模块2.6 软件检测模块 三、系统设计3.1 用例设计3.2 数据库设计3.2.1 木马分类表3.2.2 木马软件表3.2.3 资讯表3.2.4 脆弱点表3.2.5 软件检测表…

有人说可视化大屏是讨好领导的,有错么?难道讨好你这个大头兵

最近我分享了一批大数据可视化的界面,大部分粉丝都是认可的,也有粉丝想不到这个有啥用,极个别人非常酸,认为这个除了讨好领导,屁用没有。 客户既然花大钱找我们,肯定有用处。 首先,这里我给解…