基于索尼基于索尼Spresense的眼睛跟随平台中两个模型的对比

1.模型一(现在使用的)

请添加图片描述
这个模型是一个简单的神经网络，由三个主要组件组成：输入层、一个全连接层（Affine层）、一个Sigmoid激活函数层和一个Binary Cross Entropy损失层。
以下是每个组件的说明：

Input 层：这是模型的输入层，表示输入数据的形状为1, 28, 28。这通常是表示灰度图像的维度，即单通道图像，宽度为28像素，高度也为28像素。
Affine 层：这是一个全连接层，也被称为线性变换层。在这个层中，每个输入节点都与输出节点有一个权重（w）和偏差（b）。权重和偏差是在训练过程中通过反向传播算法更新的参数。全连接层将所有的输入节点连接到输出节点，形成一个线性的关系。在这个例子中，输入和输出的维度都是1，所以这是一个单输出的线性层。
Sigmoid激活函数层：Sigmoid函数是一个常见的激活函数，它将任何实数值压缩到0到1之间。这个函数常用于二分类问题，因为它可以将输出映射到概率区间。在 Affine 层之后使用 Sigmoid 函数可以帮助我们得到一个接近于0或1的概率值，这对于二分类任务非常有用。
Binary Cross Entropy Loss 层：这是损失函数层，用于衡量模型预测的结果与真实标签之间的差距。
它测量的是模型预测的概率分布与真实类别分布之间的距离。在训练过程中，我们会最小化这个损失函数来优化模型的权重和偏差。这个模型适用于二分类问题，例如识别手写数字等任务。输入图像经过全连接层和Sigmoid激活函数后，得到一个0到1之间的概率值，表示属于某一类别的可能性。然后，Binary Cross Entropy Loss 层用来比较模型预测的概率与实际标签，以便在训练过程中调整模型参数以提高准确性。

模型二我们改进后(将在下个版本使用的)

请添加图片描述
它由几个不同的层组成，包括输入层、图像增强层、卷积层、最大池化层、双曲正切激活函数层、全连接层和sigmoid激活函数层，以及二元交叉熵损失层。
以下是对各个层及其功能的详细解释：

输入层（Dataset: x）：这是模型的起始点，表示输入数据的形状为1, 28, 28，通常对应着灰度图像的尺寸。
图像增强层：这一层负责对输入图像进行增强，例如随机平移，以增加数据的多样性和泛化能力。
卷积层（核形状：7, 7）：卷积层用于提取图像特征，它使用7x7的卷积核对输入图像进行滑动窗口操作，生成新的特征图。
最大池化层（形状：4, 4）：最大池化层用于减小特征图的尺寸，提高计算效率，同时保留最重要的特征。
双曲正切激活函数层（Tanh）：这是一种非线性激活函数，用于给模型引入非线性特性。
全连接层：全连接层将所有输入节点连接到输出节点，权重和偏差会在训练过程中被优化。
Sigmoid激活函数层：Sigmoid函数将输出映射到0到1之间，适合二分类问题。
二元交叉熵损失层：这是用于训练过程中的损失函数，用于衡量模型预测结果与真实标签之间的差距。

两个模型对比

模型2与模型1相比，模型2增加了图像增强层和卷积层，以及最大池化层和双曲正切激活函数层。
这些额外的层提供了以下优势：
•图像增强层：通过对输入图像进行随机平移，增强了数据集的多样性，提高了模型的泛化能力，使其更能应对各种情况下的输入。
•卷积层：利用卷积核提取图像特征，减少了人工特征工程的需求，自动学习特征，提高了模型的准确性和效率。
•最大池化层：通过下采样降低了特征图的尺寸，减少了计算量，同时也保留了重要特征。
•双曲正切激活函数层：引入了非线性，使得模型能够学习更复杂的模式。总体来说，模型2比之前的模型1更加复杂且专门针对图像处理任务进行了优化。它能够更好地处理图像数据，特别是对于图像分类任务.

当我们将数据输入输入层时两个模型的工作步骤

模型一

输入层: 图片的原始像素值会作为输入传递给模型。由于模型的输入层接受1x28x28的图像，图片会被直接送入下一个处理层。
全连接层（Affine Layer）: 输入的图像数据将被展平成一个向量，然后传递给全连接层。在这个层中，每个输入像素值都会乘以对应的权重，并加上一个偏差值，产生一个线性组合。这个线性组合的结果将被传递到下一层。
Sigmoid激活函数层: 在全连接层之后，数据会通过Sigmoid激活函数。Sigmoid函数会将每个线性组合的输出值转换到0和1之间，引入非线性变换，使得模型能够拟合更复杂的决策边界。
二元交叉熵损失层: 在模型的最后一层，输出值会被视为该图像属于特定类别的概率。如果模型正在训练中，二元交叉熵损失函数会根据预测概率与实际标签的对比来计算损失，指导模型权重和偏差的调整，以最小化预测错误。

模型二

1.输入层: 图片首先会被加载到模型的输入层。因为模型期望的输入形状是1x28x28，这意味着图片会被展平成一个一维数组，长度为28x28 = 784。但是，在这个特定的架构中，由于输入层直接连接到了卷积层，所以图像可能会保持其原始的2D形状（28x28），并且深度为1（因为它是灰度图，只有一个通道）。
2. 图像增强层: 在这个阶段，输入的图像可能会被随机平移，这有助于模型学习到更加鲁棒的特征，即使在轻微的位置变化下也能正确分类。
3. 卷积层: 卷积核（7x7大小）会在图像上滑动，执行点积操作以产生特征图。每个卷积核都会检测图像的不同特征，如边缘、纹理或特定的图案。由于输入图像的大小为28x28，卷积后产生的特征图的大小将取决于卷积核的步长和填充方式。
4. 最大池化层: 最大池化操作会从特征图的每个4x4区域内抽取最大值，从而降低空间维度，减少计算量，并帮助模型对位置变化具有一定的不变性。
5. 双曲正切激活函数层: 激活函数如双曲正切（tanh）会对前一层的输出应用非线性变换，允许模型学习和表示复杂的非线性关系。
6. 全连接层: 在这一步，所有特征图会被展平成一个一维向量，然后输入到一个或多个全连接层中。全连接层中的每一个神经元都与前一层的所有输出相连，这样模型就能整合所有特征图的信息，形成更高层次的抽象表示。
7. Sigmoid激活函数层: 最后一层使用sigmoid函数，将输出压缩到0和1之间，这适用于二分类问题。输出值可以被解释为输入图像属于某个类别的概率。
8. 二元交叉熵损失层: 如果是在训练阶段，损失函数（这里是二元交叉熵）会评估模型的预测与实际标签之间的差异，以便更新权重和偏置，优化模型性能。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/pingmian/39456.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！