《datawhale2411组队学习 模型压缩技术7:NNI剪枝》

文章目录

    • 一、NNI简介
    • 二、 NNI剪枝快速入门
      • 2.1 加载并训练模型
      • 2.2 模型剪枝
      • 2.3 模型加速(剪枝永久化)
      • 2.4 微调压缩模型
      • 2.5 Slim Pruner测试
    • 三、 使用NNI3.0进行Bert压缩(剪枝、蒸馏)
      • 3.1 数据预处理
      • 3.2 训练模型
      • 3.3 设置模型蒸馏函数
      • 3.4 修剪注意力层
      • 3.5 修剪前馈层
      • 3.6 修剪嵌入层
      • 3.8 模型评估

  • 《datawhale2411组队学习模型压缩技术1:模型剪枝(上)》:介绍模型压缩的几种技术;模型剪枝基本概念、分类方式、剪枝标准、剪枝频次、剪枝后微调等内容
  • 《datawhale11月组队学习 模型压缩技术2:PyTorch模型剪枝教程》:介绍PyTorch的prune模块具体用法
  • 《datawhale11月组队学习 模型压缩技术3:2:4结构稀疏化BERT模型》:介绍基于模式的剪枝——2:4结构稀疏化及其在BERT模型上的测试效果
  • 《datawhale 2411组队学习 模型压缩4 模型量化理论(数据类型、int8量化方法、PTQ和QWT)》
  • 《datawhale 2411组队学习 模型压缩5 神经网络架构搜索》
  • 《datawhale 2411组队学习 模型压缩6 :模型蒸馏》
  • 《datawhale2411组队学习 模型压缩技术7:NNI剪枝》:介绍了NNI基础的剪枝示例,包括配置剪枝信息配置config_list,微调剪枝模型。第三章中介绍了如何在对Bert base模型进行三段剪枝之后,使用知识蒸馏,恢复被剪枝模型的精度。

一、NNI简介

  • 项目地址:awesome-compression、在线阅读、 NNI文档

  NNI(Neural Network Intelligence)是一个开源的自动机器学习(AutoML)工具,由微软亚洲研究院推出。它可以帮助用户自动化地进行超参数调优、神经网络架构搜索、模型压缩和特征工程等任务。NNI 支持多种深度学习框架,如PyTorch、TensorFlow等,并且可以在多种训练平台上运行,包括本地机器、远程服务器、Kubernetes等。NNI主要有以下功能:

NNI剪枝方法描述参考论文
Level Pruner基于权重元素的绝对值,对每个权重元素按指定比例进行剪枝。
L1 Norm Pruner使用最小 L1 权重范数修剪输出通道《Pruning Filters for Efficient Convnets》
L2 Norm Pruner使用最小 L2 权重范数修剪输出通道
FPGM Pruner通过几何中值进行滤波器剪枝的深度卷积神经网络加速。《Filter Pruning via Geometric Median for Deep Convolutional Neural Networks Acceleration》
Slim Pruner通过剪除 BN 层中的缩放因子来修剪输出通道《Learning Efficient Convolutional Networks through Network Slimming》
Taylor FO Weight Pruner基于权重的一阶泰勒展开计算重要性,对过滤器进行剪枝《Importance Estimation for Neural Network Pruning》
Linear Pruner在每轮剪枝中,稀疏率线性增加,并使用基础剪枝方法对模型进行剪枝。
AGP Pruner自动渐进剪枝《To prune, or not to prune: exploring the efficacy of pruning for model compression》
Movement Pruner运动剪枝,通过微调实现自适应稀疏性。《Movement Pruning: Adaptive Sparsity by Fine-Tuning》
NNI量化方法描述参考论文
QAT Quantizer用于高效整数算术推理的神经网络的量化和训练。《Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference》
DoReFa QuantizerDoReFa-Net:训练具有低位宽梯度的低位宽卷积神经网络。《DoReFa-Net: Training Low Bitwidth Convolutional Neural Networks with Low Bitwidth Gradients》
BNN Quantizer二值化神经网络:训练权重和激活限制为 +1 或 -1《Binarized Neural Networks: Training Deep Neural Networks with Weights and Activations Constrained to +1 or -1》
LSQ Quantizer学习步长量化。《Learned Step Size Quantization》
PTQ Quantizer训练后量化。
  • 神经网络架构搜索
    • 搜索空间设计:定义一组要探索的模型的模型搜索空间。
    • 搜索策略选择:用于探索模型搜索空间的算法。
    • 性能评估:负责训练模型并评估其性能。
  • 知识蒸馏
    • DynamicLayerwiseDistiller:每个学生模型蒸馏目标(即学生模型中层的输出)将链接到该蒸馏器中的教师模型蒸馏目标列表。在蒸馏过程中,学生目标将计算与其链接的每个教师目标的蒸馏损失列表,然后选择损失列表中的最小损失作为当前学生目标蒸馏损失。最终蒸馏损失是每个学生目标蒸馏损失乘以 lambda 的总和。最终的训练损失是原始损失乘以 origin_loss_lambda 加上最终的蒸馏损失。
    • Adaptive1dLayerwiseDistiller:该蒸馏器将通过在学生蒸馏目标和教师蒸馏目标之间添加可训练的torch.nn.Linear来自适应地调整学生蒸馏目标和教师蒸馏目标之间的最后一个维度。 (如果学生和教师之间的最后一个维度已经对齐,则不会添加新的线性图层。)

  此外,NNI还支持超参数调优、特征工程和实验管理,更多内容请查看NNI文档。其安装方式也很简单:

pip install nni

二、 NNI剪枝快速入门

参考文档《Pruning Quickstart》

  模型剪枝是一种通过减少模型权重大小或中间状态大小来减少模型大小和计算量的技术。修剪 DNN 模型有以下三种常见做法:

  • 预训练模型 -> 修剪模型 -> 微调修剪后的模型
  • 在训练期间修剪模型(即修剪感知训练)-> 微调修剪后的模型
  • 修剪模型 -> 从头开始​​训练修剪后的模型

  NNI支持上述所有的方式,本节以第一种方法为例来展示NNI的用法。我们使用一个简单的模型TorchModel(类似LeNet,只是最后多了几个relu函数和MaxPool层),此模型在MNIST数据集上进行了预训练。

2.1 加载并训练模型

import torch
import torch.nn.functional as F
from torch.optim import SGDfrom nni_assets.compression.mnist_model import TorchModel, trainer, evaluator, devicemodel = TorchModel().to(device)
model
TorchModel((conv1): Conv2d(1, 6, kernel_size=(5, 5), stride=(1, 1))(conv2): Conv2d(6, 16, kernel_size=(5, 5), stride=(1, 1))(fc1): Linear(in_features=256, out_features=120, bias=True)(fc2): Linear(in_features=120, out_features=84, bias=True)(fc3): Linear(in_features=84, out_features=10, bias=True)(relu1): ReLU()(relu2): ReLU()(relu3): ReLU()(relu4): ReLU()(pool1): MaxPool2d(kernel_size=(2, 2), stride=(2, 2), padding=0, dilation=1, ceil_mode=False)(pool2): MaxPool2d(kernel_size=(2, 2), stride=(2, 2), padding=0, dilation=1, ceil_mode=False)
)
# 定义优化器和损失函数
optimizer = SGD(model.parameters(), 1e-2)
criterion = F.nll_loss# 训练并评估模型
for epoch in range(3):trainer(model, optimizer, criterion)evaluator(model)
Average test loss: 0.7821, Accuracy: 7228/10000 (72%)
Average test loss: 0.2444, Accuracy: 9262/10000 (93%)
Average test loss: 0.1760, Accuracy: 9493/10000 (95%)
# 1.查看原始模型参数量
print('Original model paramater number: ', sum([param.numel() for param in model.parameters()]))# 2. 测试原模型的推理速度
import time
start = time.time()
model(torch.rand(128, 1, 28, 28).to(device))
print('Original Model - Elapsed Time : ', time.time() - start)
Original model paramater number:  44426
Original Model - Elapsed Time :  2.3036391735076904

2.2 模型剪枝

  通常,修剪器需要原始模型和config_list作为其输入,配置config_list的详细信息,请参阅压缩配置规范。下面我们使用L1NormPruner减掉所有全连接层(除了fc3)和卷积层50%的参数:

from nni.compression.pruning import L1NormPruner# 1. 定义剪枝器和剪枝配置信息
config_list = [{'op_types': ['Linear', 'Conv2d'],'exclude_op_names': ['fc3'],'sparse_ratio': 0.5
}]
pruner = L1NormPruner(model, config_list)
model
TorchModel((conv1): Conv2d(1, 6, kernel_size=(5, 5), stride=(1, 1)(_nni_wrapper): ModuleWrapper(module=Conv2d(1, 6, kernel_size=(5, 5), stride=(1, 1)), module_name=conv1))(conv2): Conv2d(6, 16, kernel_size=(5, 5), stride=(1, 1)(_nni_wrapper): ModuleWrapper(module=Conv2d(6, 16, kernel_size=(5, 5), stride=(1, 1)), module_name=conv2))(fc1): Linear(in_features=256, out_features=120, bias=True(_nni_wrapper): ModuleWrapper(module=Linear(in_features=256, out_features=120, bias=True), module_name=fc1))(fc2): Linear(in_features=120, out_features=84, bias=True(_nni_wrapper): ModuleWrapper(module=Linear(in_features=120, out_features=84, bias=True), module_name=fc2))(fc3): Linear(in_features=84, out_features=10, bias=True)(relu1): ReLU()(relu2): ReLU()(relu3): ReLU()(relu4): ReLU()(pool1): MaxPool2d(kernel_size=(2, 2), stride=(2, 2), padding=0, dilation=1, ceil_mode=False)(pool2): MaxPool2d(kernel_size=(2, 2), stride=(2, 2), padding=0, dilation=1, ceil_mode=False)
)
# 2.压缩模型并生成剪枝掩码,模拟剪枝的效果(compress方法不会永久改变模型的结构)
# 此掩码定义了哪些权重应该被设置为零(即剪枝)
_, masks = pruner.compress()# 3.打印掩码的稀疏度
for name, mask in masks.items():print(name, ' sparsity : ', '{:.2}'.format(mask['weight'].sum() / mask['weight'].numel()))
fc1  sparsity :  0.5
conv1  sparsity :  0.5
conv2  sparsity :  0.5
fc2  sparsity :  0.5

2.3 模型加速(剪枝永久化)

  剪枝器(如 L1NormPruner)在应用剪枝时,使用了权重掩模(mask)来模拟剪枝效果。这些掩模并不会真正改变模型的结构,而是通过将权重的某些部分“置零”来模拟稀疏性。这么做可以测试稀疏性对模型性能(如准确率)的影响,但并未真正减少模型参数量或实现运行时加速,因被掩蔽的部分仍然要参与计算。

  为了让剪枝后的模型达到真正加速的效果,需要将模块替换为修剪后的模块,使剪枝效果永久化(类似PyTorch剪枝模块pruneremove函数的效果,详见《datawhale11月组队学习 模型压缩技术2:PyTorch模型剪枝教程》)。

  ModelSpeedup 是 NNI 提供的工具,用来实现剪枝后的模型加速,其主要作用是:

  • 形状推断: 自动根据掩模(mask)推断哪些层需要调整形状,并将其与模型拓扑结合应用。
  • 掩模传播: 掩模不仅仅对当前层生效,还会沿着模型的前后传播到相关联的层。
  • 剪枝永久化: 替换掉原始模型的相关层,生成一个真正更小、更高效的模型。这包括:
    • 使用较小的层替换粗粒度掩模(减少参数量和计算量);
    • 使用用稀疏内核替换细粒度掩模(对稀疏性进行专门优化)。

  粗粒度剪枝(如通道剪枝)通常会改变层的权重形状或输入/输出张量的维度。由于层之间存在连接性(拓扑结构),当一个层的形状改变时,与之相连的层可能也需要调整。例如:如果一个卷积层剪除了某些输出通道,那么连接到该层输出的下一个卷积层的输入通道数也需要相应减少。
NNI会利用 PyTorch 的 torch.fx 进行模型跟踪,获取模型的计算图(拓扑结构),并自动推断各个模块需要如何调整形状。

  如果模型之前被剪枝器包裹过(例如用于剪枝过程中插入了钩子或逻辑),需要在加速之前还原为原始未包裹的模型。然后再利用 ModelSpeedup 工具对模型进行实际的加速。

from nni.compression.speedup import ModelSpeeduppruner.unwrap_model()
ModelSpeedup(model, torch.rand(3, 1, 28, 28).to(device), masks).speedup_model()
model
TorchModel((conv1): Conv2d(1, 3, kernel_size=(5, 5), stride=(1, 1))(conv2): Conv2d(3, 8, kernel_size=(5, 5), stride=(1, 1))(fc1): Linear(in_features=128, out_features=60, bias=True)(fc2): Linear(in_features=60, out_features=42, bias=True)(fc3): Linear(in_features=42, out_features=10, bias=True)(relu1): ReLU()(relu2): ReLU()(relu3): ReLU()(relu4): ReLU()(pool1): MaxPool2d(kernel_size=(2, 2), stride=(2, 2), padding=0, dilation=1, ceil_mode=False)(pool2): MaxPool2d(kernel_size=(2, 2), stride=(2, 2), padding=0, dilation=1, ceil_mode=False)
)
ModelSpeedup参数类型说明
modeltorch.nn.Module用户需要加速的模型。
dummy_input任意类型提供一个输入样本,用来帮助推断模型的形状变化(此处假设输入是一个形状为 (3, 1, 28, 28) 的张量)。
masks_or_file任意类型剪枝过程中生成的掩模,用来标识模型的稀疏性。
map_location任意类型掩模所存放的设备,与 torch.load 中的 map_location 参数相同。
batch_dim整数dummy_input 中的批量维度索引。
batch_size整数dummy_input 的批量大小。
customized_mask_updatersList[MaskUpdater]None一个 MaskUpdater 列表。NNI 会根据前向和后向传播的数值分布自动推断稀疏性。用户也可以自定义推断规则
customized_replacersList[Replacer]None一个 Replacer 列表,用于将原始模块替换为压缩模块。用户可以通过自定义 Replacer 来定义替换逻辑。
graph_moduletorch.fx.GraphModuleNone如果 ModelSpeedup 的默认具体跟踪逻辑无法满足需求,用户可以直接传入 torch.fx.GraphModule
loggerlogging.LoggerNone设置一个日志记录器。如果为 None,NNI 将使用默认的日志记录器。
print('Pruned model paramater number: ', sum([param.numel() for param in model.parameters()]))start = time.time()
model(torch.rand(128, 1, 28, 28).to(device))
print('Speedup Model - Elapsed Time : ', time.time() - start)
Speedup Model - Elapsed Time :  0.09416508674621582

  在PyTorch中,当前实现只能替换整个模块(module)。如果需要替换模型中的某个函数(function),当前的实现不支持。作为一种变通方法,可以将需要替换的函数转换为PyTorch模块,这样就可以使用现有的替换机制。

2.4 微调压缩模型

optimizer = SGD(model.parameters(), 1e-2)
for epoch in range(3):trainer(model, optimizer, criterion)

2.5 Slim Pruner测试

  我们在cifar10数据集上使用Slim Pruner对resnet18模型进行剪枝测试,测量了在不同稀疏比下剪枝模型的延迟和准确率,结果如下:

在这里插入图片描述

三、 使用NNI3.0进行Bert压缩(剪枝、蒸馏)

参考《Pruning Bert on Task MNLI》

  本章结合剪枝、蒸馏两种模型压缩技术,以及新的、更强大的剪枝加速工具对Bert模型进行了剪枝,这大大减少了模型的大小。整个剪枝过程分为三个步骤:

  1. 剪枝注意力层(attention layers)。由于修剪后模型性能下降,使用动态蒸馏(dynamic distiller)进行微调,恢复模型性能(将修剪前后的模型分别作为教师模型和学生模型,将二者Transformer Block每一层都进行对齐蒸馏,实现跨层知识传递);
  2. 剪枝前馈层(feed forward layers),进一步减少模型的参数量,然后同样使用动态蒸馏进行微调;
  3. 剪枝嵌入层(embedding layers)。剪枝后学生模型的Transformer Block维度和教师模型不一致,不能再使用动态蒸馏方法。此时要使用自适应蒸馏(adapt_distiller),它会将学生模型和教师模型的每个Transformer Block的输出层添加一个线性层,对齐二者的维度,进行蒸馏(也就是只蒸馏二者的输出层)。

  在每个步骤中,首先使用剪枝器进行模拟剪枝,生成与模块剪枝目标(权重、输入、输出)对应的掩码。然后进入加速阶段,使用稀疏传播来探索局部掩码导致的全局冗余,接着通过替换模型中的子模块将原始模型修改为更小的模型,最后使用蒸馏器来帮助恢复模型的准确率。

  另外在训练时需要用NNI的trace功能包装transformers.Trainer,以追踪初始化参数,这是因为NNI需要在训练期间重新创建训练器,以实现剪枝和蒸馏的感知。

  本教程使用的是bert-base-uncased模型,任务来自于GLUE Benchmark.中的MNLI 。GLUE榜单包含了9个句子级别的分类任务,分别是:

  • CoLA (Corpus of Linguistic Acceptability) :鉴别一个句子是否语法正确
  • MNLI (Multi-Genre Natural Language Inference) :给定一对句子(一个前提句和一个假设句),模型需要判断两者之间的关系属于以下三种之一:
    • Entailment(蕴含):假设句可以从前提句推导出来。
    • Contradiction(矛盾):假设句与前提句相矛盾。
    • Neutral(中性):假设句与前提句既不蕴含也不矛盾。
  • MRPC (Microsoft Research Paraphrase Corpus) :判断两个句子是否互为paraphrases
  • QNLI (Question-answering Natural Language Inference) :判断第2句是否包含第1句问题的答案。
  • QQP (Quora Question Pairs2) :判断两个问句是否语义相同
  • RTE (Recognizing Textual Entailment):判断一个句子是否与假设成entail关系。
  • SST-2 (Stanford Sentiment Treebank) :判断一个句子的情感正负向
  • STS-B (Semantic Textual Similarity Benchmark) :判断两个句子的相似性(分数为1-5分)。
  • WNLI (Winograd Natural Language Inference) :判断包含匿名代词的句子与将该代词替换后的句子是否具有蕴含关系。

有关GLUE Benchmark的更多分析详见《微调预训练模型进行文本分类》

3.1 数据预处理

from __future__ import annotationsfrom pathlib import Pathimport numpy as npimport torch
from torch.utils.data import ConcatDatasetimport nnifrom datasets import load_dataset, load_metric
from transformers import BertTokenizerFast, DataCollatorWithPadding, BertForSequenceClassification, EvalPrediction
from transformers.trainer import Trainer
from transformers.training_args import TrainingArguments

定义任务和模型:

# 需要注意的是,STS-B是一个回归问题,MNLI是一个3分类问题,其它都是二分类。
task_name = 'mnli'
def build_model(pretrained_model_name_or_path: str, task_name: str):is_regression = task_name == 'stsb'num_labels = 1 if is_regression else (3 if task_name == 'mnli' else 2)model = BertForSequenceClassification.from_pretrained(pretrained_model_name_or_path, num_labels=num_labels)return model

准备GLUE训练和验证数据集,如果任务有多个验证数据集,则通过ConcatDataset合并数据集。

def prepare_datasets(task_name: str, tokenizer: BertTokenizerFast, cache_dir: str):# 不同任务的输入结构不同,因此我们定义下面这个dicttask_to_keys = {'cola': ('sentence', None),'mnli': ('premise', 'hypothesis'),'mrpc': ('sentence1', 'sentence2'),'qnli': ('question', 'sentence'),'qqp': ('question1', 'question2'),'rte': ('sentence1', 'sentence2'),'sst2': ('sentence', None),'stsb': ('sentence1', 'sentence2'),'wnli': ('sentence1', 'sentence2'),}sentence1_key, sentence2_key = task_to_keys[task_name]# 定义与处理函数def preprocess_function(examples):# args 变量区分了单句输入和双句输入的情况args = ((examples[sentence1_key],) if sentence2_key is None else (examples[sentence1_key], examples[sentence2_key]))result = tokenizer(*args, padding=False, max_length=128, truncation=True)if 'label' in examples:# 如果数据包含标签(label),则将其重命名为 labels,以适配模型的输入要求result['labels'] = examples['label']return result# 从 GLUE 数据集中加载对应任务的数据raw_datasets = load_dataset('glue', task_name, cache_dir=cache_dir)# 检查数据集中是否包含测试集(没有标签),如果有则移除。for key in list(raw_datasets.keys()):if 'test' in key:raw_datasets.pop(key)# 批处理后,移除原始数据集中所有的列,只保留分词后的结果和标签列processed_datasets = raw_datasets.map(preprocess_function, batched=True,remove_columns=raw_datasets['train'].column_names)# 获取训练集和验证集train_dataset = processed_datasets['train']if task_name == 'mnli':validation_datasets = {'validation_matched': processed_datasets['validation_matched'],'validation_mismatched': processed_datasets['validation_mismatched']}else:validation_datasets = {'validation': processed_datasets['validation']}return train_dataset, validation_datasets

MNLI 的验证集分为两部分:

  • validation_matched:前提句和假设句来自相同领域。
  • validation_mismatched:前提句和假设句来自不同领域。

其他任务只有一个验证集,因此直接提取。

3.2 训练模型

准备训练器,注意Trainer类是由nni.trace包装的。

def prepare_traced_trainer(model, task_name, load_best_model_at_end=False):# 加载 GLUE数据集中任务对应的评估指标,只有stsb是回归任务is_regression = task_name == 'stsb'metric = load_metric('glue', task_name)def compute_metrics(p: EvalPrediction):# 如果p.predictions是元组,就取第一个结果preds = p.predictions[0] if isinstance(p.predictions, tuple) else p.predictions# 回归任务直接去掉多余的维度,保留连续值结果(np.squeeze)preds = np.squeeze(preds) if is_regression else np.argmax(preds, axis=1)result = metric.compute(predictions=preds, references=p.label_ids)# 优先返回 F1分数,如果任务没有 f1,则返回 accuracy,都没有返回默认值 0.0result['default'] = result.get('f1', result.get('accuracy', 0.))return resulttokenizer = BertTokenizerFast.from_pretrained('bert-base-uncased')train_dataset, validation_datasets = prepare_datasets(task_name, tokenizer, None)# MNLI有两个验证集,则将其合并merged_validation_dataset = ConcatDataset([d for d in validation_datasets.values()])# 创建数据整理器,进行动态填充data_collator = DataCollatorWithPadding(tokenizer)training_args = TrainingArguments(output_dir='./output/trainer',do_train=True,do_eval=True,evaluation_strategy='steps',per_device_train_batch_size=32,per_device_eval_batch_size=32,num_train_epochs=3,dataloader_num_workers=12,learning_rate=3e-5,save_strategy='steps',save_total_limit=1,metric_for_best_model='default',load_best_model_at_end=load_best_model_at_end,disable_tqdm=True,optim='adamw_torch',seed=1024)trainer = nni.trace(Trainer)(model=model,args=training_args,data_collator=data_collator,train_dataset=train_dataset,eval_dataset=merged_validation_dataset,tokenizer=tokenizer,compute_metrics=compute_metrics,)return trainer

  如果存在微调后的模型,则直接加载;如果不存在微调后的模型,则使用训练器训练预训练后的模型。

def build_finetuning_model(task_name: str, state_dict_path: str):model = build_model('bert-base-uncased', task_name)if Path(state_dict_path).exists():model.load_state_dict(torch.load(state_dict_path))else:trainer = prepare_traced_trainer(model, task_name, True)trainer.train()torch.save(model.state_dict(), state_dict_path)return modelPath('./output/bert_finetuned').mkdir(exist_ok=True, parents=True)
build_finetuning_model(task_name, f'./output/bert_finetuned/{task_name}.bin')

mkdir(exist_ok=True, parents=True):使用 Path 对象创建路径。

  • exist_ok=True:如果目录已存在,不会抛出错误。
  • parents=True:如果父目录不存在,递归创建父目录。

3.3 设置模型蒸馏函数

  动态蒸馏(Dynamic distillation )适用于学生模型和教师模型蒸馏状态维度(distillation states,中间层维度)相匹配的情况。在这种技术中,学生模型可以尝试从多个教师状态中蒸馏知识,并最终选择蒸馏损失最小的教师状态作为蒸馏目标。在本章中,动态蒸馏被应用于加速嵌入层剪枝(embedding pruning)之前。

from nni.compression.distillation import DynamicLayerwiseDistiller, Adaptive1dLayerwiseDistiller
from nni.compression.utils import TransformersEvaluatordef dynamic_distiller(student_model: BertForSequenceClassification, teacher_model: BertForSequenceClassification,student_trainer: Trainer):"""student_model:学生模型,通常是简化版本的 BERT 模型。teacher_model:教师模型,通常是预训练且性能更强的 BERT 模型。student_trainer:Hugging Face Trainer 类实例,负责学生模型的训练和验证。"""# 获取学生模型的 Transformer 层数layer_num = len(student_model.bert.encoder.layer)config_list = [{'op_names': [f'bert.encoder.layer.{i}'],							# 指定当前学生模型中的第i个操作(层)'link': [f'bert.encoder.layer.{j}' for j in range(i, layer_num)],   # 关联教师模型的对应层或更深层(跨层链接)'lambda': 0.9,														# 权重因子,用于控制蒸馏损失在总损失中的比重。'apply_method': 'mse',												# 采用的蒸馏方法(此处为 MSE)} for i in range(layer_num)]											# 最后一层是分类器,对其输出进行蒸馏,采用 KL 散度(常用于分类任务的概率分布蒸馏)config_list.append({'op_names': ['classifier'],'link': ['classifier'],				# 将学生模型和教师模型的分类层连接'lambda': 0.9,'apply_method': 'kl',})evaluator = TransformersEvaluator(student_trainer)def teacher_predict(batch, teacher_model):return teacher_model(**batch)return DynamicLayerwiseDistiller(student_model, config_list, evaluator, teacher_model, teacher_predict, origin_loss_lambda=0.1)

函数最终返回动态蒸馏器:

  • student_model:学生模型。
  • config_list:配置列表,定义了各层的蒸馏策略。
  • evaluator:用于评估学生模型性能。
  • teacher_modelteacher_predict:定义教师模型和预测逻辑。
  • origin_loss_lambda:学生模型原始任务损失(如分类交叉熵)在总损失中的权重。

def dynamic_distillation(student_model: BertForSequenceClassification, teacher_model: BertForSequenceClassification,max_steps: int | None, max_epochs: int | None):# 初始化学生模型的训练逻辑,包括数据加载和训练器student_trainer = prepare_traced_trainer(student_model, task_name, True)# 保存教师模型的原始设备和训练模式(训练模式决定模型是否更新)ori_teacher_device = teacher_model.devicetraining = teacher_model.training# 将教师模型切换到学生训练器所在的设备,并设置为评估模式teacher_model.to(student_trainer.args.device).eval()# 初始化动态蒸馏器distiller = dynamic_distiller(student_model, teacher_model, student_trainer)# 调用 compress 方法,执行蒸馏训练(根据 max_steps 或 max_epochs 控制训练过程)distiller.compress(max_steps, max_epochs)# 调用 unwrap_model 方法,恢复学生模型为非封装状态。distiller.unwrap_model()# 将教师模型还原到原始设备和训练模式,避免影响其他任务teacher_model.to(ori_teacher_device).train(training)

  在嵌入层(输入层)剪枝之后应用自适应蒸馏(Adapt distillation)。这是因为嵌入层修剪之后,学生模型和教师模型的隐藏状态维度不一致,自适应蒸馏器会在每对学生模型和教师模型的蒸馏模块对之间添加一个线性层来对齐输出层(分类层)维度。

  在剪枝了输入嵌入层后,学生模型的嵌入维度可能变小(例如从 768 降低到 384),那么对于每个学生模型的Transformer块,都会添加一个线性层Linear(in_features=384, out_features=768),将维度从384调整到768,以与教师模型的Transformer块输出对齐。

def adapt_distiller(student_model: BertForSequenceClassification, teacher_model: BertForSequenceClassification,student_trainer: Trainer):layer_num = len(student_model.bert.encoder.layer)config_list = [{'op_names': [f'bert.encoder.layer.{i}'],	# 对学生模型中的每个Transformer 层进行蒸馏'lambda': 0.9,								# 蒸馏损失权重系数'apply_method': 'mse',} for i in range(layer_num)]# 添加对分类器层的蒸馏config_list.append({'op_names': ['classifier'],'link': ['classifier'],'lambda': 0.9,'apply_method': 'kl',})evaluator = TransformersEvaluator(student_trainer)def teacher_predict(batch, teacher_model):return teacher_model(**batch)return Adaptive1dLayerwiseDistiller(student_model, config_list, evaluator, teacher_model, teacher_predict, origin_loss_lambda=0.1)def adapt_distillation(student_model: BertForSequenceClassification, teacher_model: BertForSequenceClassification,max_steps: int | None, max_epochs: int | None):student_trainer = prepare_traced_trainer(student_model, task_name, True)# 保存教师模型的原始设备和训练模式(训练模式决定模型是否更新)ori_teacher_device = teacher_model.devicetraining = teacher_model.trainingteacher_model.to(student_trainer.args.device).eval()distiller = adapt_distiller(student_model, teacher_model, student_trainer)# 创建一个虚拟输入(dummy_input),模拟实际输入的形状和数据,再将其转移到正确的设备dummy_input = (torch.randint(0, 10000, [8, 128]), torch.randint(0, 2, [8, 128]), torch.randint(0, 2, [8, 128]))dummy_input = [_.to(student_trainer.args.device) for _ in dummy_input]# 开始追踪蒸馏过程的前向传播distiller.track_forward(*dummy_input)# 进行蒸馏,压缩模型并进行训练,然后解包模型distiller.compress(max_steps, max_epochs)distiller.unwrap_model()teacher_model.to(ori_teacher_device).train(training)
  • dynamic_distiller适用于学生模型和教师模型结构相似(维度一致)的场景,可以实现跨层知识传递——config_list 中的 link 参数可以指定学生模型的某一层与教师模型的某一层相连,动态建立对齐关系。
  • adapt_distiller往往用于学生模型压缩或剪枝之后与教师模型维度不一致的情况,通过添加额外的变换层将其输出层(分类层)与教师模型输出层进行对齐。中间层是不需要对齐的,所以不需要添加跨层连接link。

   track_forward 主要用于Adapt distillation,它需要在适配型蒸馏中显式调用,以确保维度对齐和蒸馏过程的正确性,而 dynamic_distiller 则通过静态的层级配置(如 config_list 中定义的 link)来自动处理这些问题,因此不需要显式调用 track_forward

3.4 修剪注意力层

  1. Attention层修剪:通过使用 MovementPruner 进行注意力层的修剪,生成块稀疏掩码,并在训练后保存修剪后的模型。
  2. 模型加速:通过使用 ModelSpeedup 加速模型,应用注意力层修剪的掩码,并进行动态蒸馏(Distillation)。
from nni.compression.pruning import MovementPruner
from nni.compression.speedup import ModelSpeedup
from nni.compression.utils.external.external_replacer import TransformersAttentionReplacerdef pruning_attn():# 创建路径,加载BERT模型Path('./output/bert_finetuned/').mkdir(parents=True, exist_ok=True)model = build_finetuning_model(task_name, f'./output/bert_finetuned/{task_name}.bin')trainer = prepare_traced_trainer(model, task_name)evaluator = TransformersEvaluator(trainer)config_list = [{'op_types': ['Linear'],'op_names_re': ['bert\.encoder\.layer\.[0-9]*\.attention\.*'],'sparse_threshold': 0.1,'granularity': [64, 64]  # 64 x 64 block granularity}]pruner = MovementPruner(model, config_list, evaluator, warmup_step=9000, cooldown_begin_step=36000, regular_scale=10)pruner.compress(None, 4)  					# 执行 4 次修剪迭代。pruner.unwrap_model()  						# Apply pruning to the modelmasks = pruner.get_masks()  				# Get the pruning masksPath('./output/pruning/').mkdir(parents=True, exist_ok=True)torch.save(masks, './output/pruning/attn_masks.pth')  # Save maskstorch.save(model, './output/pruning/attn_masked_model.pth')  # Save the pruned modelpruning_attn()
  • 使用 MovementPruner,指定要修剪的操作类型 (Linear),以及匹配的层名(使用正则表达式 op_names_re 来匹配BERT模型中的注意力层)。
  • 设置 sparse_threshold0.1,表示低于此阈值的权重会被修剪。
  • granularity 参数设置为 [64, 64],即采用 64x64 的块进行修剪(相对于单个注意力头的维度)。

  在修剪之后,使用 ModelSpeedup 进行模型加速。此阶段会根据修剪的掩码对模型进行加速,如果某个注意力头完全被掩盖,则该head会被修剪;如果某个head部分被掩盖,则该head会被恢复。

def speedup_attn():# 加载修剪后的模型和掩码model = torch.load('./output/pruning/attn_masked_model.pth', map_location='cpu')masks = torch.load('./output/pruning/attn_masks.pth', map_location='cpu')dummy_input = (torch.randint(0, 10000, [8, 128]), torch.randint(0, 2, [8, 128]), torch.randint(0, 2, [8, 128]))replacer = TransformersAttentionReplacer(model)ModelSpeedup(model, dummy_input, masks, customized_replacers=[replacer]).speedup_model()# 使用动态蒸馏进行微调teacher_model = build_finetuning_model('mnli', f'./output/bert_finetuned/{task_name}.bin')dynamic_distillation(model, teacher_model, None, 3)torch.save(model, './output/pruning/attn_pruned_model.pth')speedup_attn()
  • 使用 ModelSpeedup 加速模型。通过 TransformersAttentionReplacer 替换掉模型中的注意力层。
  • dummy_input 用于模拟数据输入,确保模型加速过程中不会出现问题。
  • 进行剪枝后,学生模型的表现可能会受到影响。通过动态蒸馏,可以让学生模型逐步适应修剪后的新结构,并进一步优化其在特定任务上的性能。

3.5 修剪前馈层

  这里使用TaylorPruner来修剪前馈层,TaylorPruner 是一种基于泰勒展开的剪枝方法。

  剪枝注意力头后,可能会影响前馈层的表示能力,因此前馈层的稀疏率(即剪枝的比例)会根据被剪枝的注意力头数来调整。被剪枝的头越多,稀疏率越大。TaylorPruner没有调度稀疏比率的功能,我们使用AGPPruner来自适应的调节稀疏率,从而获得更好的剪枝性能。

from nni.compression.pruning import TaylorPruner, AGPPruner
from transformers.models.bert.modeling_bert import BertLayerdef pruning_ffn():# 加载一个已剪枝的BERT模型 attn_pruned_model.pth,和一个教师模型model: BertForSequenceClassification = torch.load('./output/pruning/attn_pruned_model.pth')teacher_model: BertForSequenceClassification = build_finetuning_model('mnli', f'./output/bert_finetuned/{task_name}.bin')# 创建一个配置列表 config_list,用于确定前馈层(BertLayer 中的 intermediate.dense)的稀疏比率。# 稀疏比率是根据保留的注意力头数和原始头数来计算的。config_list = []for name, module in model.named_modules():if isinstance(module, BertLayer):retained_head_num = module.attention.self.num_attention_headsori_head_num = len(module.attention.pruned_heads) + retained_head_numffn_sparse_ratio = 1 - retained_head_num / ori_head_num / 2config_list.append({'op_names': [f'{name}.intermediate.dense'], 'sparse_ratio': ffn_sparse_ratio})trainer = prepare_traced_trainer(model, task_name)teacher_model.eval().to(trainer.args.device)# 建立一个蒸馏器用于蒸馏模型,恢复精度。distiller = dynamic_distiller(model, teacher_model, trainer)# 创建了一个 Taylor剪枝器,剪枝后再通过动态蒸馏进行微调(1000steps)taylor_pruner = TaylorPruner.from_compressor(distiller, config_list, 1000)# 创建了一个 AGP剪枝器,在TaylorPruner基础上进一步压缩模型# 1000和36分别表示每隔多少步更新一次稀疏度以及总共更新多少次稀疏度agp_pruner = AGPPruner(taylor_pruner, 1000, 36)agp_pruner.compress(None, 3)agp_pruner.unwrap_model()distiller.unwrap_teacher_model()masks = agp_pruner.get_masks()Path('./output/pruning/').mkdir(parents=True, exist_ok=True)torch.save(masks, './output/pruning/ffn_masks.pth')torch.save(model, './output/pruning/ffn_masked_model.pth')pruning_ffn()def speedup_ffn():model = torch.load('./output/pruning/ffn_masked_model.pth', map_location='cpu')masks = torch.load('./output/pruning/ffn_masks.pth', map_location='cpu')dummy_input = (torch.randint(0, 10000, [8, 128]), torch.randint(0, 2, [8, 128]), torch.randint(0, 2, [8, 128]))# 使用 ModelSpeedup 类和传入的模型、掩码以及伪输入来加速模型。ModelSpeedup(model, dummy_input, masks).speedup_model()# 在剪枝后的模型上执行动态蒸馏,以恢复精度。teacher_model = build_finetuning_model('mnli', f'./output/bert_finetuned/{task_name}.bin')dynamic_distillation(model, teacher_model, None, 3)torch.save(model, './output/pruning/ffn_pruned_model.pth')speedup_ffn()

3.6 修剪嵌入层

  剪枝 Embedding层(嵌入层)时,为了更好地模拟剪枝效果,采用了一种更细致的剪枝策略,包括对 BertAttention 和 BertOutput 层的输出进行掩码(mask)设置,并且通过特定的方式来生成和应用这些掩码。

  为了更好地模拟剪枝效果,我们需要为 BertAttention 和 BertOutput 层注册输出掩码设置(output mask setting)。这些层的输出掩码用于决定哪些连接或参数需要保留,哪些需要剪枝。

  BertAttention 和 BertOutput 是 BERT 模型中的关键层,其中 BertAttention 负责计算注意力机制,而 BertOutput 用于生成最终的输出。

from nni.compression.base.setting import PruningSettingoutput_align_setting = {'_output_': {'align': {'module_name': None,'target_name': 'weight','dims': [0],},'apply_method': 'mul',}
}
PruningSetting.register('BertAttention', output_align_setting)
PruningSetting.register('BertOutput', output_align_setting)

  就像在剪枝前馈层时一样,剪枝嵌入层时也使用 AGPPruner、TaylorPruner 和 DynamicLayerwiseDistiller 三种技术组合来实现。为了更好的修剪效果模拟,在config_list中设置输出对齐掩码生成,这样相关层的输出掩码将根据嵌入掩码自动调整,从而在剪枝过程中更加一致和有效。

def pruning_embedding():model: BertForSequenceClassification = torch.load('./output/pruning/ffn_pruned_model.pth')teacher_model: BertForSequenceClassification = build_finetuning_model('mnli', f'./output/bert_finetuned/{task_name}.bin')sparse_ratio = 0.5config_list = [{'op_types': ['Embedding'],'op_names_re': ['bert\.embeddings.*'],'sparse_ratio': sparse_ratio,'dependency_group_id': 1,'granularity': [-1, 1],}, {'op_names_re': ['bert\.encoder\.layer\.[0-9]*\.attention$','bert\.encoder\.layer\.[0-9]*\.output$'],'target_names': ['_output_'],'target_settings': {'_output_': {'align': {'module_name': 'bert.embeddings.word_embeddings','target_name': 'weight','dims': [1],}}}}, {'op_names_re': ['bert\.encoder\.layer\.[0-9]*\.attention.output.dense','bert\.encoder\.layer\.[0-9]*\.output.dense'],'target_names': ['weight'],'target_settings': {'weight': {'granularity': 'out_channel','align': {'module_name': 'bert.embeddings.word_embeddings','target_name': 'weight','dims': [1],}}}}]trainer = prepare_traced_trainer(model, task_name)teacher_model.eval().to(trainer.args.device)distiller = dynamic_distiller(model, teacher_model, trainer)taylor_pruner = TaylorPruner.from_compressor(distiller, config_list, 1000)agp_pruner = AGPPruner(taylor_pruner, 1000, 36)agp_pruner.compress(None, 3)agp_pruner.unwrap_model()distiller.unwrap_teacher_model()masks = agp_pruner.get_masks()Path('./output/pruning/').mkdir(parents=True, exist_ok=True)torch.save(masks, './output/pruning/embedding_masks.pth')torch.save(model, './output/pruning/embedding_masked_model.pth')pruning_embedding()
# 加速嵌入层修剪后的模型,并进行自适应蒸馏微调
def speedup_embedding():model = torch.load('./output/pruning/embedding_masked_model.pth', map_location='cpu')masks = torch.load('./output/pruning/embedding_masks.pth', map_location='cpu')dummy_input = (torch.randint(0, 10000, [8, 128]), torch.randint(0, 2, [8, 128]), torch.randint(0, 2, [8, 128]))ModelSpeedup(model, dummy_input, masks).speedup_model()teacher_model = build_finetuning_model('mnli', f'./output/bert_finetuned/{task_name}.bin')adapt_distillation(model, teacher_model, None, 4)torch.save(model, './output/pruning/embedding_pruned_model.pth')speedup_embedding()

3.8 模型评估

def evaluate_pruned_model():model: BertForSequenceClassification = torch.load('./output/pruning/embedding_pruned_model.pth')trainer = prepare_traced_trainer(model, task_name)metric = trainer.evaluate()pruned_num_params = sum(param.numel() for param in model.parameters()) + sum(buffer.numel() for buffer in model.buffers())model = build_finetuning_model(task_name, f'./output/bert_finetuned/{task_name}.bin')ori_num_params = sum(param.numel() for param in model.parameters()) + sum(buffer.numel() for buffer in model.buffers())print(f'Metric: {metric}\nSparsity: {1 - pruned_num_params / ori_num_params}')evaluate_pruned_model()
Total SparsityEmbedding SparsityEncoder SparsityPooler SparsityAcc. (m/mm avg.)
0.%0.%0.%0.%84.95%
57.76%33.33% (15.89M)64.78% (29.96M)33.33% (0.39M)84.42%
68.31% (34.70M)50.00% (11.92M)73.57% (22.48M)50.00% (0.30M)83.33%
70.95% (31.81M)33.33% (15.89M)81.75% (15.52M)33.33% (0.39M)83.79%
78.20% (23.86M)50.00% (11.92M)86.31% (11.65M)50.00% (0.30M)82.53%
81.65% (20.12M)50.00% (11.92M)90.71% (7.90M)50.00% (0.30M)82.08%
84.32% (17.17M)50.00% (11.92M)94.18% (4.95M)50.00% (0.30M)81.35%

  原始模型准确率为 84.95%,随着稀疏度逐渐增加至84.32%,模型准确率依旧保持在81%以上,说明通过蒸馏等方法的辅助,模型在剪枝后(结合 AGPPruner 和 TaylorPruner)仍能保持较高的准确度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/61519.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

day22:lamp项目部署

一,lamp概述 lamp概述 LAMP 是一组开源软件的缩写,用于搭建动态网站或Web应用程序的基础环境。LAMP 代表了四个主要的组成部分: Linux:操作系统,LAMP 环境的基础。通常使用的是 Linux 发行版,如 CentOS、…

【提高篇】3.6 GPIO(六,寄存器介绍,下)

目录 2.3 输出速度寄存器OSPEEDR(GPIOx_OSPEEDR) (x = A..I) 2.4 上拉/下拉寄存器 (GPIOx_PUPDR) (x = A..I) 2.5 输入数据寄存器(IDR) 2.6 输出数据寄存器(ODR) 2.7 置位/复位寄存器(BSRR) 2.8 BSRR与ODR寄存器的区别 2.3 输出速度寄存器OSPEEDR(GPIOx_OSPEEDR) (…

【IMF靶场渗透】

文章目录 一、基础信息 二、信息收集 三、flag1 四、flag2 五、flag3 六、flag4 七、flag5 八、flag6 一、基础信息 Kali IP:192.168.20.146 靶机IP:192.168.20.147 二、信息收集 Nmap -sP 192.168.20.0/24 Arp-scan -l nmap -sS -sV -p- -…

记一次腾讯云海外服务器http能正常访问https访问拒绝问题处理过程

最近双十一, 购了一台腾讯云的海外服务器, 开通后就是一堆的服务器软件安装数据上传和配置,没想到,等待配置完成后才发现https无法正常访问,于是开启了自查。 1. 检查nginx软件的ssl配置 nginx http https配置参考 server {l…

hdlbits系列verilog解答(mt2015_muxdff)-90

文章目录 一、问题描述二、verilog源码三、仿真结果一、问题描述 本节要实现的电路来自于ECE253 2015中期测试问题5。要实现以下如图所示的时序电路中复用器及D触发器子模块。 模块声明 module top_module ( input clk, input L, input r_in, input q_in, output reg Q); 思路…

Android 图形系统之七:SurfaceFlinger

一. 引言 什么是 SurfaceFlinger?SurfaceFlinger 的核心作用和地位?为什么需要了解 SurfaceFlinger? 二. SurfaceFlinger 的基本概念 Surface 和 SurfaceFlinger 的关系SurfaceFlinger 与图形渲染(OpenGL ES 和 Vulkan&#xf…

基于Java Springboot宠物服务中心微信小程序

一、作品包含 源码数据库设计文档万字PPT全套环境和工具资源部署教程 二、项目技术 前端技术:Html、Css、Js、Vue、Element-ui 数据库:MySQL 后端技术:Java、Spring Boot、MyBatis 三、运行环境 开发工具:IDEA/eclipse 微信…

算法妙妙屋-------1.递归的深邃回响:全排列的奇妙组合

全排列的简要总结 全排列(Permutation)是数学中一个经典的问题,指的是从一组元素中,将所有元素按任意顺序排列形成的所有可能序列。 特点 输入条件: 给定一组互异的元素(通常为数组或字符串)。…

内网穿透步骤

步骤 第一次需要验证token window和linux的方法不同。 然后 启动 cpolar 服务: 在命令窗口中输入 cpolar.exe htttp 8080,启动内网穿透服务。确保命令窗口保持开启状态,以维持穿透效果。 cpolar.exe hhttp 8080 成功后 注意事项 命令窗口…

房屋结构安全监测系统守护房屋安全卫士

一、系统背景 随着时间的流逝,建筑物的主体结构、设备设施等会因为自然老化、材料疲劳、使用环境的变化以及维护不当等各种因素的影响,逐渐出现性能下降甚至安全隐患。因此,进行房屋安全监测显得尤为重要。房屋结构安全是指建筑物的结构体系在…

直击高频编程考点:聚焦新版综合编程能力考查汇总

目录 一、业务性编程和广度能力考查 (一)基本定义 (二)必要性分析 二、高频考查样题(编程扩展问法) 考题1: 用java 代码实现一个死锁用例,说说怎么解决死锁问题?(高…

架构05-架构安全性

零、文章目录 架构05-架构安全性 1、软件架构安全的重要性 **系统安全:**不仅包括防御黑客攻击,还包括安全备份与恢复、安全审计、防治病毒等。**关注重点:**认证、授权、凭证、保密、传输安全、验证。 2、认证(Authenticatio…

4399大数据面试题及参考答案(数据分析和数据开发)

对数据分析的理解 数据分析是一个从数据中提取有价值信息以支持决策的过程。它涵盖了数据收集、清洗、转换、建模和可视化等多个环节。 首先,数据收集是基础。这包括从各种数据源获取数据,例如数据库、文件系统、网络接口等。这些数据源可以是结构化的数…

封装类与封装函数

目录结构 src/ ├── utils/ │ ├── test.js │ ├── Calculator.js ├── views/ │ ├── Home.vue ├── App.vue 共同点:模块导出与模块引入 封装函数 场景 简单、轻量级和性能敏感的场景,适合快速开发和维护。 优 可维护性&…

【STM32学习】TB6612FNG驱动芯片的学习,驱动电路的学习

目录 1、TB6612电机驱动芯片 1.1如下是芯片的引脚图: 1.2如下图是电机的控制逻辑: 1.3MOS管运转逻辑 1.3典型应用电路 2、H桥驱动电路 2.1、单极模式 2.2、双极模式 2.3、高低端MOS管导通条件 2.4、H桥电路设计 2.5、自举电路 3、电气特性 3…

Level DB --- Arena

class Arena 是Level DB中的重要数据结构,它是一个简易的内存池管理类。 内存资源管理模型 Level DB 内存管理模型如图1所示,在内存分配上,Level DB每次预先申请KBlock大小的资源,新分配的内存请求会预先在last KBlocak的资源上…

docker安装seata

1.准备数据库表 -- the table to store GlobalSession data CREATE TABLE IF NOT EXISTS global_table (xid VARCHAR(128) NOT NULL,transaction_id BIGINT,status TINYINT NOT NULL,application_id VARC…

电气火灾式故障电弧探测器在某医院照明回路中的应用

安科瑞 Acrel-Tu1990 摘要:电气火灾式故障电弧探测器(以下简称“探测器”)能够对连接至其的电路中的故障电弧(包括故障并联电弧和故障串联电弧)进行精确检测。一旦探测到可能导致火灾的故障电弧,探测器将启…

RNN And CNN通识

CNN And RNN RNN And CNN通识一、卷积神经网络(Convolutional Neural Networks,CNN)1. 诞生背景2. 核心思想和原理(1)基本结构:(2)核心公式:(3)关…

手机控制载货汽车一键启动无钥匙进入广泛应用

移动管家载货汽车一键启动无钥匙进入手机控车系统‌, 该系统广泛应用于物流运输、工程作业等货车场景,为车主提供了高效、便捷的启动和熄火解决方案,体现了科技进步对物流行业的积极影响‌ 核心功能‌:简化启动流程,提…