生成对抗网络模拟缺失数据,辅助PAMAP2数据集仿真实验

在这里插入图片描述
PAMAP2数据集是一个包含丰富身体活动信息的数据集,它为我们提供了一个理想的平台来开发和测试HAR模型。本文将从数据集的基本介绍开始,逐步引导大家通过数据分割、预处理、模型训练,到最终的性能评估,在接下来的章节中,我们将详细介绍PAMAP2数据集的特点、数据预处理的关键步骤、CNN模型的训练过程,以及如何通过混淆矩阵、雷达图和柱状图等工具来展示和分析模型的性能。我们期望通过本文的分享,能够激发更多研究者和开发者对HAR技术的兴趣,并促进该领域的技术进步和应用创新。

一、PAMAP2数据集分析及介绍

1.概述

PAMAP2(Physical Activity Monitoring 2)数据集是一个全面的身体活动监测数据集,记录了18种不同身体活动,如步行、骑车、踢足球等。这些活动数据由9名受试者在进行活动时佩戴的多个传感器收集得到。此数据集是活动识别、强度估计以及相关算法开发和应用研究的宝贵资源。

2.受试者与设备

  • 受试者: 数据集收集自9名受试者。
  • 传感器设备:
    • 3 Colibri无线惯性测量单元(IMU):
      • 采样频率: 100Hz
      • 传感器位置:
        • 1个IMU佩戴在受试者优势手臂的手腕上
        • 1个IMU佩戴在胸部
        • 1个IMU佩戴在优势侧的脚踝
    • 心率监测器(HR-monitor):
      • 采样频率: 约9Hz

3.数据收集方案

每位受试者都按照一个包含12种不同活动的预定方案进行活动。数据被分为两个主要部分:ProtocolOptional

  • Protocol 文件夹包含所有受试者必须完成的标准活动录音。
  • Optional 文件夹包含一些受试者执行的可选活动录音。

3.数据文件

  • 原始感官数据以空格分隔的文本文件(.dat)格式提供。
  • 数据文件中缺失的值用 NaN 表示。
  • 每个文件对应一个会话,包含时间戳和标记的感官数据实例。
  • 数据文件共有54列,包括时间戳、活动标签和52个原始感知数据属性。

4.属性信息

数据文件中54列的组织如下:

  1. 时间戳(秒)
  2. 活动ID(见下文活动映射)
  3. 心率(每分钟心跳次数,bpm)
    4-20. 手腕处IMU的数据
    21-37. 胸部IMU的数据
    38-54. 脚踝处IMU的数据

我们引入了传感器融合技术,将IMU数据与环境变量相结合。IMU的感官数据经过高级滤波和校准,包括但不限于:1. 温度补偿以消除温度对传感器读数的影响;2-4. 经过卡尔曼滤波的三维加速度数据,以优化动态范围和分辨率;5-7. 融合磁力计数据以校正加速度计的偏移和尺度因子,增强方向感知能力。

活动ID与对应活动列表

以下是活动ID和对应的活动列表:

  • 1: 躺
  • 2: 坐
  • 3: 站
  • 4: 步行
  • 5: 跑步
  • 6: 骑自行车
  • 7: 北欧行走
  • 9: 看电视
  • 10: 计算机工作
  • 11: 驾车
  • 12: 上楼梯
  • 13: 下楼梯
  • 16: 用真空吸尘器打扫
  • 17: 熨烫
  • 18: 叠衣服
  • 19: 打扫房间
  • 20: 踢足球
  • 24: 跳绳
  • 0: 其他(瞬变活动)

二、PAMAP2数据集分割及处理

下面我将详细介绍如何对 PAMAP2 数据集进行分割和预处理,以便用于人体活动识别(HAR)的研究。

1.数据分割策略

我们采用两种数据分割策略:留一法和平均法。留一法是将一个受试者的数据作为验证集,其余作为训练集。平均法则是按照一定的比例将数据集分割为训练集和验证集。

2.预处理步骤

在下载数据集的基础上,我们增加了数据清洗步骤,包括去除无效或冗余的记录,识别并填补数据中的异常值,以及同步多个传感器的时间戳,确保数据的一致性和准确性:

  1. 数据读取:使用 Pandas 库读取数据集文件,我们只读取有效的列,包括活动标签和传感器数据。

  2. 数据插值:由于原始数据中可能存在缺失值,我们采用线性插值方法填充这些缺失值。

  3. 降采样:将数据从 100Hz 降采样至 33.3Hz,以减少计算量并提高模型的泛化能力。

  4. 去除无效类别:在 PAMAP2 数据集中,某些活动类别可能没有数据或数据量极少,我们将这些类别的数据去除。

  5. 滑窗处理:为了使数据适用于时间序列模型,我们将数据进行滑窗处理,生成固定大小的窗口数据。

  6. 数据标准化:为了提高模型的训练效率和性能,我们对数据进行 Z-score 标准化。

  7. 数据保存:最后,我们将预处理后的数据保存为 .npy 文件,以便于后续使用。

3.代码实现

以下是对 PAMAP2 数据集进行分割和预处理的详细代码分析。

导入必要的库

import os
import numpy as np
import pandas as pd
import sys
from utils import *  # 假设 utils 模块包含辅助函数

定义 PAMAP 函数

def PAMAP(dataset_dir='./PAMAP2_Dataset/Protocol', WINDOW_SIZE=171, OVERLAP_RATE=0.5, SPLIT_RATE=(8, 2), VALIDATION_SUBJECTS={105}, Z_SCORE=True, SAVE_PATH=os.path.abspath('../../HAR-datasets')):

函数参数说明:

dataset_dir: 数据集目录

WINDOW_SIZE: 滑窗大小

OVERLAP_RATE: 滑窗重叠率

SPLIT_RATE: 训练集与验证集的比例

VALIDATION_SUBJECTS: 留一法验证集的受试者编号

Z_SCORE: 是否进行 Z-score 标准化

SAVE_PATH: 预处理后数据的保存路径

读取和处理数据

for file in os.listdir(dataset_dir):# 解析文件名获取受试者 IDsubject_id = int(file.split('.')[0][-3:])# 读取数据content = pd.read_csv(os.path.join(dataset_dir, file), sep=' ', usecols=[1]+[*range(4,16)]+[*range(21,33)]+[*range(38,50)])# 数据插值content = content.interpolate(method='linear', limit_direction='forward', axis=0).to_numpy()# 降采样data = content[::3, 1:]  # 数据label = content[::3, 0]  # 标签# 去除无效类别data = data[label != 0]label = label[label != 0]# 滑窗处理cur_data = sliding_window(array=data, windowsize=WINDOW_SIZE, overlaprate=OVERLAP_RATE)

这段代码首先遍历数据集目录中的每个文件,然后读取有效列的数据,并进行线性插值、降采样和滑窗处理。

数据分割

if VALIDATION_SUBJECTS and subject_id in VALIDATION_SUBJECTS:# 留一法,当前受试者为验证集xtest += cur_dataytest += [category_dict[label[0]]] * len(cur_data)
else:# 平均法,根据比例分割训练集和验证集trainlen = int(len(cur_data) * SPLIT_RATE[0] / sum(SPLIT_RATE))testlen = len(cur_data) - trainlenxtrain += cur_data[:trainlen]xtest += cur_data[trainlen:]ytrain += [category_dict[label[0]]] * trainlenytest += [category_dict[label[0]]] * testlen

根据是否采用留一法或平均法,将数据分割为训练集和验证集。

数据标准化

if Z_SCORE:xtrain, xtest = z_score_standard(xtrain=xtrain, xtest=xtest)

如果需要,对数据进行 Z-score 标准化。

数据保存

if SAVE_PATH:save_npy_data(dataset_name='PAMAP2',root_dir=SAVE_PATH,xtrain=xtrain,xtest=xtest,ytrain=ytrain,ytest=ytest)

将预处理后的数据保存为 .npy 文件。

训练结果

经过对数据集训练之后,我们发现结果并不尽如人意, CNN模型在PAMAP2数据集上的准确率不足80%!这对于实验来说是非常失败的!

PAMAP2数据集虽然是一个宝贵的资源,但在实际应用中,数据集的完整性和一致性对于训练有效的人体活动识别(HAR)模型至关重要,缺失数据会降低模型的泛化能力和准确性,我们观察发现其数据中很多为NaN的缺失情况:

在这里插入图片描述

在现实世界中,尤其是在移动设备或可穿戴设备收集的人体活动监测数据中,数据缺失是一个常见问题。这可能是由于传感器故障、电池耗尽、用户未正确佩戴设备等原因造成的。这时我们可通过生成对抗网络(GAN)来模拟缺失数据,提高模型对未见数据的泛化能力。

三、生成对抗网络(GAN)模拟缺失数据

在这里插入图片描述

GAN由两部分组成:生成器(Generator)和判别器(Discriminator)。生成器的目标是产生逼真的数据,而判别器的目标是区分生成的数据和真实的数据。

生成器架构:通常包含若干层转置卷积(用于数据的上采样)和批量归一化层。在HAR数据集中,生成器将学习如何填补缺失的传感器数据。

class Generator(nn.Module):def __init__(self, input_size, output_size):super(Generator, self).__init__()self.main = nn.Sequential(nn.Linear(input_size, 128),nn.LeakyReLU(0.2, inplace=True),nn.Linear(128, 256),nn.LeakyReLU(0.2, inplace=True),nn.Linear(256, output_size),nn.Tanh())def forward(self, noise):return self.main(noise)
  • 判别器架构:通常包含若干层卷积和池化层,以及全连接层,用于评估数据的真实性。
class Discriminator(nn.Module):def __init__(self, input_size):super(Discriminator, self).__init__()self.main = nn.Sequential(nn.Linear(input_size, 256),nn.LeakyReLU(0.2, inplace=True),nn.Linear(256, 128),nn.LeakyReLU(0.2, inplace=True),nn.Linear(128, 1),nn.Sigmoid())def forward(self, input):return self.main(input)

生成器和判别器在对抗过程中同时训练。生成器试图“欺骗”判别器,而判别器则不断学习以更好地区分真假数据,交替训练生成器和判别器,生成器产生数据,判别器评估数据并提供反馈。

class Autoencoder(nn.Module):def __init__(self, input_size, encoding_dim):super(Autoencoder, self).__init__()self.encoder = nn.Sequential(nn.Linear(input_size, encoding_dim),nn.ReLU(True),nn.Linear(encoding_dim, encoding_dim // 2),nn.ReLU(True))self.decoder = nn.Sequential(nn.Linear(encoding_dim // 2, encoding_dim),nn.ReLU(True),nn.Linear(encoding_dim, input_size),nn.Sigmoid())def forward(self, x):x = self.encoder(x)x = self.decoder(x)return x

GAN模型训练

选择PAMAP2数据集中的部分数据作为训练集,人为引入缺失值以模拟数据缺失情况,定义生成器和判别器的网络结构,选择合适的损失函数和优化器,执行生成器和判别器的对抗训练,调整超参数以获得最佳性能。

latent_dim = 100  # 潜在维度
generator = Generator(latent_dim, input_size)  # input_size 是数据的维度
discriminator = Discriminator(input_size)
criterion = nn.BCELoss()train_gan(generator, discriminator, dataloader, latent_dim, n_epochs=50, batch_size=64)

对PAMAP2数据集进行预处理,包括归一化和去除无关特征,设计自编码器的编码器和解码器部分,选择合适的层数和神经元数量,训练自编码器并使用其编码器部分提取特征,这些特征随后用于HAR模型的训练。

encoding_dim = 64  # 编码维度
autoencoder = Autoencoder(input_size, encoding_dim)train_autoencoder(autoencoder, dataloader, n_epochs=50, batch_size=64)

经过GAN和自编码器来增强过的PAMAP2数据集,很多为NaN缺失的数据已经变成了正常的数据:
在这里插入图片描述

四、训练结果

  • 使用增强后的数据集训练HAR模型,并评估其性能;

1.评估及结果展示

具体评估代码:

# 计算评估指标
accuracy = accuracy_score(all_labels, all_preds)
report = classification_report(all_labels, all_preds, output_dict=True, zero_division=1)
precision = report['weighted avg']['precision']
recall = report['weighted avg']['recall']
f1_score = 2 * precision * recall / (precision + recall)
# 计算推理时间
inference_end_time = time.time()
inference_time = inference_end_time - inference_start_time# 打印结果
print(f'Epoch: {i}, Train Loss: {loss}, Test Acc: {accuracy:.4f},Precision: {precision:.4f}, Recall: {recall:.4f}, F1 Score: {f1_score:.4f}, Inference Time: {inference_time:.4f} seconds')

结果展示:

image.png

模型名称准确率(Accuracy)精确率(Precision)召回率(Recall)F1分数(F1-score)参数量(Parameters)推理时间(Inference Time)
CNN0.90670.91210.90670.90947403640.00060.6517

通过比较使用原始数据集和增强数据集训练的模型,可以验证GAN在模拟缺失数据方面的效果非常好,CNN模型在PAMAP2数据集上表现出色,准确率达到了90.67%,并且具有均衡的精确率(91.21%)、召回率(90.67%)和F1分数(90.94%),同时模型参数量为740364,推理时间仅为0.6517毫秒,显示出了高效的实时预测能力。

2.可视化结果展示

混淆矩阵图

混淆矩阵是一个非常重要的工具,它可以展示模型在各个类别上的性能,特别是错误分类的情况。

conf_matrix = confusion_matrix(all_labels, all_preds, normalize='true')
# print(conf_matrix)# 自定义类别标签列表
class_labels = ['Lying', 'Sitting', 'Standing', 'Walking', 'Running', 'Cycling','Nordic walking','Ascending stairs','Descending stairs','Vacuum cleaning','Ironing','Rope jumping']plt.figure(figsize=(12, 12))  # 可以根据需要调整这里的值
# 使用 seaborn 的 heatmap 函数绘制归一化的混淆矩阵
ax = sns.heatmap(conf_matrix, annot=True, fmt='.4f', cmap='Blues',xticklabels=class_labels, yticklabels=class_labels,square=True, linewidths=.5)# 确保 x 轴和 y 轴的标签是字符串类型
ax.set_xticklabels(class_labels, rotation=45)
ax.set_yticklabels(class_labels)

image.png

雷达图

雷达图可以展示模型在多个维度上的性能:

fig, ax = plt.subplots(figsize=(12, 12), subplot_kw=dict(polar=True))# 绘制每个行为的雷达图
ax.plot(angles, beh, linestyle='-', linewidth=2)
ax.fill(angles, beh, alpha=0.25)# 设置雷达图的刻度和标签
ax.set_xticks(angles)
#ax.set_xticklabels(['Walking', 'Walking Upstairs', 'Walking Downstairs', 'Sitting', 'Standing', 'Laying'])
ax.set_xticklabels(['Lying', 'Sitting', 'Standing', 'Walking', 'Running', 'Cycling','Nordic walking','Ascending stairs','Descending stairs','Vacuum cleaning','Ironing','Rope jumping'])

image.png

仿真指标柱状图

柱状图可以用于展示各个类别的精确率,帮助我们快速识别模型在哪些类别上表现更好或需要改进:

class_labels = ['Lying', 'Sitting', 'Standing', 'Walking', 'Running', 'Cycling','Nordic walking','Ascending stairs','Descending stairs','Vacuum cleaning','Ironing','Rope jumping']# 计算每个类别的精确率
precisions = {}
for label in unique_labels:# 为当前类别创建一个二进制的标签数组y_true = np.where(all_labels == label, 1, 0)y_pred = np.where(all_preds == label, 1, 0)precision = precision_score(y_true, y_pred, average='binary')precisions[label] = precision

image.png

通过这种方式,GAN不仅解决了数据缺失的问题,还提高了数据集的质量和多样性,从而为训练更准确、更鲁棒的HAR模型提供了支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/883010.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PPT一键合并单元格!2个实用办公技巧,助力轻松搞定ppt!

我们都知道,ppt是一个多元的内容呈现媒介,我们可以在ppt中插入文字、图片、视频、音频和表格等,每种元素起到不同的作用,彼此间相得益彰。对于PPT中的表格,有时需要进行合并单元格的操作,即多合一&#xff…

校园建筑用电安全监测装置 电气火灾监测预防设备功能介绍

在现代建筑中,电气火灾监测装置的作用越来越重要。随着建筑规模的扩大和电气设备的多样化,电气火灾的风险也随之增加。因此,建立有效的火灾监测和预警系统,对于保护人身安全和财产安全显得尤为关键。 电气火灾指由电气故障引发的…

【Spring篇】Spring的Aop详解

🧸安清h:个人主页 🎥个人专栏:【计算机网络】【Mybatis篇】【Spring篇】 🚦作者简介:一个有趣爱睡觉的intp,期待和更多人分享自己所学知识的真诚大学生。 目录 🎯初始Sprig AOP及…

【C++】哈希表的模拟实现

目录 一、闭散列(开放定址定法) 1、哈希表的结构: 2、哈希表的插入: 3、哈希表的查找: 4、哈希表的删除: 二、开散列(哈希桶) 1、哈希表的结构: 2、构造与析构&a…

常用shell指令

这些指令通常在adb shell环境中使用,或者通过其他方式(如SSH)直接在设备的shell中使用。 文件操作命令 ls:列出目录的内容 ls /sdcard cd:改变目录 cd /sdcard/Download pwd:打印当前工作目录 pwd cat&…

自动化抖音点赞取消脚本批量处理

🌟 前言 欢迎来到我的技术小宇宙!🌌 这里不仅是我记录技术点滴的后花园,也是我分享学习心得和项目经验的乐园。📚 无论你是技术小白还是资深大牛,这里总有一些内容能触动你的好奇心。🔍 &#x…

centos7 nginx优化

优化nginx进程个数的策略 在高并发、高访问量的web服务场景,需要事先启动好更多的nginx进程,以保证快速响应并处理大量并发用户的请求。worker_processes 1;一般调整到与CPU的颗数相同查看LInux可查看CPU个数及总核数grep processor /proc/cpuinfo|wc …

手机摄影入门

感觉会摄影的人是能够从生活中发现美的人。 我不太会拍照,觉得拍好的照片比较浪费时间,而且缺乏审美也缺乏技巧,所以拍照的时候总是拍不好。但有时候还是需要拍一些好看的照片的。 心态和审美可能需要比较长时间提升,但一些基础…

在不支持AVX的linux上使用PaddleOCR

背景 公司的虚拟机CPU居然不支持avx, 默认的paddlepaddle的cpu版本又需要有支持avx才行,还想用PaddleOCR有啥办法呢? 是否支持avx lscpu | grep avx 支持avx的话,会显示相关信息 如果不支持的话,python运行时导入paddle会报错 怎么办呢 方案一 找公司it,看看虚拟机为什么…

重学SpringBoot3-Spring WebFlux之HttpHandler和HttpServer

更多SpringBoot3内容请关注我的专栏:《SpringBoot3》 期待您的点赞👍收藏⭐评论✍ 重学SpringBoot3-Spring WebFlux之HttpHandler和HttpServer 1. 什么是响应式编程?2. Project Reactor 概述3. HttpHandler概述3.1 HttpHandler是什么3.2 Http…

有什么牌子的学生台灯性价比高?五款性价比高的学生用台灯

最近不少朋友都在问我,有什么牌子的学生台灯性价比高?说实话,这还真不是个容易回答的问题。市面上的台灯品种琳琅满目,价格从几十到上千都有,功能也是五花八门。选择一款适合自己的护眼台灯,确实需要好好琢…

深度学习中的迁移学习:优化训练流程与提高模型性能的策略,预训练模型、微调 (Fine-tuning)、特征提取

1024程序员节 | 征文 深度学习中的迁移学习:优化训练流程与提高模型性能的策略 目录 🏗️ 预训练模型:减少训练时间并提高准确性🔄 微调 (Fine-tuning):适应新任务的有效方法🧩 特征提取:快速…

Flink 1.18安装 及配置 postgres12 同步到mysql5.7(Flink sql 方式)

文章目录 1、参考2、flink 常见部署模式组合3、Standalone 安装3.1 单节点安装3.2 问题13.3 修改ui 端口3.4 使用ip访问 4 flink sql postgres --->mysql4.1 配置postgres 124.2 新建用户并赋权4.3. 发布表4.4 Flink sql4.5 Could not find any factory for identifier post…

深度学习到底是怎么实现训练模型的(以医学图像分割为例

本文主要讲解的主要不是深度学习训练模型过程中的数学步骤,不是讲: 输入——前向传播——反向传播——输出,特征提取,特征融合等等过程。而是对于小白或者门外汉来说,知道模型怎么处理的,在用些什么东西&am…

推荐几个好用的配色网站

1.ColorSpace 地址:ColorSpace - Color Palettes Generator and Color Gradient Tool Color Space 是款功能强大的渐变色在线生成器,支持单色、双色,甚至三色渐变。 进入首页,输入一个颜色,点击 GENERATE&#xff08…

从一个简单的计算问题,看国内几个大语言模型推理逻辑能力

引言 首先,来看问题: 123456*987654等于多少,给出你计算的过程。 从openai推出chatgpt以来,大模型发展的很快,笔者也经常使用免费的大语言模型辅助进行文档编写和编码工作。大模型推出时间也好久了,笔者想…

autMan框架的定时推送功能学习

一、定时推送功能简介 “定时推送”位于“系统管理”目录 主要有两个使用方向: 一是定时向某人或某群发送信息。 二是定时运行某指令,就是机器人给自己发指令,让自己运行此指令。 二、定时推送设置 定时:cron表达式,…

Java 21新特性概述

Java 21于2023年9月19日发布,这是一个LTS(长期支持)版本,到此为止,目前有Java 8、Java 11、Java 17和Java 21这四个LTS版本。 Java 21此次推出了15个新特性,本节就介绍其中重要的几个特性: JEP…

Ubuntu20.04安装ROS2教程

Ubuntu20.04安装ROS2教程 ROS 2 安装指南支持的ROS 2 版本设置语言环境(Set locale)设置源(Setup Sources)设置密钥安装 ROS 2 包(Install ROS 2 packages)环境设置(Environment setup&#xff…

java--反射(reflection)

一、反射机制 Java Reflection (1)反射机制允许程序在执行期借助 Reflection API 取得任何类的内部信息(比如成员变量、构造器、成员方法等等),并能操作对象的属性及方法。反射在设计模式和框架底层都会用到。&#x…