2025年泰迪杯数据挖掘竞赛B题论文首发+问题一二三四代码分享

图片

基于穿戴装备的身体活动监测

摘要

随着科技的进步,加速度计,能够实时、准确地捕捉人体的动态变化,成为医学应用中的一个重要工具。本文将基于题目收集数据进行相关研究。

针对题目给出的数据集,我们首先进行数据清洗工作。首先利用df[df.isna().any(axis=1)]筛选含缺失值的行,并对所在行进行删除处理。对于处理后的结果,我们利用通过文献查询的理论存在极值,设定阈值进行异常值判定并删除其所在行。

针对问题一,单一利用时间差计算持续时间消耗资源太大,这里通过分析数据可以看出数据的采样率为100 Hz。因此,我们对最后MET值中不同类型进行计频处理。根据频数推算持续各状态的持续时间。

针对问题二,将处理后的数据集,进行合并为一个完整的数据集作为训练数据集,性别 (Sex)和年龄(Age)为类别变量,加速度计数据作为输入数据,MET值作为输出数据,引入随机森林回归器、随机森林、支持向量机、多层感知机、GBDT进行训练模型,并利用RMSE对模型精度进行评估。则取精度最高的模型进行预测。基于得到的结果利用问题二中频数方式计算持续时长。

对于问题三,基于可穿戴设备采集的加速度计数据,旨在对个体睡眠状态进行阶段性识别。将所有数据进行汇总,并从中筛选出MET<1.0的数值,保证选取的数据集中包含与睡眠相关的测量。聚类模型对个体睡眠阶段进行智能识别,利用肘部法则自动寻优。构建智能识别模型,并进行应用。

针对问题四,基于加速度计数据的久坐行为健康预警方法。以附件2中志愿者加速度计数据作为输入,其中每条记录包含时间戳和经预测得到的MET值(MET_Pred)。通过计算相邻记录预测值的变化量来划分“段”(segment)。设置为排除短时的静止状态,仅考虑持续超过30分钟的行为段;久坐状态对应的MET值区间设定为[1.0,1.6]。并提取时域特征对于每个志愿者数据集,依照上述分段和久坐判定规则,识别出所有符合条件的连续久坐段。

关键词:近地小行星轨道预测、开普勒定律、最小二乘法、

5.1 数据预处理

针对题目给出的数据集,我们首先进行数据清洗工作。首先利用df[df.isna().any(axis=1)]筛选含缺失值的行,并对所在行进行删除处理。对于处理后的结果,我们利用通过文献查询的理论存在极值,设定阈值进行异常值判定并删除其所在行。


5.1.1 描述性分析

首先,我们利用给出的数据,进行给出数据特征的初步选择。

图片

从图表来看,X、Y和Z轴的波动程度有所不同,这可能与志愿者在该时段进行的不同活动类型相关。例如,较大的波动通常意味着较为剧烈的运动,而较小的波动则可能表明志愿者处于较为静止的状态。

5.1.2 缺失值处理

在本研究中,我们利用可穿戴设备采集的加速度计数据,旨在实现对个体运动状态的实时监测和后续健康行为分析。原始数据存储于CSV格式文件中,其中记录了时间戳和对应的三轴加速度值(X,Y,Z轴),这些数据反映了个体在空间中各个方向上的加速度信息。为保证数据处理的准确性和后续模型的鲁棒性,首先对数据进行预处理。预处理主要包括:

1.缺失值检查与清洗
由于实际采集过程中可能存在数据丢失或异常情况,通过统计每个变量(time, )的缺失值个数,确定数据中存在缺失的记录。对于出现缺失值的行,采用剔除策略确保分析数据均为有效观测值。数学上,经过缺失值处理的数据集记为

图片

2.数据采样
考虑到连续采集的数据样本量巨大,为了降低可视化绘图与后续数据分析的计算成本,在保证数据整体趋势不丢失的前提下,采取均匀采样策略。具体方法为每隔固定步长(例如每100个样本取一个数据点),构造采样数据集:

图片

5.1.3 异常值处理

阈值处理:查阅文献,找到理论存在X Y Z方向加速度最大值,将该值设定为阈值超过该数据的认定为异常数据,方便起见直接删除处理。

传感器量程

最大可记录加速度(每轴)

±2g

约 ±2 × 9.8 = ±19.6 m/s²

±4g

约 ±4 × 9.8 = ±39.2 m/s²

±8g

约 ±8 × 9.8 = ±78.4 m/s²

±16g

约 ±16 × 9.8 = ±156.8 m/s²

理论上,根据牛顿第二定律以及地球重力加速度的参考值,常见的加速度值应落于合理范围内。在本研究中,将 
 作为加速度的理论上界(约为 2 倍标准重力加速度,即 ),以此为阈值检测异常数据。对于任一数据点,当任一方向上的加速度满足:

5.2 统计分析模型

对于问题一,单一利用时间差计算持续时间消耗资源太大,这里通过分析数据可以看出数据的采样率为100 Hz。因此,我们对最后MET值中不同类型进行计频处理。根据频数推算持续各状态的持续时间。

5.2.1 活动时长计量

针对每个志愿者(标识为P001至P100)的数据文件,本研究首先利用数据读取工具导入CSV数据,其中至少包含一个描述活动类型的"annotation"列。借助正则表达式提取每条记录中的MET数值,确保后续分类操作的准确性。

在分析过程中,将每个活动注解的出现频次视为该活动持续的时间片段。假定数据的采样率为 100 Hz ,即每 100 个连续记录视为 1 秒内的采样(或换算后为固定的时间长度),从而每个活动类型的频次累计可用于估算总持续时间。用数学表达式表示,若设对某一特定活动类型 
 的出现次数为 
 ,则活动持续时间(单位为秒)为:

图片

类型名称

出现次数

7030 sleeping;MET 0.95

3810002 次

home activity;eating;13030 eating sitting alone or with someone;MET 1.5

74004 次

home activity;household chores;preparing meals/cooking/washing dishes;5035 kitchen activity general cooking/washing/dishes/cleaning up;MET 3.3

954511 次

home activity;miscellaneous;sitting;11580 office work such as writing and typing (with or without eating at the same time);MET 1.5

144105 次

home activity;miscellaneous;sitting;9055 sitting/lying talking in person/using a mobile phone/smartphone/tablet or talking on the phone/computer (skype chatting);MET 1.5

308709 次

home activity;miscellaneous;sitting;9060 sitting/lying reading or without observable/identifiable activities;MET 1.3

338112 次

home activity;miscellaneous;standing;9050 standing talking in person on the phone/computer (skype chatting) or using a mobileo phone/smartphone/tablet;MET 1.8

7501 次

home activity;miscellaneous;standing;9050 standing talking in person/on the phone/computer (skype chatting) or using a mobile phone/smartphone/tablet;MET 1.8

49103 次

ID

TotalTime

SleepTime

HighIntensityTime

ModerateIntensityTime

LowIntensityTime

StaticActivityTime

P001

24.7159

10.5833

0

3.7303

3.0009

7.4013

P002

16.1406

6.25

0.3567

1.1702

1.8108

6.5529

P003

20.5242

6.6667

0

6.7723

2.7376

4.3476

P004

18.9362

6.5

0

2.5809

3.1359

6.7194

P005

17.0661

4.3333

0

1.8884

3.9005

6.9439

图片

可以直观地看出各个受试者或各个时间段之间的MET差异。下方的柱状图则展示了不同强度运动时长的对比情况,橙色、红色、蓝色等不同颜色柱状分别代表高强度、中强度、低强度、静态或睡眠等类别,由此可以观察每个受试者或不同时间段内各活动类型所占用的时间比例,

5.3 MET 值估计模型

将处理后的数据集,进行合并为一个完整的数据集作为训练数据集,性别 (Sex)和年龄(Age)为类别变量,加速度计数据作为输入数据,MET值作为输出数据,引入随机森林回归器、随机森林、支持向量机、多层感知机、GBDT进行训练模型,并利用RMSE对模型精度进行评估。则取精度最高的模型进行预测。基于得到的结果利用问题二中频数方式计算持续时长。

图片

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/77203.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

国内AI搜索平台与ChatGPT横向对比分析

一、核心技术差异 1、‌百度文小言‌ 基于文心大模型4.0升级&#xff0c;主打“新搜索”能力&#xff0c;支持多模态输入&#xff08;语音、图片、视频&#xff09;和富媒体搜索结果‌。 独有的“记忆个性化”功能可结合用户历史行为优化回答&#xff0c;并在医疗、教育等垂直…

安卓环境搭建开发工具下载Gradle下载

1.安装jdk(使用java语言开发安卓app) 核心库 java.lang java.util java.sq; java.io 2.安装开发工具(IDE)android studio https://r3---sn-2x3elnel.gvt1-cn.com/edgedl/android/studio/install/2023.3.1.18/android-studio-2023.3.1.18-windows.exe下载完成后一步一步安装即…

Python 趣味学习 -数据类型脱口秀速记公式 [特殊字符]

&#x1f3a4; Python数据类型脱口秀速记公式 &#x1f40d; 1️⃣ 四大金刚登场 "Set叔(无序洁癖)、Tuple爷(顽固老头)、List姐(百变女王)、Dict哥(万能钥匙)"2️⃣ 特性对比RAP &#x1f3b6; 内存/作用域&#xff1a; 全局变量 → 函数内修改 → 可变(mutable)会…

单片机 | 基于51单片机的倾角测量系统设计

以下是一个基于51单片机的倾角测量系统设计详解,包含原理、公式和完整代码: 一、系统原理 核心器件:MPU6050(集成3轴加速度计+陀螺仪) 主控芯片:STC89C52RC(51单片机) 显示模块:LCD1602液晶 工作原理: 通过MPU6050采集XYZ三轴加速度数据,利用重力加速度分量计算俯仰…

2025年4月16日华为留学生笔试第二题200分

📌 点击直达笔试专栏 👉《大厂笔试突围》 💻 春秋招笔试突围在线OJ 👉 笔试突围OJ 02. 图书馆借阅管理系统 问题描述 卢小姐是一家大学图书馆的管理员,她需要开发一个简单的图书借阅管理系统来处理日常的图书流通操作。系统需要支持以下四种操作: in s:表示一本…

Linux通用一键换源脚本.sh - ubuntu、centos全自动更换国内源 - LinuxMirrors神器

效果 脚本 bash <(curl -sSL https://linuxmirrors.cn/main.sh) 来自 https://linuxmirrors.cn/ 截图 ending...

【Unity】JSON数据的存取

这段代码的结构是为了实现 数据的封装和管理&#xff0c;特别是在 Unity 中保存和加载玩家数据时。以下是对代码设计的逐步解释&#xff1a; 1. PlayerCoin 类 PlayerCoin 是一个简单的数据类&#xff0c;用于表示单个玩家的硬币信息。它包含以下字段&#xff1a; count&…

python实现音视频下载器

一、环境准备 确保当前系统已安装了wxPython 、 yt-dlp 和FFmpeg。当前主要支持下载youtube音视频 1、安装wxPython pip install wxPython2、安装yt-dp pip install wxPython yt-dlp3、安装FFmpeg 在Windows 10上通过命令行安装FFmpeg&#xff0c;最简便的方式是使用包管理…

使用 vxe-table 来格式化任意的金额格式,支持导出与复制单元格格式到 excel

使用 vxe-table 来格式化任意的金额格式&#xff0c;支持导出与复制单元格格式到 excel 查看官网&#xff1a;https://vxetable.cn gitbub&#xff1a;https://github.com/x-extends/vxe-table gitee&#xff1a;https://gitee.com/x-extends/vxe-table 安装 npm install vx…

知识图谱 数据准备

任何类型的数据格式都可以用于构建知识图谱&#xff0c;只要能够从中提取出实体&#xff08;Entities&#xff09;、关系&#xff08;Relationships&#xff09;和属性&#xff08;Attributes&#xff09;。但实际操作中&#xff0c;不同数据格式的处理难度、工具支持和效率差异…

Docker 设置镜像源后仍无法拉取镜像问题排查

#记录工作 Windows系统 在使用 Docker 的过程中&#xff0c;许多用户会碰到设置了国内镜像源后&#xff0c;依旧无法拉取镜像的情况。接下来&#xff0c;记录了操作要点以及问题排查方法&#xff0c;帮助我们顺利解决这类问题。 Microsoft Windows [Version 10.0.27823.1000…

如何对Flutter应用程序进行单元测试

Flutter单元测试完全指南&#xff1a;从基础到高级实践 面试求职资源 面试试题小程序&#xff1a;涵盖测试基础、Linux操作系统、MySQL数据库、Web功能测试、接口测试、APPium移动端测试、Python知识、Selenium自动化测试相关、性能测试、计算机网络知识、Jmeter、HR面试等内…

go中我遇到的问题总结

go问题总结 1 - go中的nil等于java中的null吗 在 Go 和 Java 中,nil 和 null 都用于表示“空值”,但它们的实现和使用方式有所不同。 以下是 Go 中的 nil 和 Java 中的 null 之间的对比: 1. Go 中的 nil 在 Go 中,nil 是一个预定义的常量,表示零值。它的行为根据数据类…

【android telecom 框架分析 01】【基本介绍 2】【BluetoothPhoneService为何没有源码实现】

1. 背景 我们会在很多资料上看到 BluetoothPhoneService 类&#xff0c;但是我们在实际 aosp 中确找不到具体的实现&#xff0c; 这是为何&#xff1f; 这是一个很好的问题&#xff01;虽然在车载蓝牙电话场景中我们经常提到类似 BluetoothPhoneService 的概念&#xff0c;但…

微机控制电液伺服汽车减震器动态试验系统

微机控制电液伺服汽车减震器动态试验系统&#xff0c;用于对汽车筒式减震器、减震器台架、驾驶室减震装置、发动机悬置软垫总成、发动机前置楔形支撑总成等的示功图试验、速度特性试验。 主要的技术参数&#xff1a; 1、最大试验力&#xff1a;5kN&#xff1b; 2、试验力测量精…

STM32+dht11+rc522+jq8400的简单使用

1.dht11的使用 硬件&#xff1a;3v3&#xff0c;gnd&#xff0c;data数据线接一个gpio&#xff0c;三根线即可 软件&#xff1a; ①dht11.c #include "dht11.h" #include "delay.h" #include "stdbool.h"static STRUCT_DHT11_TYPEDEF dht11;…

AOSP的Doze模式-DeepIdle 初识

前言 从Android 6.0开始&#xff0c;谷歌引入了Doze模式(打盹模式)的省电技术延长电池使用时间。如果用户长时间未使用设备&#xff0c;低电耗模式会延迟应用后台 CPU 和网络活动&#xff0c;从而延长电池续航时间。根据第三方测试显示&#xff0c;两台同样的Nexus 5&#xff…

用Python Pandas高效操作数据库:从查询到写入的完整指南

一、环境准备与数据库连接 1.1 安装依赖库 pip install pandas sqlalchemy psycopg2 # PostgreSQL # 或 pip install pandas sqlalchemy pymysql # MySQL # 或 pip install pandas sqlalchemy # SQLite 1.2 创建数据库引擎 通过SQLAlchemy创建统一接口&#xff1a…

每日一题(小白)暴力娱乐篇31

首先分析一下题意&#xff0c;需要求出2024的因子&#xff0c;因为我们要求与2024互质的数字&#xff0c;为什么呢&#xff1f;因为我们要求互质说直白点就是我和你两个人没有中间人&#xff0c;我们是自然而然认识的&#xff0c;那我们怎么认识呢&#xff0c;就是直接见面对吧…

电控---printf重定向输出

在嵌入式系统开发中&#xff0c;printf 重定向输出是将标准输出&#xff08;stdout&#xff09;从默认设备&#xff08;如主机终端&#xff09;重新映射到嵌入式设备的特定硬件接口&#xff08;如串口、LCD、USB等&#xff09;的过程。 一、核心原理&#xff1a;标准IO库的底层…