城市行人感知新方法:基于音频的行人检测与预测

       智慧城市的重要组成部分之一是部署传感器技术来监控和控制城市的各种服务和功能。城市使用各种传感器来评估城市服务的提供和获取方式,这有助于缓解瓶颈问题,并提前预警潜在的服务中断。了解城市服务需求的时间和空间变化有助于更好的资源利用、更公平的服务提供以及更大的可持续性和弹性。目前,各种传感器已经部署在城市环境中,特别是在交通领域,也用于监测环境条件、能源、水和废物的流动,以及追踪犯罪活动。随着对主动移动性和步行友好性的日益关注,一些城市已经尝试使用各种技术来感知人群。

     行人的检测主要基于视频数据分析或通过红外计数器进行这两者都比音频传感昂贵得多。有时考虑用于行人感知的更复杂的替代方案,如雷达、无线电波束、感应线圈和压电条,部署和维护成本也很高。在本文中,我们探讨将基于麦克风的传感器与为分析高度复杂的音乐音频信号而开发的方法相结合,以适应行人感知的潜力。

1 行人检测技术

早期行人检测主要依靠人工计数或视频监控。随着计算机视觉和机器学习技术的快速发展,行人检测技术取得了巨大进步,从基于传统图像处理方法的特征提取和分类,发展到基于深度学习的端到端检测模型,例如卷积神经网络(CNN)和循环神经网络(RNN)等。

1.1 现有行人检测技术

  • 基于视频的行人检测: 这是最常用的行人检测技术,通过分析视频帧中的图像信息,识别和追踪行人。常见的算法包括:

      目标检测算法: 例如 YOLO、SSD、Faster R-CNN 等,可以识别图像中的行人位置和数量。

      目标跟踪算法: 例如卡尔曼滤波、粒子滤波、深度学习跟踪算法等,可以追踪行人在视频中的运动轨迹。

      行人再识别算法: 例如 Siamese 网络、Triplet 损失等,可以识别和匹配不同摄像头下同一行人。

  • 基于红外线的行人检测: 利用红外线传感器检测人体发出的热量,从而识别行人的存在。常见的红外线传感器包括主动式和被动式红外线传感器。
  • 基于雷达的行人检测: 利用雷达波反射原理检测行人的存在和运动。常见的雷达传感器包括毫米波雷达和超声波雷达。
  • 基于音频的行人检测: 利用麦克风收集声音信息,识别行人的脚步声、说话声等,从而判断行人的存在和位置。近年来,基于音频的行人检测技术逐渐兴起,并展现出巨大的潜力。

1.2 不同行人检测技术的优缺点

1.2.1 基于视频的行人检测

  • 优点:检测精度高,可以识别行人的位置、数量、运动轨迹等信息。
  • 缺点:受光照、遮挡、视角等因素影响较大,需要大量的标注数据,计算量大。

1.2.2 基于红外线的行人检测

  • 优点:不受光照影响,成本较低。
  • 缺点:检测精度较低,容易受到环境温度、湿度等因素的影响。

1.2.3 基于雷达的行人检测

  • 优点:不受光照、遮挡等因素影响,可以穿透部分障碍物。
  • 缺点:成本较高,受天气等因素影响较大。

1.2.4 基于音频的行人检测

  • 优点:成本低,不受光照、遮挡等因素影响,可以捕捉到其他传感器难以检测到的信息。
  • 缺点:检测精度较低,容易受到环境噪声等因素的影响。

2 行人流动预测

行人流动预测是城市规划和管理中的一个关键领域,它涉及使用数据分析和模型来预测在特定时间和地点的行人数量和流向。行人流动预测对于城市规划、交通管理、公共安全等方面具有重要意义。它可以帮助我们:

  • 优化交通规划: 通过预测行人流量,可以更好地设计道路、人行道和公共空间,确保交通流畅,减少拥堵。
  • 提升公共安全: 预测人群聚集的区域,可以提前采取安全措施,防止踩踏事件等安全事故的发生。
  • 改善公共设施: 了解人们在不同时间和地点的活动规律,可以更好地配置公共设施,如垃圾桶、座椅等,提升城市品质。
  • 灾害管理: 在发生地震、火灾等灾害时,预测人群流动方向,可以更好地进行疏散和救援。

2.1 行人流动预测的挑战

  • 数据获取: 获取大规模、高精度的人流数据仍然是一个挑战。传统的数据采集方法,如人工计数、红外传感器等,存在成本高、效率低等问题。
  • 数据复杂性: 行人流动受到多种因素的影响,如天气、时间、地点、活动等,这使得预测模型的设计和训练变得复杂。
  • 模型泛化: 现有的行人流动预测模型大多针对特定场景进行训练,如何提升模型的泛化能力,使其能够适应不同的环境和场景,是一个重要的研究方向。

2.2 基于音频的行人流动预测

基于音频的行人流动预测主要分为以下几个步骤:

  • 音频采集: 使用音频传感器采集周围环境的音频数据。
  • 音频预处理: 对采集到的音频数据进行预处理,例如去除噪声、增强行人声音等。
  • 行人检测: 利用深度学习模型分析音频数据,识别行人的存在。常见的行人检测方法包括:

特征提取: 从音频数据中提取特征,例如梅尔频谱图、倒谱系数等。

模型训练: 使用行人数据训练深度学习模型,例如卷积神经网络 (CNN) 等。

行人识别: 利用训练好的模型对音频数据进行预测,识别行人的存在。

  • 行人行为预测: 根据行人检测的结果,预测行人行为,例如行人数量、行人轨迹等。常见的行人行为预测方法包括:

统计模型: 建立统计模型,例如泊松回归模型,预测行人数量。

深度学习模型: 使用深度学习模型,例如循环神经网络 (RNN) 等,预测行人轨迹。

2.3 数据集ASPED

Audio Sensing for PEdestrian Detection(ASPED)作为一系列实验的基础,这些实验探索了音频传感用于行人检测的可能性。

官网地址:ASPED Dataset

2.3.1 数据集硬件环境

  • 音频数据收集使用Tascam DR-05X录音机和充电宝以延长录音时间,Saramonic SR-XM1麦克风以避免Tascam内置麦克风的射频干扰问题,以及5L OverBoard Dry Flat Bags进行防水处理,同时保持音频渗透性。
  • 视频数据收集:使用GoPro HERO9 Black摄像机,并配有USB直通门。

2.3.2 数据集特点

  • 规模大: 包含超过 2,600 小时的音频数据和 3,406,229 个视频帧。
  • 场景多样: 数据来自校园环境,包含不同的时间段和天气条件。
  • 标注精细: 每个视频帧都标注了行人数量,并且标注了行人是否位于不同半径的缓冲区内。
  • 数据不平衡: 大部分时间没有行人靠近麦克风,导致数据不平衡。

2.3.3 数据集存在的问题

  • 场景单一: 数据主要来自校园环境,缺乏城市环境的复杂性。
  • 数据不平衡: 大部分时间没有行人靠近麦克风,导致数据不平衡

3 结论

3.1 行人检测结果

  • 模型性能: 实验结果表明,使用音频编码器 (CONV 和 AST) 训练的模型在行人检测任务上优于预训练的 VGGish 模型。
  • 距离影响: 行人检测的准确率随着距离的增加而下降,在距离麦克风 3 到 6 米时准确率最高。
  • 信号强度影响: 模型对行人数量阈值较敏感,训练时使用低阈值、测试时使用高阈值可以获得更好的性能,表明模型能够更好地检测到行人信号较强的样本。

3.2 行人流预测结果

在预测四个半径级别(1米、3米、6米和9米)周围的行人数量时,预测准确率如表所示

  • 预测准确率: 使用 CNN 模型可以有效地预测不同半径范围内的行人数量,预测准确率随距离的增加而下降。
  • 滑动窗口方法: 可以使用滑动窗口方法进行短期行人流预测,但该方法的有效性受限于时间范围。

3.3 结果的意义

  • 基于音频的行人预测技术具有可行性,可以用于获取行人行为数据。
  • 需要进一步改进音频处理算法和深度学习模型,提高行人检测和行人流预测的准确率。
  • 需要收集更多城市环境下的数据,提升模型的泛化能力。

3.4 未来的研究方向

  • 开发更精确的特征提取方法,例如使用端到端训练的深度学习模型。
  • 研究数据增强技术,解决数据不平衡问题。
  • 探索更先进的行人流预测模型,例如使用图卷积网络 (GCN)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/29400.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ionic 项目通过 android studio 打开报错 capacitor.settings.gradle 文件不存在

问题出现 原因分析 在程序相应的目录上面,没有找到对应的配置文件,但是这个文件不是我们自己生成的,而是通过 ionic 编译之后生成。 处理方案 先执行 ionic build,将 ionic 项目打包出来然后执行 npx cap sync 再使用 Android…

Financial Statement Analysis with Large Language Models论文精读

Financial Statement Analysis with Large Language Models 论文精读 文章目录 Financial Statement Analysis with Large Language Models 论文精读Abstract 核心速览研究细节baselineGPT与分析师对比人类分析师与 GPT 的互补性错误预测的来源增量信息增益 分析师出现偏差或分…

【YOLOv10改进[注意力]】在YOLOv10中使用注意力MLCA的实践+ 含全部代码和详细修改方式 + 手撕结构图 + 全网首发

本文将进行在YOLOv10中添加注意力MLCA的实践,助力YOLOv10目标检测效果的实践,文中含全部代码、详细修改方式以及手撕结构图。助您轻松理解改进的方法。 改进前和改进后的参数对比: 目录 一 MLCA 二 在YOLOv10中使用注意力MLCA的实践 1 整体修改

【CS.AL】算法核心之分治算法:从入门到进阶

文章目录 1. 概述2. 适用场景3. 设计步骤4. 优缺点5. 典型应用6. 题目和代码示例6.1 简单题目:归并排序6.2 中等题目:最近点对问题6.3 困难题目:分数背包问题 7. 题目和思路表格8. 总结References 1000.01.CS.AL.1.4-核心-DivedeToConquerAlg…

Python兴趣编程百例:手把手带你开发一个图片转字符图的小工具

在数字世界的无尽探索中,我们时常被那些看似平凡的技术所启发,它们如同星辰般点缀着我们的创意天空。今天,我突发奇想,想要用Python开发一个将图片转化为字符画的小工具。这不仅是一次技术的实践,更是一场艺术与科技的…

多客陪玩系统源码支持二次开发陪玩预约系统搭建,打造专业游戏陪玩平台

简述 随着电竞行业的快速发展,电竞陪玩APP正在逐渐成为用户在休闲娱乐时的首选。为了吸引用户和提高用户体验,电竞陪玩APP开发需要定制一些特色功能,并通过合适的盈利模式来获得收益。本文将为您介绍电竞陪玩APP开发需要定制的特色功能以及常…

LiveCharts2:简单灵活交互式且功能强大的.NET图表库

前言 之前的文章中提到过ScottPlot、与oxyplot,这两个是比较常用的.NET图表库,今天介绍一款新的.NET图表库:LiveCharts2。 LiveCharts2介绍 LiveCharts2 是一个现代化的数据可视化库,用于创建动态和交互式图表,支持…

一小时搞定JavaScript(2)——DOM与BOM的应用

前言,本篇文章是依据bilibili博主(波波酱老师)的学习笔记,波波酱老师讲的很好,很适合速成!!! 本篇文章会与java进行对比学习,因为JS中很多语法和java是相同的,所以大家最好熟悉Java语言后再来进行学习,效果更佳,见效更快. 文章目录 5.DOM和BOM5.1 DOM5.1.1传统元素获取5.1.2 C…

高考志愿填报,是选好专业,还是选好学校?过来人给你说说

分数限制下,选好专业还是选好学校? 到底是先选专业还是先选学校,是让考生及家长一直拿不准、辨不清的问题,是优先考虑学校还是专业,上了好学校,专业不喜欢就业前景不理想,怎么办?为…

【未来已来】AI大模型革命:向量数据库如何重塑智能世界?

在人工智能的浪潮中,向量数据库正成为推动AI大模型发展的幕后英雄。这不是简单的技术升级,而是一场关于智能未来的革命。本文将带您深入了解向量数据库如何成为AI大模型的核心竞争力,以及它如何助力我们在智能化的道路上加速前进。 向量数据库:AI大模型的心脏 想象一下…

vue echarts画多柱状图+多折线图

<!--多柱状图折线图--> <div class"echarts-box" id"multiBarPlusLine"></div>import * as echarts from echarts;mounted() {this.getMultiBarPlusLine() },getMultiBarPlusLine() {const container document.getElementById(multiBar…

图书管理系统代码(Java)

1、运行演示 QQ2024528-205028-HD 详细讲解在这篇博客&#xff1a;JavaSE&#xff1a;图书管理系统-CSDN博客 2、所建的包 3、Java代码 3.1 book包 3.1.1 Book类代码 package book;/*** Created with IntelliJ IDEA.* Description:* User: dings* Date: 2024-05-13* Time:…

押注“人类终极能源”!OpenAI与核聚变公司Helion Energy洽谈“购买大量”聚变能源

内容提要 在当下&#xff0c;由 AI 引发的新一轮能源危机已经不再是一个小概率的“黑天鹅”事件&#xff0c;而是一头正在向我们猛冲而来的“灰犀牛”。 文章正文 Helion Energy&#xff0c;是一家总部位于美国华盛顿州埃弗雷特的能源创业公司。 这家成立于 2013 年的公司在…

安卓实现圆形按钮轮廓以及解决无法更改按钮颜色的问题

1.实现按钮轮廓 在drawable文件新建xml文件 <shape xmlns:android"http://schemas.android.com/apk/res/android"<!--实现圆形-->android:shape"oval"><!--指定内部的填充色--><solid android:color"#FFFFFF"/><!-…

【挑战100天首通《谷粒商城》】-【第一天】06、环境-使用vagrant快速创建linux虚拟机

文章目录 课程介绍1、安装 linux 虚拟机2、安装 VirtualBoxStage 1&#xff1a;开启CPU虚拟化Stage 2&#xff1a;下载 VirtualBoxStage 2&#xff1a;安装 VirtualBoxStage 4&#xff1a;安装 VagrantStage 4-1&#xff1a;Vagrant 下载Stage 4-2&#xff1a;Vagrant 安装Stag…

CentOS 7.9上创建JBOD(一)

系列文章目录 CentOS 7.9上创建的JBOD阵列恢复&#xff08;二&#xff09; CentOS 7.9检测硬盘坏区、实物定位&#xff08;三&#xff09; 文章目录 系列文章目录前言一、安装 mdadm工具二、创建JBOD设备三、为JBOD扩容&#xff08;增加一个硬盘&#xff09;四、最后&#xff…

MySQL修改用户权限(宝塔)

在我们安装好的MySQL中&#xff0c;很可能对应某些操作时&#xff0c;不具备操作的权限&#xff0c;如下是解决这些问题的方法 我以宝塔创建数据库为例&#xff0c;创建完成后&#xff0c;以创建的用户名和密码登录 这里宝塔中容易发生问题的地方&#xff0c;登录不上去&#…

STM32单片机-通信协议(下)

STM32单片机-通信协议(下&#xff09; 一、通信协议介绍二、USART(通用同步/异步收发器)2.1 USART框图和基本结构2.2 串口发送2.2.1 Printf函数移植2.2.2 串口发送汉字 2.3 串口接收2.3.1 串口接收查询2.3.2 串口接收中断 2.4 USART串口数据包2.4.1 数据包格式2.4.2 数据包接收…

企业数字化转型好帮手蚓链,超多创新亮点等你来!

家人们&#xff0c;今天必须给大家分享一下蚓链这个超棒的数字化转型好帮手呀&#xff01; 在理念创新上&#xff0c;它做到了以用户为中心&#xff0c;给大家带来精准化、个性化的营销体验呢。 组织创新也超厉害&#xff0c;搭建了开放式创新平台&#xff0c;吸引外部合作伙伴…

gitlab2024最新版安装

系统&#xff1a;redhat9.0 gitlab版本&#xff1a;gitlab-ce-16.10.7-ce.0.el9.x86_64.rpm 安装组件&包依赖&#xff1a;https://packages.gitlab.com/gitlab/gitlab-ce/packages/ol/9/gitlab-ce-16.10.7-ce.0.el9.x86_64.rpm 参考&#xff1a; 前提&#xff1a; 下载gitl…