计算机视觉——P2PNet基于点估计的人群计数原理与C++模型推理

简介

人群计数是计算机视觉领域的一个核心任务,旨在估算静止图像或视频帧中的行人数量。在过去几十年中,研究人员在这个领域投入了大量的精力,并在提高现有主流基准数据集性能方面取得了显著进展。然而,训练卷积神经网络需要大规模且高质量的标记数据集,而标记像素级别的行人位置成本昂贵,令人望而却步。

此外,由于数据分布之间存在领域转移,即在标签丰富的数据领域(源领域)上训练的模型无法很好地泛化到另一个标签稀缺的数据领域(目标领域),这严重限制了现有方法的实际应用。

《Rethinking Counting and Localization in Crowds: A Purely Point-Based Framework》提出了一个全新的基于点的框架,可以同时用于人群计数和个体定位。与传统的基于定位的方法不同,该框架完全依赖于点级别的表示,避免了中间表示(如密度图或伪目标框)可能引入的误差,并提出了一种新的性能评价指标,称为密度归一化平均精度,以更全面、更准确地评估模型性能。

研究团队还提出了一个名为点对点网络(P2PNet)的示例模型,该模型直接预测一系列人头点的集合来定位图像中的人群个体,避免了冗余步骤,并实现了与真实人工标注一致的定位。通过深入分析,研究者发现了实现该方法的核心策略,即为预测的候选点分配最优的学习目标,并通过基于匈牙利算法的一对一匹配策略来实现。实验证明,P2PNet在人群计数基准上显著超越了现有的最先进方法,并取得了非常高的定位精度。
在这里插入图片描述

网络结构

在这里插入图片描述
P2PNet的网络结构并不复杂。它建立在VGG16的基础上,并引入了一个上采样路径来获取细粒度的深度特征图,类似于特征金字塔网络(FPN)。然后,它利用两个分支来同时预测一组点及其置信度分数。在我们的流程中,关键步骤是确保预测点和真实点之间的一对一匹配,这决定了这些预测点的学习目标。

预测

在这里插入图片描述
Point proposals的初始化有两种方式,一种是全部初始化在中心点,另一种是网格式分布。Feature Map上的一个pixel对应着原图上的一个patch(sxs),并在这上面初始化K个Point proposal。
在这里插入图片描述
这些point proposals的坐标加上回归头分支得到的偏置就可以得到预测点的坐标。

匹配与损失计算

在这里插入图片描述
预测点与真实点之间的匹配用的是匈牙利算法,代价矩阵的计算方式如上图,它是坐标偏差与置信度分数的一个综合的考量。
在这里插入图片描述
分类损失函数是交叉熵损失,回归损失函数是欧氏距离。

在这里插入图片描述
文章还提出了一种新的度量指标nAP。nAP是根据平均精度计算出来的,平均精度是精度-召回率(PR)曲线下的面积。具体来说,给定所有预测的头部点ˆP,我们首先将其置信度得分从高到低进行排序。然后,根据预定义的密度感知标准,依次确定所调查的点是TP或FP。密度感知标准如上左图所示。

实验结果

在这里插入图片描述
研究者考虑了从ShanghaiTech Part A到Trancos的实验,如上表所示。显然,所提出的方法比现有的适应方法提高了2.9%。
在这里插入图片描述
由双重鉴别器生成的不同级别(分别为像素、补丁像素、补丁、图像)级别分数的可视化。图中的正方形代表一个标量。注意白色方块代表1,黑色方块代表0。

实现代码

训练代码可以参考:https://github.com/TencentYoutuResearch/CrowdCounting-P2PNet

推理代码可以参考下面的代码:

#include <sstream>
#include <iostream>
#include <opencv2/opencv.hpp>
#include <opencv2/dnn.hpp>using namespace cv;
using namespace dnn;
using namespace std;struct CrowdPoint
{cv::Point pt;float prob;
};static void shift(int w, int h, int stride, vector<float> anchor_points, vector<float>& shifted_anchor_points)
{vector<float> x_, y_;for (int i = 0; i < w; i++){float x = (i + 0.5) * stride;x_.push_back(x);}for (int i = 0; i < h; i++){float y = (i + 0.5) * stride;y_.push_back(y);}vector<float> shift_x((size_t)w * h, 0), shift_y((size_t)w * h, 0);for (int i = 0; i < h; i++){for (int j = 0; j < w; j++){shift_x[i * w + j] = x_[j];}}for (int i = 0; i < h; i++){for (int j = 0; j < w; j++){shift_y[i * w + j] = y_[i];}}vector<float> shifts((size_t)w * h * 2, 0);for (int i = 0; i < w * h; i++){shifts[i * 2] = shift_x[i];shifts[i * 2 + 1] = shift_y[i];}shifted_anchor_points.resize((size_t)2 * w * h * anchor_points.size() / 2, 0);for (int i = 0; i < w * h; i++){for (int j = 0; j < anchor_points.size() / 2; j++){float x = anchor_points[j * 2] + shifts[i * 2];float y = anchor_points[j * 2 + 1] + shifts[i * 2 + 1];shifted_anchor_points[i * anchor_points.size() / 2 * 2 + j * 2] = x;shifted_anchor_points[i * anchor_points.size() / 2 * 2 + j * 2 + 1] = y;}}
}
static void generate_anchor_points(int stride, int row, int line, vector<float>& anchor_points)
{float row_step = (float)stride / row;float line_step = (float)stride / line;vector<float> x_, y_;for (int i = 1; i < line + 1; i++){float x = (i - 0.5) * line_step - stride / 2;x_.push_back(x);}for (int i = 1; i < row + 1; i++){float y = (i - 0.5) * row_step - stride / 2;y_.push_back(y);}vector<float> shift_x((size_t)row * line, 0), shift_y((size_t)row * line, 0);for (int i = 0; i < row; i++){for (int j = 0; j < line; j++){shift_x[i * line + j] = x_[j];}}for (int i = 0; i < row; i++){for (int j = 0; j < line; j++){shift_y[i * line + j] = y_[i];}}anchor_points.resize((size_t)row * line * 2, 0);for (int i = 0; i < row * line; i++){float x = shift_x[i];float y = shift_y[i];anchor_points[i * 2] = x;anchor_points[i * 2 + 1] = y;}
}
static void generate_anchor_points(int img_w, int img_h, vector<int> pyramid_levels, int row, int line, vector<float>& all_anchor_points)
{vector<pair<int, int> > image_shapes;vector<int> strides;for (int i = 0; i < pyramid_levels.size(); i++){int new_h = floor((img_h + pow(2, pyramid_levels[i]) - 1) / pow(2, pyramid_levels[i]));int new_w = floor((img_w + pow(2, pyramid_levels[i]) - 1) / pow(2, pyramid_levels[i]));image_shapes.push_back(make_pair(new_w, new_h));strides.push_back(pow(2, pyramid_levels[i]));}all_anchor_points.clear();for (int i = 0; i < pyramid_levels.size(); i++){vector<float> anchor_points;generate_anchor_points(pow(2, pyramid_levels[i]), row, line, anchor_points);vector<float> shifted_anchor_points;shift(image_shapes[i].first, image_shapes[i].second, strides[i], anchor_points, shifted_anchor_points);all_anchor_points.insert(all_anchor_points.end(), shifted_anchor_points.begin(), shifted_anchor_points.end());}
}class P2PNet
{
public:P2PNet(const float confThreshold = 0.5){this->confThreshold = confThreshold;this->net = readNet("SHTechA.onnx");}void detect(Mat& frame);
private:float confThreshold;Net net;Mat preprocess(Mat srcimgt);const float mean[3] = { 0.485, 0.456, 0.406 };const float std[3] = { 0.229, 0.224, 0.225 };vector<String> output_names = { "pred_logits", "pred_points" };
};Mat P2PNet::preprocess(Mat srcimg)
{int srch = srcimg.rows, srcw = srcimg.cols;int new_width = srcw / 128 * 128;int new_height = srch / 128 * 128;Mat dstimg;cvtColor(srcimg, dstimg, cv::COLOR_BGR2RGB);resize(dstimg, dstimg, Size(new_width, new_height), INTER_AREA);dstimg.convertTo(dstimg, CV_32F);int i = 0, j = 0;for (i = 0; i < dstimg.rows; i++){float* pdata = (float*)(dstimg.data + i * dstimg.step);for (j = 0; j < dstimg.cols; j++){pdata[0] = (pdata[0] / 255.0 - this->mean[0]) / this->std[0];pdata[1] = (pdata[1] / 255.0 - this->mean[1]) / this->std[1];pdata[2] = (pdata[2] / 255.0 - this->mean[2]) / this->std[2];pdata += 3;}}return dstimg;
}void P2PNet::detect(Mat& frame)
{const int width = frame.cols;const int height = frame.rows;Mat img = this->preprocess(frame);const int new_width = img.cols;const int new_height = img.rows;Mat blob = blobFromImage(img);this->net.setInput(blob);vector<Mat> outs;//this->net.forward(outs, this->net.getUnconnectedOutLayersNames());this->net.forward(outs, output_names);vector<int> pyramid_levels(1, 3);vector<float> all_anchor_points;generate_anchor_points(img.cols, img.rows, pyramid_levels, 2, 2, all_anchor_points);const int num_proposal = outs[0].cols;int i = 0;float* pscore = (float*)outs[0].data;float* pcoord = (float*)outs[1].data;vector<CrowdPoint> crowd_points;for (i = 0; i < num_proposal; i++){if (pscore[i] > this->confThreshold){float x = (pcoord[i] + all_anchor_points[i * 2]) / (float)new_width * (float)width;float y = (pcoord[i + 1] + all_anchor_points[i * 2 + 1]) / (float)new_height * (float)height;crowd_points.push_back({ Point(int(x), int(y)), pscore[i] });}pcoord += 2;}cout << "have " << crowd_points.size() << " people" << endl;for (i = 0; i < crowd_points.size(); i++){cv::circle(frame, crowd_points[i].pt, 2, cv::Scalar(0, 0, 255), -1, 8, 0);}
}int main()
{P2PNet net(0.3);string imgpath = "2.jpeg";Mat srcimg = imread(imgpath);net.detect(srcimg);static const string kWinName = "dst";namedWindow(kWinName, WINDOW_NORMAL);imshow(kWinName, srcimg);waitKey(0);destroyAllWindows();
}

实现结果:
在这里插入图片描述
在这里插入图片描述
工程源码下载:https://download.csdn.net/download/matt45m/88936724?spm=1001.2014.3001.5503

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/735882.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

matlab阶段学习笔记小节2

syms定义符号变量 求极限 第二题 第三题 limit(y,n,inf);求的的函数y关于自变量n在无穷处&#xff08;inf&#xff09;的极限 exp(2)即指数为2&#xff0c;底为e,也就是e^2 求导数 第一题 log(x)默认是以e为底的指数函数&#xff0c;也就是ln(x). 使用diff(f)对函数进行求…

算法-双指针、BFS与图论-1113. 红与黑

题目 思路 本题相当于问BFS中的当前点所在的区域连通块有多少个 Flood Fill算法 &#xff08;可参考以下链接&#xff1a;洪水覆盖算法(Flood Fill)&#xff1a;颜色填充-CSDN博客&#xff09;本题用DFS实现Flood Fill算法DFS是否需要恢复现场&#xff1a;&#xff08;重要&am…

新IDEA电脑环境设置

1.设置UTF-8 2.Maven 3.JRE选对

【漏洞复现】华三用户自助服务产品dynamiccontent.properties.xhtml接口处存在RCE漏洞

免责声明&#xff1a;文章来源互联网收集整理&#xff0c;请勿利用文章内的相关技术从事非法测试&#xff0c;由于传播、利用此文所提供的信息或者工具而造成的任何直接或者间接的后果及损失&#xff0c;均由使用者本人负责&#xff0c;所产生的一切不良后果与文章作者无关。该…

VUE+HBuilder的uniapp技术路线开发应用使用总结

使用总结 本来想做一个记录日常数据的应用&#xff0c;主要在Android端使用&#xff0c;后来发现在uniapp中使用sqllite数据库不是像原生中那样简单(所以当前准备去进行另一个路线&#xff0c;就是给我使用的电脑都安装一个portalble的服务端&#xff0c;用来记录数据&#xf…

java中使用rabbitmq

文章目录 前言一、引入和配置1.引入2.配置 二、使用1.队列2.发布/订阅2.1 fanout(广播)2.2 direct(Routing/路由)2.3 Topics(主题)2.4 Headers 总结 前言 mq常用于业务解耦、流量削峰和异步通信,rabbitmq是使用范围较广,比较稳定的一款开源产品,接下来我们使用springboot的sta…

角蜥优化算法 (Horned Lizard Optimization Algorithm ,HLOA)求解无人机路径优化

一、无人机路径规划模型介绍 无人机三维路径规划是指在三维空间中为无人机规划一条合理的飞行路径,使其能够安全、高效地完成任务。路径规划是无人机自主飞行的关键技术之一,它可以通过算法和模型来确定无人机的航迹,以避开障碍物、优化飞行时间和节省能量消耗。 二、算法介…

数据结构:图及相关算法讲解

图 1.图的基本概念2. 图的存储结构2.1邻接矩阵2.2邻接表2.3两种实现的比较 3.图的遍历3.1 图的广度优先遍历3.2 图的深度优先遍历 4.最小生成树4.1 Kruskal算法4.2 Prim算法4.3 两个算法比较 5.最短路径5.1两个抽象存储5.2单源最短路径--Dijkstra算法5.3单源最短路径--Bellman-…

Dataset 读取数据

Dataset 读取数据 from torch.utils.data import Dataset from PIL import Image import osclass Mydata(Dataset):def __init__(self,root_dir,label_dir):self.root_dir root_dir #根目录 dataset/trainself.label_dir label_dir #标签的后面链接目录 ants_ima…

windows系统玩游戏找不到d3dx9_43.dll缺失,无法启动此程序的解决方法

今日&#xff0c;我们要深入讨论d3dx9_43.dll文件的重要性及其缺失问题。最近&#xff0c;我也遇到了这个文件丢失的困扰&#xff0c;因此想借此机会与大家分享如何解决d3dx9_43.dll缺失的问题。 一.电脑d3dx9_43.dll丢失会提示什么&#xff1f; 关于电脑提示d3dx9_43.dll丢失…

神经网络实战前言

应用广泛 从人脸识别到网约车&#xff0c;在生活中无处不在 未来可期 无人驾驶技术便利出行医疗健康改善民生 产业革命 第四次工业革命——人工智能 机器学习概念 机器学习不等价与人工智能20世纪50年代&#xff0c;人工智能是说机器模仿人类行为的能力 符号人工智能 …

【环境配置】Linux MySQL8 忘记密码解决措施

本片博客介绍 Linux 操作系统 Ubuntu 下&#xff0c;MySQL8 忘记密码怎么重新设置&#xff0c;笔者亲测有效&#xff0c;分享给大家。 查看 MySQL 版本 $ mysql --version停止 MySQL 服务器&#xff0c;并查看状态是否变更为 Server shutdown complete # 等价命令sudo syste…

Django简易用户登入系统示例

Django简易用户登入系统示例 1&#xff09;添加url和函数的对应关系&#xff08;urls.py) urlpatterns [ path(login/, views.login), #login:url路径&#xff0c;views.login:对应的函数 ]2&#xff09;添加视图函数&#xff08;views.py) def login(req):if…

IDEA + Git + GitHub(保姆级教学)

文章目录 IDEA Git GitHub1.IDEA克隆远程仓库到本地仓库1.创建一个GitHub远程仓库test12.IDEA克隆仓库到本地1.复制远程仓库地址2.创建一个版本控制项目3.克隆到本地仓库4.克隆成功 2.IDEA将本地项目push到远程仓库1.在这个项目下新建一个java模块1.新建模块2.填写模块名3.在…

【CSP试题回顾】202006-1-线性分类器

CSP-202006-1-线性分类器 解题思路 线性分类问题&#xff0c;即根据给定的数据点和分类界限&#xff0c;判断是否存在一条线能够将属于不同类别的点完全分开。具体来说&#xff0c;数据点被分为两类&#xff0c;标记为A和B&#xff0c;我们要找出是否存在一个线性决策边界&…

gpt不能发送信息了?

文章目录 问题注意步骤解决后 问题 注意步骤 清理所有cookie和浏览数据&#xff0c;可保存密码 解决后

C++的类与对象(五):赋值运算符重载与日期类的实现

目录 比较两个日期对象 运算符重载 赋值运算符重载 连续赋值 日期类的实现 Date.h文件 Date.cpp文件 Test.cpp文件 const成员 取地址及const取地址操作符重载 比较两个日期对象 问题描述&#xff1a;内置类型可直接用运算符比较&#xff0c;自定义类型的对象是多个…

虚拟 DOM:前端性能优化的秘密

&#x1f90d; 前端开发工程师、技术日更博主、已过CET6 &#x1f368; 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 &#x1f560; 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 &#x1f35a; 蓝桥云课签约作者、上架课程《Vue.js 和 E…

【大厂AI课学习笔记NO.72】AI与云计算

AI项目依靠云计算&#xff0c;借助云的力量&#xff0c;快速的启动业务&#xff0c;是比较好的一种选择。 AI模型训练过程中&#xff0c;出现算力突增&#xff0c;云计算成本低。 云平台提供一站式解决方案&#xff0c;创业公司的选择。 云端AI和边缘端的AI&#xff0c;是我们…

OpenCV filter2D函数详解

OpenCV filter2D函数简介 OpenCV filter2D将图像与内核进行卷积&#xff0c;将任意线性滤波器应用于图像。支持就地操作。当孔径部分位于图像之外时&#xff0c;该函数根据指定的边界模式插值异常像素值。 该函数实际上计算相关性&#xff0c;而不是卷积&#xff1a; filter…