机器学习笔记 - 基于OpenCV+稀疏光流的无监督运动检测

一、简述

        在各种高级开源库的帮助下,检测固定摄像机拍摄的运动行为是轻而易举可以实现的,但检测移动的摄像机拍摄的移动物体的运动检测依然是一个复杂的问题。在这里,我们将继续基于稀疏光流,并检测移动的无人机相机的运动。

        这里使用的数据集来自VisDrone数据集,见下面github的链接。这个数据集其中包含各种环境下的无人机视频剪辑。运动检测在该领域的应用包括:监视、自主、搜索和救援,甚至环境应用。该检测方法旨在将稀疏光流向量中的真实移动物体与背景区分开来,因为我们不依赖于任何前置条件,所以这是一种无监督方法。

https://github.com/VisDrone/VisDrone-Dataseticon-default.png?t=N7T8https://github.com/VisDrone/VisDrone-Dataset        本文介绍的检测方法流程概述如下:

        对于一对连续帧,帧 1 和帧 2

        1、计算第 1 帧上的关键点

        2、计算从帧 1 到帧 2 的稀疏光流

        3、进行运动补偿以获得补偿后的关键点

        4、补偿流矢量的计算范数

        5、对 Norm 进行异常值检测以获得运动点

        6、聚类运动点以获得检测

        7、过滤检测到的簇

        示例图像如下

二、光流和运动补偿

        光流描述了图像序列中像素从一帧到下一帧的运动。稀疏光流计算角点等显着特征的运动,而密集光流计算所有像素的运动。

        相机运动补偿允许在检测移动物体时考虑相机运动,它是从前一帧到当前帧的变换。稀疏光流将帮助我们找到这种转变。

        下面更详细地概述了前三个步骤:

        1、通过检测强特征来计算第 1 帧上的关键点

        2、使用稀疏光流将关键点与第 2 帧匹配

        3、对第 1 帧的关键点进行运动补偿

        4、使用先前和当前关键点的数组来计算从帧 1 到帧 2 的变换

        4、对第 1 帧的关键点进行变换

        我们可以使用角点检测或任何特征检测算法完成步骤 1,并使用稀疏光流执行步骤 2 。步骤2的匹配结果提供了由于相机运动而导致的关键点的新位置。(即新图像坐标处的相同像素)。第 1 帧和第 2 帧关键点之间的增量构成了流向量。

        实际上,流矢量是由相机和物体在任何 3D 方向上的运动产生的,但它们只捕获 2D 图像空间中的运动。这就是第 3 步的用武之地,我们估计一个变换矩阵来将帧 1 与帧 2 对齐。 2D仿射变换效果很好,但我们也可以估计单应性矩阵,主要区别在于 2D 仿射变换(2x3 矩阵)仅考虑 2D 空间,而 Homography(3x3 矩阵)考虑 3D 空间。我们在所有这些步骤中大量利用 OpenCV,估计变换矩阵的代码如下所示:

def motion_comp(prev_frame, curr_frame, num_points=500, points_to_use=500, transform_type='affine'):""" Obtains new warped frame1 to account for camera (ego) motionInputs:prev_frame - first image framecurr_frame - second sequential image framenum_points - number of feature points to obtain from the imagespoints_to_use - number of point to use for motion translation estimation transform_type - type of transform to use: either 'affine' or 'homography'Outputs:A - estimated motion translation matrix or homography matrixprev_points - feature points obtained on previous imagecurr_points - feature points obtaine on current image"""transform_type = transform_type.lower()assert(transform_type in ['affine', 'homography'])prev_gray = cv2.cvtColor(prev_frame, cv2.COLOR_RGB2GRAY)curr_gray = cv2.cvtColor(curr_frame, cv2.COLOR_RGB2GRAY)# get features for first framecorners = cv2.goodFeaturesToTrack(prev_gray, num_points, qualityLevel=0.01, minDistance=10)# get matching features in next frame with Sparse Optical Flow Estimationmatched_corners, status, _ = cv2.calcOpticalFlowPyrLK(prev_gray, curr_gray, corners, None)# reformat previous and current corner pointsprev_points = corners[status==1]curr_points = matched_corners[status==1]# sub sample number of points so we don't overfitif points_to_use > prev_points.shape[0]:points_to_use = prev_points.shape[0]index = np.random.choice(prev_points.shape[0], size=points_to_use, replace=False)prev_points_used = prev_points[index]curr_points_used = curr_points[index]# find transformation matrix from frame 1 to frame 2if transform_type == 'affine':A, _ = cv2.estimateAffine2D(prev_points_used, curr_points_used, method=cv2.RANSAC)elif transform_type == 'homography':A, _ = cv2.findHomography(prev_points_used, curr_points_used)return A, prev_points, curr_points

        我们提供了一个选项,可以使用较少数量的点来估计变换矩阵,以避免过度拟合。我们还返回帧 1 和 2 中的关键点,因为它们包含估计的流向量。现在我们可以完成步骤 3 并转换第 1 帧中的关键点以考虑相机运动。

A, prev_points, curr_points = motion_comp(frame1, frame2, num_points=10000, points_to_use=10000, transform_type='affine')# Camera Motion Compensation on frame 1 (for reference)
# transformed1 = cv2.warpAffine(frame1, A, dsize=(frame1.shape[:2][::-1])) # affine transform# Camera Motion Compensation on Key Points
A = np.vstack((A, np.zeros((3,)))) # convert 2x3 affine to 3x3 matrix 
compensated_points = np.hstack((prev_points, np.ones((len(prev_points), 1)))) @ A.T compensated_points = compensated_points[:, :2]

        由于变换矩阵将第 1 帧与第 2 帧对齐,因此第 1 帧的关键点应与第 2 帧的关键点对齐,让我们检查一个随机点:

print(f" Prev Key Points: {np.round(prev_points[100], 2)} \n",f"Compensated Key Points: {np.round(compensated_points[100], 2)} \n",f"Current Key Points: {np.round(curr_points[100], 2)}")

Prev Key Points: [528. 837.]
Compensated Key Points: [524.61 845.22]
Current Key Points: [524.33 845.14]

        我们可以看到运动补偿对于大多数背景点都做得很好。

三、 获取流向量的范数

        现在我们已经补偿了相机运动,我们可以通过从帧 2 关键点中减去变换后的帧 1 关键点来获得补偿后的流向量矩阵。

compensated_flow = curr_points - compensated_points

        现在我们可以比较原始的 VS 补偿流向量:

水平和垂直流向量的直方图。左:原始流向量直方图

        请注意左侧的直方图具有多种模式。对于较小的相机运动,我们期望背景几乎保持不变,因此我们应该期望补偿后的流向量以零为中心。它们不全为零的原因是帧与帧之间的图像噪声以及运动补偿的缺陷。在右侧,我们看到实际情况就是如此,除了异常值之外,水平和垂直方向的补偿流量直方图非常接近于零。

        选择距离度量(标准)

        在我们开始异常值检测之前,我们找到一种方法将数据组合成单个指标,然后对该指标执行异常值检测。我们可以使用许多指标,但我们会考虑一个能够放大异常值的指标,使它们更容易检测。这是L2范数(距离)的一个很好的方式,其中平方距离确实放大了大于我们正在寻找的距离(流量)。此外,平方会减少小于一的值。

        在Python中,我们可以使用numpy获得l2范数。

x = np.linalg.norm(compensated_flow, ord=2, axis=1) 

四、通过异常值检测运动

        对于异常值检测,我们使用一种简单的方法,通过取平均值加上缩放标准差来创建单侧异常值边界,其中缩放因子是超参数。事实证明,这比IQR和MAD等其他方法更有效,我们还应该注意,这种分布不是正态分布,它更接近拉普拉斯分布。

        在上图中,对数据拟合了拉普拉斯分布,这应该会产生稳健的异常值检测方法。我们可以看到它的右侧有一条长的尾巴。计算异常值的代码如下所示。

from scipy.stats import kurtosisc = 2 # tunable scale factor# We expect a Leptokurtic distribution with extrememly long tails
if kurtosis(x, bias=False) < 1:c /= 2 # reduce outlier hyparameter# get outlier bound (only care about upper bound since lower values are not likely movers)
upper_bound = np.mean(x) + c*np.std(x, ddof=1)

        我们还需要检查分布的峰度,以衡量其尾部。峰度越大,分布越拖尾;请记住,大的拖尾意味着移动的物体。从技术上讲,高峰度值表示 Leptokutic 分布,基本上是长尾的高峰分布,示例如下所示。

        如果分布没有峰度所示的大尾部,则我们要么没有物体,要么没有物体移动缓慢。我们凭经验观察到,将阈值降低 2 倍可以获得更好的结果。下面的代码片段展示了我们如何过滤异常值并获取与运动相对应的关键点。

motion_idx = (x >= upper_bound)
motion_points = curr_points[motion_idx]

        目前已经检测到运动点,但仍然有许多误检。在接下来需要删除不正确的点并保留真实的运动点。

五、集群运动点

        下一组是对检测到的运动点进行聚类,但首先我们将向数据添加更多信息。运动点包含图像上的水平和垂直位置,但我们还添加运动的幅度和角度。移动物体通常具有相似大小和角度的流向量。

# add additional motion data for clustering
motion = compensated_points[motion_idx] - curr_points[motion_idx] 
magnitude = np.linalg.norm(motion, ord=2, axis=1)
angle = np.arctan2(motion[:, 0], motion[:, 1]) # horizontal/vertialmotion_data = np.hstack((motion_points, np.c_[magnitude], np.c_[angle]))

        我们将使用DBSCAN或基于噪声的应用程序的密度空间聚类对点进行聚类。DBSCAN 允许我们找到点的簇,而无需预先定义簇的数量。我们需要设置要考虑在同一簇中的两个样本的最小半径(以像素为单位)以及每个簇的最小样本数;不满足这些标准的点被视为背景噪声并从结果中删除。

        最小半径(eps)非常重要,如果我们将其设置得太大,那么我们将错过较小的移动物体,太小,我们将得到错误的检测。在这种情况下,我们采取中间立场,并注意到单个移动对象可能有多个集群。最小样本数取决于异常值界限的严格性(即,如果我们有更高的界限(较少数量的异常值),那么我们应该使用较小的 min_samples)。

from sklearn.cluster import DBSCANcluster_model = DBSCAN(eps=50.0, min_samples=3)
cluster_model.fit(motion_data)

        结果如下 

六、过滤簇

        我们将根据三个标准过滤集群:

        运动角度 → 运动角度方差要小

        边缘位置→边缘簇往往是错误检测

        最大簇大小 → 有时背景噪声会产生大量错误检测

        我们首先设置一些以弧度为单位的角度阈值,这可能是主观的,但 0.1 左右的值往往效果很好。我们还设置了一个边缘阈值,这是从簇质心(平均值)到要删除的边缘的阈值像素距离,值 50 效果很好。最大簇大小是单个簇的最大点数,这是为了消除主要由未根据边缘标准过滤的边缘点组成的大型错误检测。

angle_thresh = 0.1 #  radians
edge_thresh = 50   # pixels
max_cluster_size = 80 # number of cluster pointsclusters = []
far_edge_array = np.array([w - edge_thresh, h - edge_thresh])
for lbl in np.unique(cluster_model.labels_):cluster_idx = cluster_model.labels_ == lbl# get standard deviation of the angle of apparent motion angle_std = angle[cluster_idx].std(ddof=1)if angle_std <= angle_thresh:cluster = motion_points[cluster_idx]# remove clusters that are too close to the edges and ones that are too largecentroid = cluster.mean(axis=0)if (len(cluster) < max_cluster_size) \and not (np.any(centroid < edge_thresh) or np.any(centroid > far_edge_array)):clusters.append(cluster)

        下面代码把上面检测过程整合到一起,

cluster_model = DBSCAN(eps=30.0, min_samples=3) # DBSCAN is seems to work the bestframes = []
for i in range(len(image_paths) - 1):frame1 = cv2.imread(image_paths[i])frame2 = cv2.imread(image_paths[i + 1])# get detected clusterclusters = get_motion_detections(frame1, frame2, cluster_model, c=1.0,angle_thresh=0.1, max_cluster_size=50,distance_metric='l2', transform_type='affine')# draw detected clustersfor j, cluster in enumerate(clusters):color = get_color((j+1)*5)frame2 = plot_points(frame2, cluster, radius=10, color=color)# save image for GIFfig = plt.figure(figsize=(15, 7))plt.imshow(frame2)plt.axis('off')fig.savefig(f"temp/frame_{i}.png")plt.close();frames.append(frame2)

        完整代码,见链接内unsupervised_motion_detection.py

https://github.com/bashendixie/ml_toolset/tree/main/%E6%A1%88%E4%BE%8B121%20%E8%BF%90%E5%8A%A8%E6%A3%80%E6%B5%8B%20%E5%B8%A7%E9%97%B4%E5%B7%AE%E5%88%86%20%E5%85%89%E6%B5%81%20%E8%83%8C%E6%99%AF%E5%8E%BB%E9%99%A4icon-default.png?t=N7T8https://github.com/bashendixie/ml_toolset/tree/main/%E6%A1%88%E4%BE%8B121%20%E8%BF%90%E5%8A%A8%E6%A3%80%E6%B5%8B%20%E5%B8%A7%E9%97%B4%E5%B7%AE%E5%88%86%20%E5%85%89%E6%B5%81%20%E8%83%8C%E6%99%AF%E5%8E%BB%E9%99%A4

 七、小结

        该方法能够检测来自移动平台(即无人机)的运动,但严重依赖于超参数,并且单个分布上的异常值检测意味着可能无法检测到缓慢移动的物体。该方法的主要限制是物体必须移动得足够快才能被检测到。

        此外,以像素为单位的对象运动与对象大小相关,这是该算法未解决的问题。尽管有这些限制,我们仍然能够检测大多数移动物体的运动。

        该方法必然不是运动检测最好的方法(甚至称不上好方法),重要的是,我们了解到了一种方法,获得了一些经验。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/622737.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

设计模式-传输对象模式

设计模式专栏 模式介绍模式特点应用场景传输对象模式和序列化的区别代码示例Java实现传输对象模式Python实现传输对象模式 传输对象模式在spring中的应用 模式介绍 传输对象模式&#xff08;Transfer Object Pattern&#xff09;是一种设计模式&#xff0c;用于从客户端向服务…

MT8766安卓核心板/开发板_MTK联发科4G安卓手机主板方案定制开发

MT8766采用台积电 12 nm FinFET 制程工艺&#xff0c;4*A53架构&#xff0c;Android 9.0操作系统&#xff0c;搭载2.0GHz 的 Arm NEON 引擎。提供了支持最新 OpenOS 及其要求苛刻的应用程序所需的处理能力&#xff0c;专为具有全球蜂窝连接的高移动性和功能强大的平板设备而设计…

MySQL进阶篇(五) 锁

一、概述 锁是计算机协调多个进程或线程并发访问某一资源的机制。在数据库中&#xff0c;除传统的计算资源&#xff08;CPU、RAM、I/O&#xff09;的争用以外&#xff0c;数据也是一种供许多用户共享的资源。如何保证数据并发访问的一致性、有效性是所有数据库必须解决的一个问…

深入浅出Android dmabuf_dump工具

目录 dmabuf是什么&#xff1f; dmabuf_dump工具介绍(基于Android 14) Android.bp dmabuf_dump.cpp 整体架构结构如下 dmabuf_dump主要包含以下功能 前置背景知识 fdinfo 思考 bufinfo Dump整个手机系统的dmabuf Dump某个进程的dmabuf​​​​​​​ 以Table[buff…

【JVM 基础】类字节码详解

JVM 基础 - 类字节码详解 多语言编译为字节码在JVM运行Java字节码文件Class文件的结构属性从一个例子开始反编译字节码文件字节码文件信息常量池方法表集合类名 再看两个示例分析try-catch-finallykotlin 函数扩展的实现 源代码通过编译器编译为字节码&#xff0c;再通过类加载…

文件指针 FILE结构体

C语言中的文件指针是指向FILE类型结构体的指针。(也就是说 文件指针的类型就是FILE类型) 在C语言中&#xff0c;使用文件指针来操作文件。FILE类型是一个结构体类型&#xff0c;它包含了与文件相关的信息&#xff0c;例如文件位置指示器、文件读写状态等。通过文件指针&#x…

【MySQL】多表查询

文章目录 多表查询是什么&#xff1f;一、笛卡尔积&#xff08;或交叉连接&#xff09;二、多表查询分类分类1&#xff1a;等值连接 vs 非等值连接等值连接非等值连接 分类2&#xff1a;自连接 vs 非自连接分类2&#xff1a;内连接 vs 外连接 三、SQL99SQL99 实现 内连接SQL99 …

深度解析Pytest插件pytest-html

在软件开发中&#xff0c;测试报告是开发者获取测试结果和问题定位的关键工具之一。然而&#xff0c;标准的控制台输出有时难以满足我们对测试报告的需求。幸运的是&#xff0c;Pytest插件 pytest-html 提供了一种简单而强大的方式&#xff0c;可以生成漂亮、可视化的HTML格式测…

1992年-2020年ESA_CCI土地覆盖数据介绍、下载与数据分享

数据介绍 ESA CCI Land Cover是欧洲空间局&#xff08;European Space Agency&#xff0c;ESA&#xff09;的一个项目&#xff0c;其目标是生成全球土地覆盖的高质量、一致性和长期的时间序列数据&#xff0c;分辨率大约为300米。 该项目是ESA气候变化计划&#xff08;Climate…

AI大模型学习笔记二

文章目录 一、Prompt Engineering1&#xff09;环境准备 二、LangChain&#xff08;一个框架名字&#xff09;三、Fine-tuning&#xff08;微调&#xff09; 一、Prompt Engineering 1&#xff09;环境准备 ①安装OpenAI库 pip install --upgrade openai附加 安装来源 pyth…

阶段十-分布式锁

5.1 节 为什么要使用分布式锁 锁是多线程代码中的概念&#xff0c;只有当多任务访问同一个互斥的共享资源时才需要。如下图&#xff1a; 在我们进行单机应用开发&#xff0c;涉及并发同步的时候&#xff0c;我们往往采用synchronized或者lock的方式来解决多线程间的代码同步问…

远程登陆利器 ssh

文章目录 远程登陆利器 ssh登陆远程服务器指定用户名多数情况的登陆方式查看服务器的时间指定端口更多信息 远程登陆利器 ssh ssh命令是openssh套件中的客户端连接工具&#xff0c;使用加密协议实现安全的远程登录服务器&#xff0c;实现对服务器的远程管理。 官方定义为&…

ZZULIOJ 1110: 最近共同祖先(函数专题)

题目描述 如上图所示&#xff0c;由正整数1, 2, 3, ...组成了一棵无限大的二叉树。从某一个结点到根结 点&#xff08;编号是1 的结点&#xff09;都有一条唯一的路径&#xff0c;比如从10 到根结点的路径是(10, 5, 2, 1)&#xff0c; 从4 到根结点的路径是(4, 2, 1)&#xff0…

网络地图服务(WMS)详解

文章目录 1.概述2.GetCapabilities3.GetMap4.GetFeatureInfo 阅读本文之前可参考前文&#xff1a;《地图服务器GeoServer的安装与配置》与《GeoServer发布地图服务&#xff08;WMS、WFS&#xff09;》。 1.概述 经过前文的介绍&#xff0c;相信我们对WMS/WFS服务已经有了一个非…

Modbus协议学习第二篇之Modbus poll slave仿真软件初体验

软件准备 学习Modbus离不开硬件&#xff0c;好在我们可以通过仿真软件来模拟硬件&#xff0c;本篇博客就来简单介绍一下Modbus仿真软件的最基础使用方法&#xff0c;需要用到的3款仿真软件如下&#xff1a; Modbus Poll 64位 / Modbus Poll 32位&#xff08;根据自己机器位数选…

C++——map和set的基本使用

目录 一&#xff0c;关联式容器 二&#xff0c;键值对 三&#xff0c;set的使用 3.1 set介绍 3.2 set的插入和删除 3.3 set的pair 3.4 multiset 四&#xff0c;map的使用 4.1 map介绍 4.2 map实现简易字典 4.3 map实现统计次数 4.4 map的[] 五&#xff0c;使用map或…

LV.13 D11 Linux驱动移植及内核深化 学习笔记

一、设备树 1.1 设备树 设备树是一种描述硬件信息的数据结构&#xff0c;Linux内核运行时可以通过设备树将硬件信息直接传递给Linux内核&#xff0c;而不再需要在Linux内核中包含大量的冗余编码 举例&#xff1a;让LED2闪烁的代码中&#xff0c;有逻辑代码和设备代码。Li…

案例121:基于微信小程序的作品集展示系统设计与实现

文末获取源码 开发语言&#xff1a;Java 框架&#xff1a;SSM JDK版本&#xff1a;JDK1.8 数据库&#xff1a;mysql 5.7 开发软件&#xff1a;eclipse/myeclipse/idea Maven包&#xff1a;Maven3.5.4 小程序框架&#xff1a;uniapp 小程序开发软件&#xff1a;HBuilder X 小程序…

【模型评估 04】A/B测试的陷阱

互联网公司中&#xff0c;A/B测试是验证新模块、新功能、新产品是否有效&#xff1b;新算法、新模型的效果是否有提升&#xff1b;新设计是否受到用户欢迎&#xff1b;新更改是否影响用户体验的主要测试方法。在机器学习领域中&#xff0c;A/B测试是验证模型最终效果的主要手段…

C语言 - 最简单,最易懂的指针、引用讲解

一、变量、地址、变量值 二、直接上代码&#xff0c;一边看上图&#xff0c;一边讲解 #include <stdio.h>struct Hello {int a;int b; };int main() {struct Hello h;h.a 10;h.b 20;struct Hello *hp;hp &h;printf("1: h的地址是%d&#xff0c;hp地址是%d \…