【车辆轨迹处理】python实现轨迹点的聚类(一)——DBSCAN算法

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 前言
  • 一、单辆车轨迹的聚类与分析
    • 1.引入库
    • 2.聚类
    • 3.聚类评价
  • 二、整个数据集多辆车聚类
    • 1.聚类
    • 2.整体评价


前言

  空间聚类是基于一定的相似性度量对空间大数据集进行分组的过程。空间聚类分析是一种无监督形式的机器学习。通过空间聚类可以从空间数据集中发现隐含的信息。
  作者在科研工作中,需要对某些车辆的轨迹数据进行一些空间聚类分析,以期望发现车辆在行驶过程中发生轨迹点”聚集“的行为。当等时间间隔的轨迹点在某片区域分布过于”密“时,我们往往可以在这片区域发现某些信息,例如车辆在这片区域发生驻留或者低速行驶等。
  在空间聚类算法中,DBSCAN是一种简单且有效的聚类算法,它有着基于密度不需要预先指定聚类数计算效率高的优点。
  本文以如下格式车辆轨迹数据为例,实提供了DBSCAN对车辆轨迹数据聚类并分析的方法:

collect_timeidlonlat
时间车辆标识经度纬度

  为了尽量去除噪声影响,车辆轨迹数据已经经过滤波平滑,平滑方法可见作者之前文章:https://blog.csdn.net/jgsecurity/article/details/140608431。

一、单辆车轨迹的聚类与分析

  对单辆车的轨迹数据,采用DBSCAN算法进行空间聚类。DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种经典的密度聚类算法,适用于发现任意形状的聚类簇。其原理本文不做阐述,如有需要,可以自行搜索。

1.引入库

  使用了数学计算库numpypandas,机器学习库scikit-learn,地理相关库shapelygeopy,绘图库matplotlib

import numpy as np
import pandas as pd
from sklearn.cluster import DBSCAN
from sklearn import metrics
from shapely.geometry import MultiPoint
from geopy.distance import great_circle
import matplotlib.pyplot as plt

2.聚类

  在进行聚类之前,先使用shapelygeopy库实现了get_centermost_point函数。其输入数据cluster是列表类型,表示每一组聚类的点集。作用是在获得了每个聚类之后,计算出该聚类的中心点。

# 计算每个聚类的中心点
def get_centermost_point(cluster):# 计算整个点集合的质心点centroid = (MultiPoint(cluster).centroid.x, MultiPoint(cluster).centroid.y)# 取点集合中离质心点最近的点为中心点centermost_point = min(cluster, key=lambda point: great_circle(point, centroid).m)# 返回中心点return tuple(centermost_point)

  对单辆车的聚类函数cluster_traj,其输入数据data是dataframe类型,表示一辆车的轨迹数据。


# DBSCAN聚类
def cluster_traj(data):# 提取dataframe中的经纬度列coords = data[['smoothed_lat', 'smoothed_lon']].values# 地球半径(km)kms_per_radian = 6371.0088# 定义epsilon为0.5(km),经纬度点间距离计算使用haversine公式# 由于haversine公式返回的距离是以弧度为单位,因此将距离阈值转换为弧度epsilon = 0.3 / kms_per_radian# 定义min_samples为6。epsilon和min_samples参数需要根据自己的数据调整。db = DBSCAN(eps=epsilon, min_samples=6, algorithm='ball_tree', metric='haversine').fit(np.radians(coords))cluster_labels = db.labels_# 离群点的聚类标签为-1,其余数据聚成n类,标签为为0到n-1。num_clusters获得总共的聚类数n。num_clusters = len(set(cluster_labels) - set([-1]))print('Clustered ' + str(len(data)) + ' points to ' + str(num_clusters) + ' clusters')data['c_label1'] = cluster_labels# 输出聚类clusters的情况,假如聚成了4类,每类2个点:# 0: [[30.6, 104.0], [30.9, 78.5]],# 1: [[30.6, 104.4], [30.4, 10.0]],# 2: [[30.5, 103.6], [30.7, 103.6]],# 3: [[30.8, 104.9], [30.3, 104.3]clusters = pd.Series([coords[cluster_labels == n] for n in range(num_clusters)])print(clusters)# 输计算噪声点占总点数的比例ratio = len(cluster_labels[cluster_labels[:] == -1]) / len(cluster_labels)print('噪声点占总点数的比例: ' + str(ratio))# 只有聚类数量>1时才能计算指标if num_clusters > 1:# 计算轮廓系数,作为聚类评价指标sc_score = metrics.silhouette_score(coords, cluster_labels)print('轮廓系数: ' + str(sc_score))# 计算DBI指标dbi_score = metrics.davies_bouldin_score(coords, cluster_labels)print('戴维斯-布尔丁指数: ' + str(dbi_score))print("\n")return data

3.聚类评价

  需要注意的是,每辆车聚类之后,还计算了噪声比、轮廓系数(SC)、戴维斯-布尔丁指数(DBI)来评价聚类效果。其中SC指标越接近1,聚类效果越好;DBI指标越小,聚类效果越好。

  除此之外,还可以使用matplotlib库通过绘制散点图的方式,来肉眼观察这辆车的聚类效果,只需在cluster_traj函数中的return语句前插入下列代码(matplotlib绘制的散点图用于实验时判断聚类效果来调整参数,若要绘制更美观的图,可考虑使用folium库在地图上绘制轨迹点):

    # 获得每个聚类的中心点centermost_points = clusters.map(get_centermost_point)# 将各个聚类的中心点存入rep_pointslats, lons = zip(*centermost_points)rep_points = pd.DataFrame({'lon': lons, 'lat': lats})# 绘制散点图colors = list(mcolors.TABLEAU_COLORS.values())  # 使用Tableau颜色作为聚类颜色noise_color = 'black'  # 离群点颜色fig, ax = plt.subplots(figsize=(12, 8))for i, cluster in enumerate(clusters):if i == len(colors):  # 如果聚类数超过颜色数,循环使用颜色color = colors[i % len(colors)]else:color = colors[i]ax.scatter(cluster[:, 1], cluster[:, 0], s=30, c=color, marker='o', label='Cluster ' + str(i))# 绘制离群点noise_points = coords[cluster_labels == -1]ax.scatter(noise_points[:, 1], noise_points[:, 0], s=20, c=noise_color, marker='x', label='Noise points')ax.scatter(rep_points['lon'], rep_points['lat'], c='red', marker='*', s=100, label='Cluster Centers')ax.set_title('DBSCAN Clustering of Trajectory Data')ax.set_xlabel('Longitude')ax.set_ylabel('Latitude')ax.legend()plt.show()

二、整个数据集多辆车聚类

  本人的数据集中包含多辆车的轨迹数据,这些数据统一存储一个CSV文件中,并且已经按照id和collect_time数据升序排序。

1.聚类

  使用groupby的方式对车辆按id分组,每组分别调用cluster_traj即可。

    #假设已经读入数据dfclustered_data = pd.DataFrame()# 按车辆id分组,对每辆车的数据进行聚类grouped = df.groupby('id')for name, group in grouped:print('车辆id:' + name + '  轨迹点数:' + str(len(group)))clustered_group = cluster_traj(group)clustered_data = pd.concat([clustered_data, clustered_group], ignore_index=True)

2.整体评价

  可以在函数外设置两个全局变量列表sc_scores和dbi_scores存储每辆车的评价指标。

# 全局变量用于存储指标
sc_scores = []
dbi_scores = []

  对cluser_traj函数中的计算轮廓系数部分添加sc_scores.append(sc_score)和dbi_scores.append(dbi_score)两行代码。即计算每辆车的评价指标的同时,将其加入外部的列表中。

if num_clusters > 1:# 计算轮廓系数,作为聚类评价指标sc_score = metrics.silhouette_score(coords, cluster_labels)print('轮廓系数: ' + str(sc_score))sc_scores.append(sc_score)# 计算DBI指标dbi_score = metrics.davies_bouldin_score(coords, cluster_labels)print('戴维斯-布尔丁指数: ' + str(dbi_score))dbi_scores.append(dbi_score)

  通过sc_scores和dbi_scores两个列表的分析,例如求均值、中位数、画图查看分布等方式,可以评价整个数据聚类效果的好坏。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/874487.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Hopfield 网络简介

引入 Hopfield网络的概念 Hopfield 网络的应用 Hopfield 网络由于能够非常有效地存储和检索信息,因此在各个领域都很有用。 尽管它们如今并不像用于一般机器学习任务的其他类型的人工神经网络那样常见,但它们仍然具有重要的特定应用: 1.联…

ES中的数据类型学习之ALIAS

Alias field type | Elasticsearch Guide [7.17] | Elastic 这里只针对data type的alias,暂时不说 index的alias。直接实战开始 PUT trips { "mappings": { "properties": { "distance": { "type": &…

Linux、Windows和macOS上使用Telnet

文章目录 LinuxWindowsmacOS 在Linux、Windows和macOS上使用Telnet时,不同的系统有不同的工具和设置方法。以下是在这些系统上使用Telnet的简要说明: Linux 在Linux上,Telnet通常是通过telnet命令来使用的。首先,你需要确保你的系…

Docker-Compose单机容器集群编排工具

目录 前言 1.Docker-compose简介 2. YAML文件格式及编写注意事项 3. Docker-Compose配置常用字段 4.Docker Compose常用命令 5.使用Docker-compose创建LNMP环境,并运行Wordpress网站平台 前言 我们知道使用一个Dockerfile模板文件可以定义一个单独的应用容器&…

前端:Vue学习-3

前端:Vue学习-3 1. 自定义指令2. 插槽2.1 插槽 - 后备内容(默认值)2.2 插槽 - 具名插槽2.3 插槽 - 作用域插槽 3. Vue - 路由3.1 路由模块封装3.2 声明式导航 router-link 高亮3.3 自定义匹配的类名3.4 声明式导肮 - 跳转传参3.5 Vue路由 - 重…

[题解]CF1401E.Divide Square(codeforces 05)

题目描述 There is a square of size 106106106106 on the coordinate plane with four points (0,0)(0,0) , (0,106)(0,106) , (106,0)(106,0) , and (106,106)(106,106) as its vertices. You are going to draw segments on the plane. All segments are either horizonta…

【数据结构】顺序表(ArrayList的具体使用)

🎇🎉🎉🎉点进来你就是我的人了 博主主页:🙈🙈🙈戳一戳,欢迎大佬指点! 欢迎志同道合的朋友一起加油喔 💪💪💪 谢谢你这么帅…

VSCode STM32嵌入式开发插件记录

要卸载之前搭建的VSCode嵌入式开发环境了,记录一下用的插件。 1.Cortex-Debug https://github.com/Marus/cortex-debug 2.Embedded IDE https://github.com/github0null/eide 3.Keil uVision Assistant https://github.com/jacksonjim/keil-assistant/ 4.RTO…

支持向量机(SVM,Support Vector Machine)

支持向量机(SVM,Support Vector Machine)是一种监督学习模型,主要用于分类和回归分析。它的优点包括: 优点: 高效解决高维问题:通过核函数可以将低维数据映射到高维空间,使得非线性…

政安晨【零基础玩转各类开源AI项目】基于Ubuntu系统部署MimicMotion :利用可信度感知姿势指导生成高质量人体运动视频

目录 项目介绍 项目相关工作 图像/视频生成的扩散模型 姿势引导的人体动作转移 生成长视频 方法实践 与最先进方法的比较 消融研究 部署验证 1. 下载项目: 2. 建立环境 3. 下载参数模型 A. 下载 DWPose 预训练模型:dwpose B. 从 Huggingfa…

学术研究期刊

投稿指南 一、《学术研究》投稿须知   来稿需为作者的原创性研究成果,除了文中特别加以标注和致谢的地方外,不包含他人已经发表或者撰写过的研究成果,也不包含作者已经发表的研究成果。如发现学术不端行为,本刊将追究相关责任人…

DDD(3)-领域驱动设计之如何建模

前言 上一篇:从领域驱动到模型驱动中我们讨论到,领域驱动设计的核心思想是保持业务-模型-代码的一致性,模型作为沟通业务和代码的工具,至关重要,今天这篇文章就来讨论DDD中建模的一些思考和方法。 什么是建模 虽然看…

基于SSM的高考志愿选择辅助系统

基于SSM的高考志愿选择辅助系统的设计与实现~ 开发语言:Java数据库:MySQL技术:SpringSpringMVCMyBatis工具:IDEA/Ecilpse、Navicat、Maven 系统展示 前台 前台首页 院校展示 后台 后台首页 学校管理 摘要 随着高考制度的不断完…

【Drone】drone编译web端 防墙策略 | 如何在被墙的状态drone顺利编译npm

一、drone编译防墙版本 1、web端drone kind: pipeline type: docker name: ui steps:- name: build_projectimage: node:20-slim depends_on: [clone]volumes:- name: node_modulespath: /drone/src/node_modulescommands:- pwd- du -sh *- npm config set registry https://…

前端使用 Konva 实现可视化设计器(18)- 素材嵌套 - 加载阶段

本章主要实现素材的嵌套(加载阶段)这意味着可以拖入画布的对象,不只是图片素材,还可以是嵌套的图片和图形。 请大家动动小手,给我一个免费的 Star 吧~ 大家如果发现了 Bug,欢迎来提 Issue 哟~ github源码 g…

测试——Selenium

内容大纲: 什么是自动化测试 什么是Selenium Selenium工作原理 Selenium环境搭建 Selenium API 目录 1. 什么是自动化测试 2. 什么是Selenium 3. Selenium工作原理 4. Selenium环境搭建(java) 5. Selenium API 5.1 定位元素 5.1.1 CSS选择器定位元素 5.1.2 XPath定位元…

PHP进阶:前后端交互、cookie验证、sql与php

单词:construct 构造 destruct 摧毁 empty 空的 trim 修剪 strip 清除 slash 斜线 special 特殊 char 字符 query 询问 构造方法(魔术方法) 构造方法是一种特殊的函数&#xff0…

QT 4.8版本的Ubuntu2004编译错误的解决方案

arm-linux-gnueabihf-gcc 5.2编译qt4.8.5_error: ‘class ui::qprintpropertieswidget’ has no m-CSDN博客

k8s中部署nacos

1 部署nfs # 在k8s的主节点上执行 mkdir -p /appdata/download cd /appdata/download git clone https://github.com/nacos-group/nacos-k8s.git 将nacos部署到middleware的命名空间中 kubectl create namespace middleware cd /appdata/download/nacos-k8s # 创建角色 kub…

VScode连接虚拟机运行Python文件的方法

声明:本文使用Linux发行版本为rocky_9.4 目录 1. 在rocky_9.4最小安装的系统中,默认是没有tar工具的,因此,要先下载tar工具 2. 在安装好的vscode中下载ssh远程插件工具 3. 然后连接虚拟机 4. 查看python是否已经安装 5. 下载…