论文笔记(整理):轨迹相似度顶会论文中使用的数据集

0 汇总

数据类型数据名称数据处理
出租车数据波尔图

原始数据:2013年7月到2014年6月,170万条数据

ICDE 2023 Contrastive Trajectory Similarity Learning with Dual-Feature Attention

 过滤位于城市(或国家)区域之外的轨迹

过滤包含少于20个点或超过200个点的轨迹
——>137W轨迹

CIKM 2022 Efficient Trajectory Similarity Computation with Contrastive Learning

为两个数据集设置相同的采样率,即15秒
根据轨迹的开始时间戳将每个数据集划分为训练集和测试集,其中前100万条轨迹用于训练,其余的用于测试

CIKM 2022 Aries: Accurate Metric-based Representation Learning for Fast Top-k Trajectory Similarity Query

根据位置和时间戳,在三个月内选择了一个相对集中的轨迹集,数量为100𝑘
删除少于50个点的记录,并将整个区域划分为1500×1500大小的网格
——>79,362条轨迹

KDD2022  TrajGAT: A Graph-based Long-term Dependency Modeling Approach for Trajectory Similarity Computation

2019 ICDE Computing Trajectory Similarity in Linear Time: A Generic Seed-Guided Neural Metric Learning Approach

选择城市中心区域的轨迹,并移除少于10条记录的轨迹

——>超过60W条轨迹

CIKM 2023 Can Adversarial Training benefit Trajectory Representation? An Investigation on Robustness for Trajectory Similarity

ICDE 2018 Deep Representation Learning for Trajectory Similarity Computation

  • 删除了长度少于30的轨迹
  • 最终剩下120万条轨迹

ICDE 2022 TMN: Trajectory Matching Networks for Predicting Similarity

ICDE 2021 T3S: Effective Representation Learning for Trajectory Similarity Computation

没有多少处理

哈尔滨

ICDE 2018 Deep Representation Learning for Trajectory Similarity Computation

8个月内13000辆出租车的轨迹。

选择了长度至少为30,且连续采样点之间的时间间隔少于20秒的轨迹。

这产生了150万条轨迹

西安

2018年10月的前两周

ICDE 2023 Contrastive Trajectory Similarity Learning with Dual-Feature Attention

过滤位于城市(或国家)区域之外的轨迹

过滤包含少于20个点或超过200个点的轨迹

 

数据类型数据名称数据处理
出租车数据

德国

ICDE 2023 Contrastive Trajectory Similarity Learning with Dual-Feature Attention

2006年到2013年间

过滤位于城市(或国家)区域之外的轨迹

过滤包含少于20个点或超过200个点的轨迹

罗马

KDD 2022 Spatio-Temporal Trajectory Similarity Learning in Road Networks

移除了少于10个采样点的轨迹

45157条轨迹

北京(T-drive)

AAAI 2023 GRLSTM: Trajectory Similarity Computation with Graph-Based Residual LSTM

从10,357辆出租车中收集的
按小时划分这些轨迹,并丢弃短长度的轨迹

使用空间相似函数通过GPS坐标在北京道路网络上创建基准真值

KDD 2022 Spatio-Temporal Trajectory Similarity Learning in Road Networks

移除了少于10个采样点的轨迹

KDD 2021 A Graph-based Approach for Trajectory Similarity Computation in Spatial Networks

按小时分割这些轨迹,然后我们总共可以得到5,621,428条轨迹。

通过过滤异常值,这些轨迹的平均长度为25。

新加坡

15,054辆出租车的轨迹

对于每辆出租车,GPS信息在整整一个月内以半分钟到三分钟的采样率持续收集

人流mobility数据北京(

Geolife)

2007年4月到2012年8月收集的17621条轨迹

Sigspatial 2022 TSNE: trajectory similarity network embedding

选择了城市中心区域的轨迹,并将该区域离散化为200m×200m的网格单元。

移除了所有点太稀疏(少于10个点的轨迹),并在Geolife中获得了10,504条轨迹

CIKM 2023 Can Adversarial Training benefit Trajectory Representation? An Investigation on Robustness for Trajectory Similarity

  • 选择了那些至少满足长度为30的轨迹,并且在连续采样点之间的时间间隔小于20秒
  • 这样的操作产生了8214条轨迹
  • 前4928条轨迹用于训练数据,其余的用于测试数据

2019 ICDE Computing Trajectory Similarity in Linear Time: A Generic Seed-Guided Neural Metric Learning Approach

过滤掉位于稀疏区域的轨迹,保留城市中心区域的轨迹
 

移除了少于10条记录的轨迹

大约8,000条轨迹

1 2023

1.1 ICDE 2023 Contrastive Trajectory Similarity Learning with Dual-Feature Attention

使用了三个真实世界的轨迹数据集:

(1)Porto ——2013年7月到2014年6月间,葡萄牙波尔图的170万条出租车轨迹;

(2)西安——2018年10月的前两周内,中国西安的210万条网约车轨迹(滴滴)

(3)德国 ——2006年到2013年间,170.7千条用户提交的轨迹。(openStreetMap)

  • 过滤位于城市(或国家)区域之外的轨迹,
  • 过滤包含少于20个点或超过200个点的轨迹

预处理后的数据集在表II中进行了总结。

1.2 AAAI 2023 GRLSTM: Trajectory Similarity Computation with Graph-Based Residual LSTM

  • 北京的轨迹来自T-drive项目的出租车轨迹。
    • 这些出租车轨迹是在几天内通过出租车id,GPS坐标和时间戳从10,357辆出租车中收集的
    • 按小时划分这些轨迹,并丢弃短长度的轨迹
    • 使用空间相似函数(Shang et al. 2017b)通过GPS坐标在北京道路网络上创建基准真值
    • T-Drive trajectory data sample - Microsoft Research
  • 纽约的轨迹从NYC Open Data - (cityofnewyork.us)获取
    • 使用相同的预处理方法来处理这些轨迹并获得基准真值
  • 对于这两个数据集,我们将这些数据随机分为训练集,验证集和测试集,比例为[0.2,0.1,0.7]

2 2022

2.1 CIKM 2022 Efficient Trajectory Similarity Computation with Contrastive Learning

为两个数据集设置相同的采样率,即15秒。

根据轨迹的开始时间戳将每个数据集划分为训练集和测试集,其中前100万条轨迹用于训练,其余的用于测试

2.2 CIKM 2022 Aries: Accurate Metric-based Representation Learning for Fast Top-k Trajectory Similarity Query

波尔图数据集:从2013年到2014年,有超过四百辆出租车的170万辆车轨迹。

我们根据它们的位置和时间戳,在三个月内选择了一个相对集中的轨迹集,数量为100𝑘。

然后我们删除少于50个点的记录,并将整个区域划分为1500×1500大小的网格。

经过预处理,我们在波尔图获得了79,362条轨迹。

2.3 CIKM 2023 Can Adversarial Training benefit Trajectory Representation? An Investigation on Robustness for Trajectory Similarity

  • 波尔图的数据集——从2013年7月到2014年6月的12个月期间的170万条出租车轨迹
    • 删除了长度少于30的轨迹
    • 最终剩下120万条轨迹
  • 北京数据集(Geolife)
    • 2007年4月到2012年8月收集的17621条轨迹
    • 也选择了那些至少满足长度为30的轨迹,并且在连续采样点之间的时间间隔小于20秒
    • 这样的操作产生了8214条轨迹
  • 对于波尔图数据集,训练数据由800,000条轨迹组成,其余的用于测试数据。
  • 对于Geolife数据集,前4928条轨迹用于训练数据,其余的用于测试数据。

2.4 Sigspatial 2022 TSNE: trajectory similarity network embedding

Geolife ——由182个用户从2007年到2012年在中国北京收集的17,621条轨迹组成。

选择了城市中心区域的轨迹,并将该区域离散化为200m×200m的网格单元。

移除了所有点太稀疏(少于10个点的轨迹),并在Geolife中获得了10,504条轨迹。

2.5 KDD 2022 Spatio-Temporal Trajectory Similarity Learning in Road Networks

  • 北京包含了从2008年2月2日到2008年2月8日在中国北京收集的1500万个出租车轨迹点。
  • 罗马包含了367,052条来自意大利罗马的出租车轨迹,覆盖了30多天。

  • 首先将所有轨迹映射匹配到来自OpenStreetMap的相应道路网络。
    • 这样,原始GPS轨迹数据就转换成了按时间顺序排列的顶点序列。
    • 进一步,获取了来自城市地区的轨迹,并移除了少于10个采样点的轨迹。
    • 这个预处理得到了在北京的348,210条轨迹和在罗马的45,157条轨迹。

2.6 KDD2022  TrajGAT: A Graph-based Long-term Dependency Modeling Approach for Trajectory Similarity Computation

  • 西安的出租车轨迹
    • 从2007年到2010年的17,621条人类移动轨迹
  • 波尔图
    • 从2013年到2014年的超过170万条出租车轨迹
  • 预处理:选择城市中心区域的轨迹,并移除少于10条记录的轨迹
  • 处理后,我们获得了西安数据集的7641条轨迹和波尔图数据集的超过600,000条轨迹

2.7 ICDE 2022 TraSS: Efficient Trajectory Similarity Search Based on Key-Value Data Stores

(1)TDrive ,包含了两周内北京的321,387条出租车轨迹(752MB)

(2)Lorry,包含了广州的4,394,397条JD物流卡车轨迹(136GB)

(3)合成,为了验证TraSS的可扩展性,我们使用了由Lorry数据集复制7次生成的五个合成数据集

2.8 ICDE 2022 TMN: Trajectory Matching Networks for Predicting Similarity

• Geolife  由中国北京的182名用户收集,它包含了广泛的人类户外运动,这些运动是用户的GPS位置。总共,Geolife中有17,612条轨迹。

• Porto  包含了超过170万辆车的路线轨迹,主要由葡萄牙波尔图的442辆出租车收集。

遵循之前的工作,过滤掉位于稀疏区域的轨迹,保留城市中心区域的轨迹用于训练和测试。

也移除了少于10条记录的轨迹。

  • 这是因为计算较长序列的相似性更为困难和耗时。
  • 此外,轨迹数据集通常以许多GPS错误和其他问题为特征,如果受到影响,短轨迹会严重受到这些错误的影响

经过预处理后,Geolife数据集中有大约8,000条轨迹,Porto数据集中有600,000条轨迹

2.9  ICDE 2022 Continuous Trajectory Similarity Search for Online Outlier Detection

1)北京(Geolife)

        该数据集保留了182名用户在三年多的时间里的所有旅行记录,包括多种交通方式(步行、驾驶和乘坐公共交通)。

        轨迹每1-5秒采样一次,两个相邻点之间的平均速度为5.73 m/s。

        北京的道路网络有65,129个节点和85,322条边。

2)新加坡。

        该数据集追踪了新加坡的15,054辆出租车的轨迹。

        对于每辆出租车,GPS信息在整整一个月内以半分钟到三分钟的采样率持续收集。

        它在两个相邻点之间的平均距离远高于GeoLife。

        新加坡的道路网络包含20,801个节点和42,309条边。

这是一个私有数据

3)波尔图。

        该数据集包含了442辆出租车在波尔图市,葡萄牙一整年(从2013年7月1日到2014年6月30日)的轨迹。

        其道路网络具有最细的粒度,有100,484个节点和129,303条边。

3 2021

3.1 ICDE 2021 REPOSE: Distributed Top-k Trajectory Similarity Search with Local Reference Point Tries

我们在3种类型的数据集上进行实验。

1)小规模和小空间跨度:旧金山(SF),波尔图(Porto),罗马(Rome),T-drive [33]。

2)大规模和小空间跨度:成都和西安。

3)大规模和大空间跨度:OSM。

数据集统计信息显示在表III中。

在预处理阶段,我们删除长度小于10的轨迹,并将长度大于1000的轨迹分割成多条轨迹。我们均匀且随机地选择100条轨迹作为查询集。

1http://sigspatial2017.sigspatial.org/giscup2017/home 2https://www.kaggle.com/c/pkdd-15-predict-taxiservice-trajectory-i 3http://crawdad.org/roma/taxi/20140717 4https://gaia.didichuxing.com 5https://www.openstreetmap.org

3.2 ICDE 2021 T3S: Effective Representation Learning for Trajectory Similarity Computation

我们的实验使用了以下两个数据集:

• Geolife [17] 是一个基于GPS的轨迹数据集,由2007年4月至2012年8月在中国北京的182名用户收集。该数据集包含17,621条轨迹,并记录了广泛的人类户外活动。

• Porto [18] 是一个包含超过170万辆车路线轨迹的数据集,由葡萄牙波尔图的442辆出租车收集。该数据集用作评估交通监测模型的基准。

3.3 KDD 2021 A Graph-based Approach for Trajectory Similarity Computation in Spatial Networks

使用来自不同城市的两个空间网络。一个是来自北京市的,即北京道路网络(BRN)。另一个是来自纽约市的,即纽约道路网络(NRN)。

在BRN数据集中,有28,342个兴趣点和27,690条边;在NRN数据集中,有95,581个兴趣点和260,855条边。

对于BRN中的轨迹,我们使用来自T-drive项目的出租车行驶数据。BRN中的出租车轨迹是按出租车id收集的,一条轨迹的时间范围可能持续几天。因此,我们按小时分割这些轨迹,然后我们总共可以得到5,621,428条轨迹。通过过滤异常值,这些轨迹的平均长度为25。

对于NRN中的轨迹,我们使用来自纽约的出租车行驶数据。在原始数据集中,有697,622,444次行程,我们随机抽样其中的一部分来生成轨迹数据集。经过预处理后,我们的实验中有10,541,288条轨迹,它们的平均长度为38。详细信息总结在表1中。

对于这两个轨迹数据集,我们都以20%、10%和70%的比例随机分割它们为训练集、评估集和测试集。

4 2020

4.1 IJCAI 2020 Trajectory Similarity Learning with Auxiliary Supervision and Optimal Matching

ECML/PKDD 15: Taxi Trajectory Prediction (I) | Kaggle

4.2 2020 ICDE Parallel Semantic Trajectory Similarity Join

  • 纽约轨迹数据(NTD)和北京轨迹数据(BTD)。
    • NTD包含一张道路网络和1000万辆出租车行程。每个出租车行程都是一个起点-终点对。
    • 将从源到目的地的最短路径视为一次行程的轨迹。
    • 此外,使用了一个真实的POI数据集,其中包含了纽约市的19,969个POI。
      • 每个POI都有一个带有纬度和经度的空间坐标和一个文本描述。
      • 因为POI可能不匹配轨迹点,我们将每个POI映射到道路网络中最近的节点,并将POI视为语义轨迹中的一个对象。
  • 在BTD中——T-drive
    • BTD中的原始轨迹非常长,因为每条轨迹都包含了特定时间段内的所有行程,这可能是几天。
    • 我们将这些轨迹划分为半小时的子轨迹。目的是创建具有现实长度和持续时间的行程。
    • 为了用文本描述增强每个轨迹点,我们从包含200万条推文的真实推文集合中随机选择一条推文,并将推文的文本描述与轨迹点关联起来。 

https://publish.illinois.edu/dbwork/open-data/

5 更早

5.1 ICDE 2018 Deep Representation Learning for Trajectory Similarity Computation

第一个数据集在葡萄牙的波尔图市收集,持续19个月,包含170万条轨迹。每辆出租车每15秒报告一次其位置。我们移除了长度少于30的轨迹,得到了120万条轨迹。

第二个数据集包含了在中国哈尔滨市收集的8个月内13000辆出租车的轨迹。我们选择了长度至少为30,且连续采样点之间的时间间隔少于20秒的轨迹。这产生了150万条轨迹。

我们根据轨迹的开始时间戳将两个集合划分为训练数据和测试数据。对于这两个集合,前80万条轨迹用于训练,其余的轨迹用于测试。

5.2 2019 ICDE Computing Trajectory Similarity in Linear Time: A Generic Seed-Guided Neural Metric Learning Approach

第一个数据集[33],被称为Geolife,包含了从2007年到2010年的17,621条人类移动轨迹。

第二个数据集[23]包含了从2013年到2014年的超过170万条出租车轨迹。

为了减小M的维度,我们选择了城市中心区域的轨迹,并将该区域离散化为50m × 50m的网格单元。

然后,我们删除了记录少于10条的轨迹。经过这样的预处理,我们在Geolife中获得了8203条轨迹,在波尔图中获得了601,071条轨迹。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/90451.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Idea引入thymeleaf失败解决方法

报错 Whitelabel Error Page This application has no explicit mapping for /error, so you are seeing this as a fallback.Fri Sep 29 09:42:00 CST 2023 There was an unexpected error (typeNot Found, status404). 原因:html没有使用thymeleaf 首先要引入…

Linux Day18 TCP_UDP协议及相关知识

一、网络基础概念 1.1 网络 网络是由若干结点和连接这些结点的链路组成,网络中的结点可以是计算机,交换机、 路由器等设备。 1.2 互联网 把多个网络连接起来就构成了互联网。目前最大的互联网就是因特网。 网络设备有:交换机、路由器、…

【MATLAB源码-第38期】基于OFDM的块状导频和梳状导频误码率性能对比,不同信道估计方法以及不同调制方式对比。

1、算法描述 块状导频和梳状导频都是用于无线通信系统中信道估计的方法。 块状导频: 定义: 在频域上,块状导频是连续放置的一组导频符号。这意味着所有的导频符号都集中在一个短的时间段内发送。 优点: 对于时间选择性信道&#…

Python 打印素数

"""打印素数介绍:素数是指只有两个正因数(1和它本身)的自然数,而且必须大于1。例如:2、3、5、7、11、13、17、19、23、29等等都是素数。小于2的数不是素数,因为它没有两个正因数。例如&…

基于JAVA+SpringBoot的新闻发布平台

✌全网粉丝20W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取项目下载方式🍅 一、项目背景介绍: 随着科技的飞速发展和…

IO流 之 缓冲流(字节缓冲流和字符缓冲流)

缓冲流对原始流进行了包装,以提高原始流读写数据的性能。 字节缓冲流(BufferedInputStream和BufferedOutputStream) 字节缓冲流在内存中提供了一个默认为8kb的区域,用于缓冲,当流开始时,先读取一个8kb的内…

skywalking入门

参考: https://www.jianshu.com/p/ffa7ddcda4ab 参考: https://developer.aliyun.com/article/1201085 skywalking(APM) 调用链路分析以及应用监控分析工具 Skywalking主要由三大部分组成:agent、collector、webapp-…

十六.镜头知识之工业镜头的质量判断因素

十六.镜头知识之工业镜头的质量判断因素 文章目录 十六.镜头知识之工业镜头的质量判断因素1.分辨率(Resolution)2.明锐度(Acutance)3.景深(DOF):4. 最大相对孔径与光圈系数5.工业镜头各参数间的相互影响关系5.1.焦距大小的影响情况5.2.光圈大小的影响情况5.3.像场中…

CISSP学习笔记:人员安全和风险管理概念

第二章 人员安全和风险管理概念 2.1 促进人员安全策略 职责分离: 把关键的、重要的和敏感工作任务分配给若干不同的管理员或高级执行者,防止共谋工作职责:最小特权原则岗位轮换:提供知识冗余,减少伪造、数据更改、偷窃、阴谋破坏和信息滥用的风险&…

快速幂矩阵-python

看了大神讲解,理论在这里:快速幂算法(全网最详细地带你从零开始一步一步优化)-CSDN博客 例题:求整数 base 的 整数 power 次方,对整数 num_mod 取幂。 python 代码如下: import timedef norm…

LabVIEW在运行时调整表控件列宽

LabVIEW在运行时调整表控件列宽 如何在LabIEW中运行时调整表控件的列宽大小? 在VI运行时,有两种不同的方法可以更改表中列的宽度。首先,可以使用鼠标手动更改它们;其次,可以从框图中以编程方式更改它们。 手动更改列宽 只有在…

IPsec_SSL VPN身份鉴别过程简要

一、IPsec VPN身份鉴别(参考国密标准《GMT 0022-2014 IPsec VPN技术规范》) IKE第一阶段(主模式) “消息2”由响应方发出,消息中具体包含一个SA载荷(确认所接受的SA提议)、响应方的签名证书和…

基于AI图像识别的智能缺陷检测系统,在钢铁行业的应用-技术方案

目录 概述 废钢智能检判方案简介 废钢智能检判系统优势及价值 废钢人工检判过程 废钢等级检判标准 废钢检判结果 智能检判方案-废钢智能检判算法 算法一:废钢等级识别算法 算法二:不合格料的位置识别算法 算法三:不合格料的类型识别…

【再识C进阶3(下)】详细地认识字符分类函数,字符转换函数和内存函数

前言 💓作者简介: 加油,旭杏,目前大二,正在学习C,数据结构等👀 💓作者主页:加油,旭杏的主页👀 ⏩本文收录在:再识C进阶的专栏&#x1…

全网最全面最精华的设计模式讲解,从程序员转变为工程师的第一步

前言 现代社会,技术日新月异,要想跟上技术的更新就必须不断学习,而学习技术最有效方式就是阅读优秀的源码,而优秀的源码都不是简单的逻辑堆积,而是有很灵活的设计模式应用其中,如果我们不懂设计模式&#…

idea2023根据表自动生成+springboot跑起来

idea安装插件 idea中显示数据库连接 就可以看到如下界面 选中你想生成的表,右键如下操作 如上就有了所有需要的后端代码 生成后,要查看一下mapper.xml中的文件是否 正确,若有误请先去修改,例如我的版本下生成了xml文件中缺乏…

基于SpringBoot的银行账目账户管理系统设计与实现(源码+lw+部署文档+讲解等)

文章目录 前言具体实现截图论文参考详细视频演示为什么选择我自己的网站自己的小程序(小蔡coding)有保障的售后福利 代码参考源码获取 前言 💗博主介绍:✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领域优质创作…

51单片机用IIc控制OLED显示数组内容

为了能够看到51单片机接收到的串口数据,我选择了用oled显示收到的数据,特此花重金买了一块oled屏128X64的屏幕大概10来块钱吧!首先要达成的小目标就是能够显示数组的内容,建立一个字符数组,用来接收串口收到的数据&…

基于SpringBoot的古典舞在线交流平台的设计与实现

目录 前言 一、技术栈 二、系统功能介绍 系统主界面 用户注册界面 论坛交流界面 课程详情界面 购物车界面 我的订单界面 管理员登录界面 会员用户管理界面 服饰管理界面 课程管理界面 三、核心代码 1、登录模块 2、文件上传模块 3、代码封装 前言 随着互联网技术…

Python函数:chr()和ord()

两个函数是基于Unicode编码表进行进行字符与字码之间的转换。 chr()函数是通过字码转换成字符: 如图,坐标(1,4e10)丑 使用chr需要线将坐标相加得到:4e11 chr默认传入10进制的字码. 如图是各进制的字码。 也可以传入其他进制,不过需要在前面传入的参数最前…