1 intro
1.1 背景
- 尽管对人类移动轨迹数据集的需求不断增加,但其访问和分发仍面临诸多挑战
- 首先,这些数据集通常由私人公司或政府机构收集,因此可能因泄露个人敏感生活模式而引发隐私问题
- 其次,公司拥有的数据集可能会暴露专有商业模式,通常难以用于研究目的
- 最后,公开可用的数据集通常缺乏多样性或质量,数据点存在空白和固有噪声,显著降低了其实用性
- ——>建立既高质量又可用于研究的替代轨迹数据源是必要的
1.2 目前方法的问题
- 基于GAN和VAE的方法
- 将数据结构化为表格格式
- <——这未能保留位置之间的内在关联
- LSTM和顺序GAN
- 以保持位置的平滑连续性,且捕捉到的真实人类移动特征有限
- 这些方法的另一个限制在于观察到的地理位置序列中存在较高的不匹配率
1.3 论文思路
1.3.1 motivation
- 轨迹和句子具有若干相似之处
- 两者都由从有限池中选择的元素有序集合组成(分别是道路链接和单词)
- 它们展示了语义或时空关系,遵循各自的规则系统,例如句子的语言规则和轨迹的地理约束
- ——>自然语言处理开发的技术可以被改编用来建模和生成真实的轨迹
- 此外,引力模型在人类移动建模中具有重要意义,因为它提供了一个估计和理解不同位置间互动流动的结构化框架
- ——>在合成轨迹生成任务中使用引力作为人类移动建模的一部分可能会带来更多优势
1.3.2 方法
- 直接在没有地理空间见解的情况下训练GPT在移动数据上会生成不现实的序列
- 为了生成更真实的合成轨迹,引入了几种创新方法,包括
- 引力感知采样
- 将轨迹数据的引力建模纳入训练更新
- 用道路连接矩阵(RCM)掩码从logits中消除不连接的位置序列
- 引力感知采样
2 方法
2.0 轨迹和句子的相似性
- 轨迹序列在四个关键维度上与句子相似:
- 顺序依赖性
- 位置顺序很重要
- 空间关系
- 轨迹涉及位置之间的空间关系,就像句子中的单词传达语义关系一样
- 上下文嵌入
- 轨迹受益于考虑整个序列的上下文嵌入,类似于对句子中单词的上下文理解
- 可变长度序列。
- 轨迹序列像句子一样可以具有可变长度
- 顺序依赖性
2.1 主体方法
3 实验
3.1 评估指标
- 查询误差
- 量化了经常访问地点的移动特征
- 较低的查询误差表明输出的合成轨迹与训练轨迹更相似
- Jensen-Shannon散度(JSD)
- 要用于量化两个概率分布之间的相似性
- 使用JSD评估MobilityGPT在四个指标上的表现:OD相似性、行程长度、旅行半径和引力分布