本文是LLM系列文章,针对《When Urban Region Profiling Meets Large Language Models》的翻译。
当城市区域轮廓遇到大型语言模型时
- 摘要
- 1 引言
- 2 前言
- 3 方法
- 4 实验
- 5 结论与未来工作
摘要
基于网络数据的城市区域概况对城市规划和可持续发展至关重要。我们见证了LLM在各个领域的上升趋势,特别是在处理多模态数据研究方面,如视觉语言学习,其中文本模态作为图像的补充信息。由于文本模态从未被引入城市区域分析中的模态组合,我们在本文中试图回答两个基本问题:(1)文本模态能增强城市区域分析吗?ii)如果是,以什么方式以及在哪些方面?为了回答这些问题,我们利用大型语言模型(LLM)的力量,引入了第一个LLM增强框架,该框架将文本模态的知识集成到城市图像分析中,名为LLM增强的城市区域分析与对比语言图像预训练(UrbanCLIP)。具体来说,它首先通过开源的图像到文本LLM为每个卫星图像生成详细的文本描述。然后,在图像-文本对上训练模型,无缝地统一了城市视觉表征学习的自然语言监督,以及对比损失和语言建模损失。对中国四大城市三个城市指标的预测结果表明,该方法具有优越的性能,与最先进的方法相比, R 2 R^2 R2平均提高了6.1%。我们的代码和图像语言数据集将在书面通知后发布。
1 引言
2 前言
3 方法
4 实验
5 结论与未来工作
从社会、经济和环境指标的角度分析城市地区对城市规划和可持续发展至关重要。本文研究了文本形态是否以及如何有利于城市区域分析。为了回答这个问题,我们提出了UrbanCLIP,这是第一个将文本模态集成到城市图像分析中的框架。在LLM的支持下,UrbanCLIP首先为城市图像生成高质量的文本描述。然后将文本-图像对输入到所提出的模型中,该模型无缝地统一了城市视觉表征学习的自然语言监督。大量的实验证明了整合语篇情态的有效性。
我们希望这项工作能推动未来在以下领域对城市区域特征进行研究:1)研究整合城市多模态数据和促进快速增强学习的高效方法;2) 探索使用最新LLM自动生成和细化高质量文本;3) 识别更多潜在的有益下游任务,鼓励其他研究人员探索不同的用例。