2025-04-15,由慕尼黑工业大学等机构创建的 EuroCropsML 数据集,这是一个结合了农民报告的作物数据与 Sentinel-2 卫星观测的时间序列数据集,覆盖了爱沙尼亚、拉脱维亚和葡萄牙。该数据集为解决遥感应用中作物类型数据空间不平衡问题提供了新的基准,有助于推动少样本学习和迁移学习算法在真实世界作物分类任务中的应用和评估。
一、研究背景
卫星遥感技术在农业领域发挥着重要作用,如作物类型分类、产量预测等。然而,不同地理区域的作物类型数据分布极不均衡,这种数据空间不平衡问题给准确的作物分类带来了挑战。为了克服这一问题,迁移学习和元学习算法应运而生,但它们在真实世界复杂应用中的表现尚待深入评估。
目前遇到困难和挑战:
1、数据空间不平衡:不同地区作物数据的丰富程度差异巨大,导致在数据匮乏地区难以直接应用基于数据丰富地区训练的模型。
2、算法泛化能力不足:现有的迁移学习和元学习算法在不同地理区域之间的知识迁移效果不佳,难以适应新地区的作物分类任务。
3、计算资源与性能的权衡:提高模型性能往往需要更多的计算资源和更长的训练时间,这在实际应用中可能会受到限制。
数据集地址:EuroCropsML|农业数据分析数据集|遥感技术数据集
二、让我们一起看一下EuroCropsML
EuroCropsML 是一个结合了农民报告的作物数据与 Sentinel-2 卫星观测的时间序列数据集,专为少样本作物类型分类任务设计。
该数据集基于 EuroCrops 参考数据,扩展了 Sentinel-2 L1C 反射率数据,覆盖了爱沙尼亚、拉脱维亚和葡萄牙的农业区域。为了减少数据不平衡问题,对某些频繁出现的作物类型(如牧草)进行了重采样。此外,还对数据进行了预处理,包括去除云层干扰和标准化等操作。
数据集包含 706,683 个具有多类标签的数据点,涉及 176 种不同的作物类型,其中 35 种在三个国家都有分布。每个数据点包含一年内无云的多光谱 Sentinel-2 观测数据的时间序列,时间步长多达 216 个。
数据集特点:
1、多国覆盖:包含来自爱沙尼亚、拉脱维亚和葡萄牙的农业数据,具有不同的气候条件和农业实践。
2、多类标签:涵盖了 176 种不同的作物类型,提供了丰富的分类任务。
3、时间序列数据:每个数据点包含一年内的多光谱 Sentinel-2 观测数据,能够反映作物的生长周期。
基准测试:
在基准测试中,MAML 类算法(如 MAML 和 ANIL)在少样本学习任务中表现最佳,其中 ANIL 在 500-shot 任务中达到了 65.2% 的分类准确率和 0.556 的 Cohen’s Kappa 系数,分别比无预训练提升了 2.0% 和 2.7%,显示出显著的性能提升,但这些算法的训练时间比传统方法长了 3-5 倍。
源区域和目标区域(使用 EuroCrops HCAT3 第 3 级(Schneider 等人,2023a,b))的农田可视化。初始训练在源区域的 Sentinel-2 L1C 农业时间序列上进行,随后在独立的目标区域对模型进行微调和评估。
目前,在欧盟27个成员国中,有17个国家的数据在EuroCrops数据集中实现了协调,而有四个国家仅提供了部分数据。数据的可用性指的是EuroCrops数据集的第10版。
根据农业参考数据的可用性对欧盟成员国进行排序。这指的是EuroCrops数据集的第10版
在三个感兴趣区域(ROI):爱沙尼亚、拉脱维亚和葡萄牙之间共享和独特的标注作物类别的数量。
构成EuroCropsML数据集的三个国家的数据点数量和不同的作物类别数量。数据点的数量指的是经过预处理后独特地块的数量
上部直方图显示了在预训练和微调数据集中,不同丰度(地块数量)的作物类别数量的分布情况。下部直方图则专注于爱沙尼亚的微调数据,展示了在预训练阶段是否见过的作物类别数量分布,这些数据仅来自拉脱维亚或拉脱维亚和葡萄牙。两个直方图均使用对数刻度。
用于采样元学习任务的拉脱维亚(左)和葡萄牙(右)的NUTS区域
三、展望EuroCropsML应用
案例:作物分类在农业管理中的应用
以前,农民们要想知道地里种的是啥作物,主要靠自己去田里看看,或者请专家来实地考察。这种方法不仅费时费力,还只能覆盖一小块地。要是地多了,根本忙不过来。而且,靠人眼识别,难免会出错,导致分类不准确。比如,有些作物长得差不多,很容易混淆。
另外,虽然卫星图像也能帮忙,但以前的卫星图像分析方法需要很多标注好的数据来训练模型。可问题是,不同地方的数据分布不一样,有些地方数据多,有些地方数据少,这就导致模型在数据少的地方表现不好,分类精度差。
现在,有了 EuroCropsML 数据集,农场可以这样操作:
1、数据预处理:用数据集里的卫星图像和农民报告的作物数据,先对农场的作物进行预训练。
2、模型训练:选一个好用的算法,比如 MAML 或 ANIL,在预训练的基础上稍微调整一下,就能适应农场的具体情况。
3、实时监测:把训练好的模型用起来,实时监测作物的生长情况,发现问题及时调整。
4、精准决策:根据分类结果,农民可以更科学地安排种植,选择合适的作物品种,优化灌溉和施肥计划。
这样一来,农场不仅分类更准了,还省了不少事儿,产量也提高了,实现了精准农业。
更多免费的数据集,请打开:遇见数据集
遇见数据集-让每个数据集都被发现,让每一次遇见都有价值。遇见数据集,领先的千万级数据集搜索引擎,实时追踪全球数据集,助力把握数据要素市场。https://www.selectdataset.com/