AI「鸟口普查」，康奈尔大学利用深度学习分析北美林莺分布

据世界自然基金会统计，1970-2016 年，全球代表物种种群数量减少了 68%，生物多样性不断下降。
保护生物多样性，需要对当地生态情况进行准确分析，制定合理的生态保护政策。然而，生态数据太过庞杂，统计标准又难以统一，大规模的生态分析很难开展。
近期，康奈尔大学的研究者们利用深度学习，分析了 900 万组鸟类数据，得到了林莺在北美洲的分布数据，开启了生态数据分析的新篇章。

作者 | 雪菜

编辑 | 三羊、铁塔

据世界自然基金会 (WWF) 统计，1970 年至 2016 年，全球 4,392 个代表物种、20,811 个种群的平均数量降低了 68% ，全球生物多样性正在下降。

在这里插入图片描述

图 1：1970-2016 年，全球 4,392 个代表物种、20,811 个种群的平均数量变化

保护生物多样性，需要对相关地区的物种分布进行准确的大规模分析。 然而，由于数据量过于庞大，且缺乏统一的统计方法，研究者们暂无法准确统计特定区域的生物多样性（物种丰富度、种群数量等）和生物组成数据（在当地生态系统中某一个物种的地位）。

传统的物种丰富度统计，需要将不同物种的分布地图叠加，进行建模预测，或是直接通过宏观生态学模型进行预测。无论哪种方法，推断结果都会受到模型精度的影响，前者还会受到地图精度的影响。

而且，这种预测方法的时间分辨率很差，无法对物种分布的季节性变化作出准确判断，更无法对物种间的联系进行研究，不利于生态保护政策的制定。

深度学习为生物多样性的大规模时空研究提供了有效手段。美国康奈尔大学的研究者们结合深度推理网络 (DRN, Deep Reasoning Network) 和深度多元 Probit 模型 (DMVP, Deep Multivariate Probit Model) 开发了 DMVP-DRNets 模型，从 9,206,241 组 eBird 数据中分析出了林莺 (Warbler) 在北美洲的时空分布，并对林莺与环境、其他物种之间的联系作出了推断。相关成果已发表于「Ecology」。

在这里插入图片描述

这一成果已发表于「Ecology」

论文链接：

https://esajournals.onlinelibrary.wiley.com/doi/10.1002/ecy.4175

实验过程

数据集：eBird 与协变量

研究人员使用 2004 年 1 月 1 日至 2019 年 2 月 2 日， 170°-60° W，20°-60° N 之间的 eBird 数据作为本研究的数据集。排除重复数据后，共有 9,206,241 组 eBird 数据，每组 eBird 数据包括时间、日期、地点及观察到的所有鸟类物种。

图 2：一组银喉长尾山雀的 eBird 数据

研究人员还引入了 72 个协变量，包括 5 个与观察者相关的协变量，如活动状态、观察人数、观察时间等；3 个与时间相关的协变量，主要用于弥合不同时区之间的偏差；64 个与地形地貌相关的变量，如海拔、海岸线、岛屿等。

模型框架：解码器 + 潜在空间

本研究使用基于 DMVP 的 DRN 进行数据分析和预测。这一模型包含 3 层全连接 (fully-connected) 的网络解码器，用于分析输入特征的相关性，还有两个结构化潜在空间 (structured latent space) ，用以表示物种之间和物种-环境间的关联。

在这里插入图片描述

图 3：DMVP-DRNets 模型结果示意图

最终，DMVP-DRNets 模型通过一个可解释的潜在空间，输出 3 个生态相关的结果：

1、环境相关特征：反映了不同环境协变量之间的联系和相互作用；

2、物种相关特征：通过残差相关矩阵反映不同物种间的联系；

3、生物多样性相关特征：如某一物种的丰度和分布等。

模型评估：与 HLR-S 对比

将 DMVP-DRNets 模型投入大规模使用前，研究人员首先将其与基于空间高斯过程的 HLR-S 模型进行了对比。HLR-S 是生态学中研究多物种联合分布最常用的模型之一。

首先用 10,000 组 eBird 数据对两个模型进行训练。HLR-S 模型训练用时超过 24 小时，而 DMVP-DRNets 模型耗时不足 1 分钟。

在这里插入图片描述

表 1：DMVP-DRNets 模型和 HLR-S 模型性能对比

随后，对不同规模的 eBird 数据进行分析，DMVP-DRNets 模型在 11 个评价标准中优于 HLR-S 模型，仅在物种丰富度校准损失中落后于 HLR-S 模型。

实验结果

分布区域：阿巴拉契亚山脉

在对 eBird 的数据进行分析后，DMVP-DRNets 模型输出了空间分辨率为 2.9 km2 的北美林莺各月分布图。不同品种林莺在北美的分布动态性很强，每个月都有不同的分布热点。在对各月分布图进行叠加后，研究人员发现阿巴拉契亚山脉是林莺物种多样性最高的区域。

图 4：北美洲的林莺分布图

a：林莺在北美洲各地的最大物种丰富度分布

b：林莺在北美洲的主要分布区域

同时，研究人员还发现了不同迁徙期的林莺分布热点。在繁殖前迁徙期，林莺主要分布在俄亥俄州、西弗吉尼亚州和宾夕法尼亚州的阿巴拉契亚山脉附近。而在繁殖后，北阿巴拉契亚山脉是林莺分布最多的区域。

在这里插入图片描述

图 5：繁殖前迁徙期 (a) 和繁殖后迁徙期 (b) 的林莺分布

林莺-环境：水陆与季节偏好

进一步的，研究人员利用 DMVP-DRNets 模型对美国东北部的林莺-环境间的相互作用进行了分析。

首先，研究人员能够大致分辨出不同林莺对水生环境和陆地环境的偏好。 随后，他们发现在繁殖期不同品种林莺对于环境的喜好不同。 喜好水生环境的蓝翅黄森莺、北森莺和黄喉林莺在繁殖期栖息较近，而松林莺会和其他与松林相关的物种走得更近，如棕头鳾和红头啄木鸟。

随着季节的变化，不同林莺的分布也有变化。 在繁殖后迁徙期，大多数林莺会抱团栖息，而棕榈林莺会选择在稍晚的秋天迁徙。松林莺和黄腰白喉林莺则会整年栖息在美国东北部。

在这里插入图片描述

图 6：繁殖期林莺与环境、其他物种之间的关联性

在这里插入图片描述

图 7：繁殖后迁徙期林莺与环境、其他物种之间的关联性

物种间关联：竞争与合作

在繁殖期、非繁殖期和迁徙期，林莺与其他物种之间展现出了不同的关系。

在繁殖期，林莺主要在防御自己的栖息地，与其他物种关联较弱。 在栖息地相近且进攻性较强的品种之间，甚至是负关联，如黑枕威森莺和橙尾鸲莺。

在迁徙期，大多数林莺之间展现出了较强的正相关，与森林中的其他物种也有强关联性。 这与观察的结果一致，林莺会与红眼绿鹃、黑冕山雀等其他物种组成混合迁徙队伍。

在此期间，林莺与巨翅鵟、条纹鹰、鸡鹰、赤肩鵟等捕食者关系较差，二者负相关系数较高。

在这里插入图片描述

图 8：繁殖期 (a) 和繁殖后迁徙期 (b) 林莺与其他物种的相关系数

上述结果说明，DMVP-DRNets 模型可以对不同时期的林莺分布作出准确的判断，并能够推断出林莺与环境、其他物种之间的联系，为制定生态政策提供依据。

AI 「鸟口普查」

除了数据分析，数据采集也是生态研究的重要部分。 与植物不同，鸟类的警觉性很高，动作迅速，且有些品种个体较小，很难进行准确观测。

传统方法依赖长焦相机、高倍望远镜和静止摄像头从远距离对鸟类进行观测。 这种方法虽然避免了对鸟类的干扰，但需要投入大量的人力物力，还需要观察者有相当的生态学、分类学知识。

通过深度神经网络，AI 可以进行高效的图像识别和声音识别，为鸟类观测提供了新方法。 在鸟类主要活动地部署音视频记录设备，设备可以将记录到的数据上传到服务器，随后通过 AI 对这些数据进行分析，提取出音视频中的信息，最终得到鸟类在这一区域的分布。这一方法已被国家林业和草原局广泛应用于公园、湿地和生态保护区中。

在这里插入图片描述

图 9：部署在黄河三角洲的鸟类智慧监测系统

同时，AI 的这一技能还可以减轻科研人员的工作负担。AI 可以排除背景和噪音的干扰，专注于图像的特征，迅速解决生态学者难以做出判断的问题。 比如下图中的照片，如果没有任何鸟类知识，很难从纷繁的羽毛中迅速判断出雏鸟的数量。

在这里插入图片描述

图 10：一窝雏鸟的照片，你能分辨出图中有多少只雏鸟吗 AI 正广泛应用于鸟类活动监测和鸟类分布分析中，自下而上搭建起鸟类研究的全系统，实现特定区域的「鸟口普查」。**相信在 AI 的帮助下，我们能够对生态系统有更透彻的认识，制定出更加符合当地情况的生态政策，逐渐恢复地球的生物多样性，保护我们的地球家园。**

参考链接：

[1]https://www.worldwildlife.org/publications/living-planet-report-2020

[2]https://phys.org/news/2023-09-ai-birds-easier.html

[3]https://www.forestry.gov.cn/main/586/20230118/094644604451331.html