【EAI 025】Ego4D: Around the World in 3,000 Hours of Egocentric Video

Paper Card

论文标题：Ego4D: Around the World in 3,000 Hours of Egocentric Video
论文作者：Kristen Grauman, Andrew Westbury, Eugene Byrne, et al.
作者单位：UC Berkeley, CMU, Google
论文原文：https://arxiv.org/abs/2110.07058
论文出处：CVPR 2022
论文被引：463（02/24/2024）
项目主页：https://ego4d-data.org/

研究问题：具身智能（Embodied AI）中的第一人称视听数据的多模态感知

面临挑战：

缺乏大规模，多样的数据集

主要贡献：

数据集 Ego4D：在规模（时长，相机佩戴者，标注数量，地理位置等），多样性（室内和室外，任务数量等）和真实感（真人佩戴相机）方面更上一层楼的第一视角的日常活动数据集，大多数是无脚本化（不指定相机佩戴者要执行什么活动）和in the wild的。“4D” 的含义是第一视角获取的 3D 空间信息 + 时间信息。
5 个基准任务阐明研究课题：涵盖了第一视角感知的基本组成部分——索引过去的经验，分析当前的互动，预测未来的活动。

主要结论：

COVID-19 大流行导致在烹饪、清洁、工艺等家庭场景中有足够的镜头，以及在主要社会公共事件收集视频的机会更有限。
Ego4D 注释由非洲两个地点的众包工作者完成。这意味着至少会有微妙的方式，其中基于语言的叙述偏向于他们的本地单词选择。
在进行注释之前，通过叙述程序处理所有视频。受 pause-andtalk narrator [44] 的启发，注释者被要求观看 5 分钟的视频片段，用几个句子总结它，然后重新观看，反复暂停以撰写有关相机佩戴者所做的每件事的句子。

总结：

如何构建数据集：从数据规模，多样性考虑
如何构建评测集：针对具体的真实世界的任务

Abstract

我们介绍的 Ego4D 是一个大规模第一视角（egocentric）视频数据集和基准套件。它提供了 3,670 个小时的日常生活活动视频，涵盖数百种场景（household, outdoor, workplace, leisure, etc.），由来自全球 74 个地点和 9 个不同国家的 931 名独特的摄像头佩戴者拍摄。收集方法的设计秉承了严格的隐私和道德标准，并在相关情况下征得了参与者的同意和严格的去标识化程序。Ego4D 大大增加了研究界可公开获得的第一视角各种视频片段的数量。部分视频还配有音频，环境 3D meshes，eye gaze，立体声和/或同一事件（event）中多个第一视角摄像机的同步视频。此外，我们还提出了一系列新的基准挑战，其核心是理解第一人称视觉体验的过去（查询 episode 记忆），现在（分析手部物体操作，视听对话和社交互动）和未来（预测活动）。通过公开分享这一大规模注释数据集和基准套件，我们旨在推动第一人称感知的前沿发展。

1. Introduction

今天的计算机视觉系统擅长在互联网照片或视频剪辑中命名物体和活动。他们在过去十年中取得的巨大进步得益于主要的数据集和基准测试工作，这些工作提供了在定义明确的任务上训练和评估算法所需的标注 [49, 60, 61, 92, 108, 143]。

虽然这一进展令人兴奋，但目前的数据集和模型仅代表视觉感知的有限定义。

首先，今天有影响力的互联网数据集从第三人称“观察者”的角度捕捉了短暂而孤立的时刻。然而，在机器人和增强现实中，从第一人称或“以自我为中心”的角度来看，输入都是一个长而流畅的视频流——我们通过环境中的Agent的眼睛来观察世界。

其次，尽管互联网照片是由人类摄影师有意拍摄的，但缺乏来自始终以第一视角的可穿戴相机的图像。最后，第一人称感知需要对相机佩戴者的物理环境进行持久的3D理解，并且必须在人类环境中解释物体和动作——关注人与物体的互动和高级社会行为。

受这些关键对比的启发，我们提出了 Ego4D 数据集和基准套件。Ego4D 旨在催化第一人称视觉感知的下一个研究时代。Ego 用于第一视角的，4D 表示的是 3D 空间加上时间信息。

在这里插入图片描述

我们的第一个贡献是数据集：一个大规模的自我视频收集前所未有的规模和多样性，捕捉世界各地的日常生活活动。见图 1。它由来自 9 个不同国家的 74 个全球位置的 931 名独特参与者收集的 3,670 小时的视频组成。绝大多数镜头是 unscripted 和 in the wild，代表相机佩戴者的自然互动，因为他们在家、工作场所、休闲、社交环境和通勤中了解日常活动。

根据自我识别的特征，相机的佩戴者来自不同的背景、职业、性别和年龄。视频丰富的地理多样性使得现有数据集中经常缺失的物体，活动和人员包括在内。由于每个参与者每次佩戴相机1到10个小时，因此数据集提供了长格式的视频内容，显示了一个人与环境、物体和其他人的复杂互动的完整弧线。除了RGB视频，部分数据集还提供音频，3D meshes，gaze，立体和/或同步多摄像头视图，允许从多个角度查看一个事件。我们的数据集从先前第一视角的视频数据工作中获得灵感[43,44,129,138,179,201,205,210]，但在规模，多样性和真实感方面取得了重大进展。

与拥有正确的数据同样重要的是拥有正确的研究问题。我们的第二个贡献是一套 5 个基准任务，涵盖了第一视角感知的基本组成部分——索引过去的经验，分析当前的互动，预测未来的活动。为了在这些方面进行研究，我们提供了数百万个丰富的注释，这些注释是由超过25万小时的注释者努力得来的，范围从时间，空间和语义标签，到活动的密集文本叙述，自然语言查询和语音转录。

2. Related Work

Large-scale third-person datasets

近十年来，带注释的数据集给计算机视觉带来了新的问题，也保证了它们的可靠评价。现有的集合，如Kinetics[108]、AVA[92]、UCF[207]、ActivityNet[61]、HowTo100M[157]、ImageNet[49]和COCO[143]，专注于第三人称网络数据，具有人类摄影师的优势和偏见。相比之下，Ego4D是第一人称。被动捕获的可穿戴摄像机视频需要不寻常的视点，运动模糊，缺乏时间策展。值得注意的是，第三人称数据的预训练自我中心视频模型[70,221,224,239]存在相当大的域不匹配[139,201]。

Egocentric video understanding

第一视角的视频提供了许多有趣的挑战，例如人与物体的交互[26,46,163]，活动识别[110,139,243]，预测[4,75,86,144,205]，视频总结[48,129,131,147,148,232]，检测手[16,134]，分析社会交互[66,168,231]，并推断相机佩戴者的身体姿势[107]。我们的数据集可以促进所有这些领域以及更多领域的新工作，我们提出的基准(及其注释)扩大了研究人员可以考虑向前推进的任务。我们将在第 5 部分讨论。

Egocentric video datasets

在过去的十年中，多个第一视角的数据集已经被开发出来。与我们的工作最相关的是那些包含无脚本日常活动的数据，包括 EPIC-Kitchens[43,44]，UT Ego[129,210]，Activities of daily Living (ADL) [179] 和 Disney数据集[66]。在[66,129,179] 中首次探索了让相机佩戴者走出实验室的做法，启发了我们的方法。其他则是(半)脚本化的，即指示相机佩戴者执行特定活动，如Charades-Ego[201]和EGTEA[138]。虽然今天的最大的第一视角数据集只关注厨房[44,44,124,138]，但 Ego4D 跨越室内和室外数百个环境。此外，虽然现有数据集在很大程度上依赖于研究生作为相机佩戴者 [43,44,66,129,129,138, 168, 179, 194, 210]，但Ego4D相机佩戴者的人口范围更广，如下所述。除了日常生活活动外，先前的第一视角数据集还关注对话[170]，人与人之间的互动[66,168,194,231]，地点定位[183,208]，多模态传感器数据[124,166,204]，人手[16,134]，人-物交互[106,184]和目标跟踪[56]。

Ego4D 比当今最大的第一视角的数据集大一个数量级，无论是在视频时间（3670 小时 vs. 100 小时[43]）还是独特的相机佩戴者（931 人 vs. 71 人[201]）；它跨越了数百个环境；它的视频来自 74 个全球位置和 9 个国家。Ego4D 注释也是前所未有的规模和深度，数百万个注释支持多个复杂任务。因此，Ego4D 表示数据集规模和多样性的阶跃变化。我们相信这两个因素对于追求下一代对具身 AI 的感知至关重要。

3. Ego4D Dataset

接下来，我们概述了我们在 Ego4D 许可下公开提供的数据集。

3.1. Collection strategy and camera wearers

我们不仅希望大规模收集一个第一视角的视频集合，而且还希望确保其个人、地点、物体和活动的多样性。此外，为了真实性，我们对长时间佩戴摄像头的人拍摄的无脚本镜头（拍摄时不指定具体干什么任务）感兴趣。

为此，我们设计了一种分布式数据收集方法。Ego4D 项目由 9 个国家和 5 大洲大学和实验室的 14 个团队组成（见图 1 中的地图）。每个团队招募参与者一次佩戴1到10小时，在第一个数据集发布(Ego4D-3K)中总共有931个独特的相机佩戴者和3,670小时的视频。74 个总城市的参与者在社区公告板上招募。一些团队招募了具有有趣视觉上下文的职业的参与者，例如面包师，木匠，庭院设计师或机械师。

在这里插入图片描述

我们团队的地理传播以及我们招募参与者的方法对于得出不同的人口组成至关重要，如图 2.1 所示，参与者涵盖了各种各样的职业，跨越许多年龄组，其中 96 人超过 50 岁，45% 是女性。

3.2. Scenarios composing the dataset

哪些活动属于第一视角的视频数据集？我们的研究是由机器人和增强现实（AR）的问题推动的，视觉系统会遇到日常生活场景。因此，我们查阅了来自 US 劳工统计局的调查以查清楚下述内容：

人们在家里花费大部分时间 (如清洁、烹饪)
休闲 (如制作、游戏、参加聚会)
交通 (如骑自行车、汽车)
跑腿 (如购物、遛狗、修车)
在工作场所 (如与同事交谈，做咖啡)

为了最大限度地覆盖此类场景，我们的方法是引导相机佩戴者与根本没有指导之间的折衷：

1）我们招募了集体日常生活活动自然包含场景传播的参与者（由参与者自由选择），
2）我们要求参与者佩戴相机的时长（至少只要设备的电池寿命），以便活动将在更长的上下文中自然展开。

我们数据集中的一个典型的原始视频剪辑持续 8 分钟——明显长于第三人称视频理解中经常研究的 10 秒剪辑 [108]。通过这种方式，我们在注意场景的覆盖范围的同时捕获了未脚本的活动。

例外是对于某些多人场景，其中，为了确保视听和社会基准有足够的数据，我们询问了五个同意分享对话音频和未模糊面孔的网站的参与者参加社交活动，例如玩游戏。我们利用 Ego4D 的这一部分进行视听和社会交互基准（第 5.3 节和第 5.4 节）。

在这里插入图片描述

图 3 显示了我们数据集中捕获的场景的广泛分布。请注意，在每个给定的场景中，通常发生了数十个动作。总体而言，931 名相机佩戴者最好让我们的数据集了解世界各地的日常生活活动。

3.3. Cameras and modalities

为了避免模型过度拟合单个捕获设备，在数据集中部署了七种不同的头戴式摄像头：GoPro，Vuzix Blade，Pupil Labs，ZShades，ORDRO EP6，iVue Rincon 1080 和 Weeview。它们在可用的模态 (RGB, stereo, gaze)，视野和电池寿命方面提供了权衡。视野和相机安装位置特别关键：安装在头部指向向下的 GoPro 提供了手操纵物体的高分辨率视图 (图5，右)；Vuzix 这样的头戴式摄像头共享一个人的眼睛的有利位置，但会错过靠近身体的交互(图5，左)。

在这里插入图片描述

除了视频之外，Ego4D 的部分还提供了其他几种数据模式：3D 扫描、音频、gaze、stereo、多个同步可穿戴摄像头和文本叙述。见表 1。每一个都可以支持新的研究挑战。例如，在持久 3D 上下文中使用 Matterport3D 扫描以及自我视频剪辑（图 4）为理解持久 3D 上下文中的动态活动提供了独特的机会，正如我们在 Episodic Memory 基准中利用的那样（参见第 5.1 节）。多个同步第一视角的视频流允许考虑社交互动中的第一人称和第二人称视图。音频允许分析对话和声学场景和事件。

3.4. Privacy and ethics

从开始来看，隐私和伦理标准对这种数据收集工作至关重要。每个合作伙伴都负责制定政策。虽然特定站点因站点而异，但这通常包括：

遵守自己的制度研究政策，例如相关的独立伦理委员会审查
获得相机佩戴者的知情同意，他们可以随时提问和撤退，可以自由审查和编辑自己的视频
查看私人空间中其他人的权利，并避免捕获敏感区域或活动
遵循个人身份信息 (PII) 的去识别要求

简而言之，这些标准通常需要视频在受控环境中捕获，所有参与者都知情同意，否则在公共空间中面部和其他 PII 模糊。附录 K 讨论了潜在的负面社会影响。

3.5. Possible sources of bias

虽然 Ego4D 从地理和人口多样化的来源推动大量日常视频的采集，但我们知道我们数据集中的一些偏见。74 个位置仍然是全球完全覆盖的长期方式。此外，相机佩戴者通常位于城市或大学城镇地区。COVID-19 大流行导致在烹饪、清洁、工艺等家庭场景中有足够的镜头，以及在主要社会公共事件收集视频的机会更有限。此外，由于电池寿命限制了长时间地录制视频。最后，Ego4D 注释由非洲两个地点的众包工作者完成。这意味着至少会有微妙的方式，其中基于语言的叙述偏向于他们的本地单词选择。

3.6. Dataset accessibility

在 3,670 小时的视频，我们注意到 Ego4D 的规模可能是一些研究人员可访问性的障碍，具体取决于它们的存储和计算资源。为了缓解这种情况，我们采用了几种措施。首先，我们使用数据集提供预先计算的动作特征（SlowFast 8x8，ResNet 101 主干为 Kinetics 400 预训练），这是任何下游任务的可选起点。其次，只有部分数据构成了每个基准的正式挑战训练/测试集——并非所有 3,670 小时（参见附录 E）。随着 Ego4D 注释的增加，我们将创建标准化的迷你集。最后，我们提供选项来仅下载针对单个基准或感兴趣的模态的数据。

4. Narrations of Camera Wearer Activity

在进行注释之前，我们通过叙述程序处理所有视频。受 pause-andtalk narrator [44] 的启发，注释者被要求观看 5 分钟的视频片段，用几个句子总结它，然后重新观看，反复暂停以撰写有关相机佩戴者所做的每件事的句子。我们记录时间戳和相关自由形式的句子。参见图 5。每个视频从不同的注释者接收两个独立的叙述。叙述在时间上是密集的：平均而言，我们每分钟收到 13.2 个句子，总共有 3.85M 个句子。叙述总共使用 1,772 个唯一动词（活动）和 4,336 个唯一名词（物体）来描述 Ego4D 视频。有关详细信息，请参阅附录 D。

叙述使我们能够：

1）对动作和物体的数据驱动分类构建执行文本挖掘
2）按内容对视频进行排序，将它们映射到相关基准
3）识别应该播种某些注释的时间窗口。除了这些用途之外，叙述本身是数据集的贡献，可能对具有弱对齐自然语言的视频的研究可能有价值。

据我们所知，我们的是最大的对齐语言和视频存储库（例如，HowTo100M [157]，一个现有的带有叙述的互联网存储库，包含嘈杂的口语叙述，有时只评论发生的活动）。

5. Ego4D Benchmark Suite

第一人称视觉有可能在增强现实和机器人技术中转换许多应用程序。然而，与主流视频理解相比，第一视角的感知需要新的基础研究来解释长格式视频、注意力线索、人-物体交互、多感官数据以及被动佩戴相机固有的手动时间管理。

在这里插入图片描述

受所有这些因素的影响，我们提出了一套具有挑战性的基准任务。这五个基准解决了第一人称视频的过去、现在和未来。参见图 6。以下部分介绍了每个任务及其注释。第一个数据集发布每个基准有 48 - 1000 小时数据的注释，在叙述的 3,670 小时数据之上。附录描述了我们如何为每个基准采样视频以最大化与任务的相关性，同时保持地理多样性。

我们开发了基于文献中最先进的组件的基线模型，以测试驱动所有 Ego4D 基准。附录给出了基线模型和定量结果。我们正在于 2022 年 6 月运行正式的 Ego4D 竞赛，邀请研究界改进这些基线。

5.1. Episodic Memory

Motivation

来自可穿戴相机的第一视角的视频记录了个人日常生活体验的谁/什么/何时/何处。这使得 Tulving 称为情景记忆（Episodic Memory）的理想选择 [213]：特定的第一人称体验（“在我第一次飞往法国的航班上，我吃了什么，坐在谁旁边”），与语义记忆区分开来（“法国首都是什么？”）。如果一个能够处理第一视角的视频流的增强现实助手能够适当地索引我们的视觉体验并回答问题，那么它可能会给我们带来超人的记忆（super-human memory）。

Task definition

给定一个第一视角的视频和查询，Ego4D 情景记忆任务需要定位答案可以在用户过去的视频中看到的位置。我们考虑三种查询类型：

1）自然语言查询 (NLQ)，其中查询在文本中表达（e.g., “What did I put in the drawer?”），输出响应是答案可见或可归纳的时间窗口。
2）视觉查询 (VQ)，其中查询是物体的静态图像，输出响应在视频中看到的最后一次定位物体，包括时间和空间。空间响应是物体上的 2D 边界框，并可选地从当前相机位置到物体的 3D 边界框的 3D 位移向量。VQ 捕获用户如何使用图像示例向系统教授物体，然后稍后会询问它的位置（“Where is this [picture of my keys]?”）。
3）时刻查询 (Moments queries, MQ)，其中查询是高层次活动或“时刻”的名称，响应由活动发生的所有时间窗口组成（e.g., “When did I read to my children?”），图 7 是一个例子。

在这里插入图片描述

Annotations

对于语言查询，我们设计了一组 13 个模板问题，旨在跨越用户可能要求增加它们的记忆，例如，“what is the state of6 object X?”，“did I leave the window open?”。注释者以自由形式的自然语言表达查询，并提供槽填充（e.g., X = window）。对于时刻查询，我们通过挖掘叙述摘要以数据驱动的半自动方式建立了 110 个活动的分类。时刻查询捕捉相机佩戴者一天中的高层次活动，例如，setting the table，而 pick up 是我们预测基准中的一个动作（第 5.5 节）。

对于 NLQ 和 VQ，我们要求注释者生成语言/视觉查询并将它们与视频中的“response track”耦合。对于 MQ，我们提供标签的分类法，并要求注释者用包含时刻实例的每个时间段和每个时间段标记剪辑。总的来说，我们有 ∼74K 的总查询，跨越 800 小时的视频。

Evaluation metrics and baselines

对于 NLQ，我们在联合 (tIoU) 阈值的某个时间交集上使用 top-k 召回率。MQ采用时间动作检测中常用的度量：多个tIoU阈值的mAP，以及top-kx召回率。VQ采用时间和空间定位指标以及鼓励速度搜索的及时性指标。附录 F 展示了我们开发并报告了结果的基线模型。

Relation to existing tasks

情景记忆在现有的视觉问题中有一些基础，但也带来了新的挑战。所有三个查询都要求静态环境中的空间推理，以及移动和改变事物的人的动态视频；目前的工作在很大程度上分别处理这两个元素。及时性指标鼓励在智能上下文搜索方面的工作。

目前关于语言+视觉的文献侧重于互联网数据的孤立实例的描述和问答[12, 35, 119, 228]，NLQ 的动机是关于相机佩戴者自己的视觉体验的查询，并对长期观察进行操作。
VQ 升级物体实例识别 [23,85,126,155] 来处理视频 (频繁的FoV变化、进入/退出视图的物体)，并在3D环境的上下文中推理物体。
MQ 可以看作是对于相机佩戴者的活动检测 [141, 229, 237]。

5.2. Hands and Objects

在这里插入图片描述

Motivation

虽然情景记忆旨在使过去的视频查询成为可能，但我们接下来的基准旨在了解相机佩戴者的当前活动——与物体和其他人的交互。具体来说，Hands 和 Objects 基准通过使用或操纵物体来捕获相机佩戴者如何改变物体的状态——我们称之为物体状态变化（object state change）。尽管可以通过许多方法（e.g., various tools, force, speed, grasps, endeffectors）来实现将一块木材切成两半，但都应该被识别为相同的状态变化。这种泛化能力将使我们能够更好地理解人类行为，并训练机器人从视频中的人类演示中学习。

Task definitions

我们解释了物体状态变化以包括各种物理变化，包括大小、形状、组合和纹理的变化。物体状态变化可以沿时间、空间轴和语义轴查看，构建了三个任务：

1）无返回点（Point-of-No-Return temporal localization，PNR）时间定位：给定一个状态变化的短视频剪辑，目标是估计包含无返回点（状态变化开始的时间）的关键帧；
2）状态变化检测：给定三个时间帧（pre, post, PNR），目标是回归经历状态变化的物体的边界框；
3）物体状态变化分类：给定一个短视频剪辑，目标是分类物体状态是否变化。

Annotations

我们选择数据根据可能涉及手-物交互的活动进行注释（e.g., knitting, carpentry, baking, etc.）。我们首先标记每个叙述的手-物体交互。对于每个，我们标记三个时间（pre, post, PNR）和三个帧中每个手、工具和物体的边界框。我们还注释了物体的状态变化类型（remove, burn, etc., see Fig. 8），动作动词和名词。

Evaluation metrics and baselines

使用以秒为单位测量的绝对时间误差评估物体状态变化时间定位。物体状态变化分类通过分类精度进行评估。状态变化检测通过平均精度 (AP) 进行评估。附录 G 详细说明了注释，并为三个手和物体任务提供了基线模型结果。

Relation to existing tasks

有限的先前工作考虑了照片[102, 164]或视频[8, 68, 242]中的目标状态变化；Ego4D是第一个专门用于理解物体状态变化任务的视频基准。该任务类似于动作识别 [100, 110, 139, 221, 243]，因为在某些情况下，特定的动作可以对应于特定的状态变化。然而，单一状态变化（例如切割）也可以在多种形式（各种物体-工具-动作组合）中观察到。我们希望所提出的基准将导致开发更明确的物体状态变化模型，同时避免简单地过度拟合动作或物体观察的方法。

5.3. Audio-Visual Diarization

Motivation

我们接下来的两个任务旨在了解相机佩戴者与人的当前互动。人们使用口语交流，捕捉商业会议和社会环境中的对话内容，这是一个巨大的科学和实际兴趣的问题。虽然日记化 (diarization) 一直是语音识别社区中的一个标准问题，但 Ego4D 带来了两个新方面：

1）同时捕获视频和音频
2）对话中参与者的第一视角

Task definition and annotations

在这里插入图片描述

视听日记化 (Audio-Visual Diarization, AVD) 基准由四个任务组成（见图 9）：

视野 (FoV) 中参与者（即候选说话者）的定位和跟踪。围绕每个参与者的脸注释边界框。
主动说话者检测，其中每个跟踪的说话者都被分配了一个匿名标签，包括从未出现在视觉 FoV 中的相机佩戴者。
每个说话者的语音活动的日记化，我们提供与每个说话者在剪辑中的语音活动相对应的时间段。
每个说话者的语音内容的转录（此版本只考虑英语使用者）。

Evaluation metrics and baselines

我们使用标准化物体跟踪 (MOT) 指标 [18, 19] 来评估视觉 FoV 中的说话人定位和跟踪。使用说话人错误率评估带有匿名标签的说话人检测，该错误率衡量错误分配标签的比例。我们分别采用经过充分研究的日记化错误率 (DER) [11] 和单词错误率 (WER) [114] 进行日记化和转录。我们在附录 H 中展示了 AVD 基线模型和结果。

Relation to existing tasks

在过去的几年里，已经在计算机视觉任务[245]中研究了用于动作分类的音频[110, 226]、物体分类[125, 234]、源定位和跟踪[14, 197, 212]和具身导航 [33]。同时，视觉信息越来越多地用于历史上仅音频的任务，如语音转录、语音识别、音频空间化[5, 80, 104, 161]、说话人日记化 [10, 83] 和音源分离[57,78, 82]。VoxCeleb[39]，AVA Speech[31]，AVA active speaker[192]，AVDIAR[83]和 EasyCom[53] 等数据集支持本研究。然而，这些数据集主要是非第一视角的。与 Ego4D 不同，它们无法捕获涉及各种嘈杂背景、重叠、中断和不可理解的语音、环境变化、移动相机佩戴者以及远离相机佩戴者的人的自然对话特征。

5.4. Social Interactions

Motivation

第一视角的视频为研究社交互动提供了一个独特的视角，因为它从每个参与者的独特视图中捕获话语和非语言线索 [115]，并使具身社会理解方法成为可能。第一视角的社会理解的进展可能导致更有能力的虚拟助手和社交机器人。社会互动的计算模型还可以为诊断和治疗自闭症等社会化和沟通障碍提供新的工具[188]，并支持听力受损的新假肢技术。

Task definition

虽然 Ego4D 数据集可以支持这种长期的研究议程，但我们最初的 Social 基准侧重于通过注意力和语音对对话交互的多模态理解。具体来说，我们专注于识别针对相机佩戴者的交流行为，这与针对其他社会伙伴的交流行为区分开来：

1）Looking at me (LAM)：给定一个视频，其中社会伙伴的脸被本地化和识别，对每个可见脸是否看相机佩戴者进行分类；
2）Talking to me (TTM)：给定一个具有相同跟踪人脸的视频和音频片段，对每个可见人脸是否与相机佩戴者交谈进行分类。

Annotations

社会注释建立在 Audio-Visual 分类（第 5.3 节）之上。给定 (1) 标有参与者 ID 的人脸边界框并跨帧跟踪，(2) 关联的主动说话者注释，在每一帧中识别人脸是否可见的社交伙伴，注释者为 LAM 和 TTM 提供真实标签作为每一帧中每个人脸的二进制标签。对于 LAM，当个人看相机佩戴者时，注释者标记可见人的时间段（开始和结束时间）。对于 TTM，我们使用来自 AVD 的语音活动注释，然后在语音指向相机佩戴者时识别时间段。参见图 9。

Evaluation metrics and baselines

我们使用平均平均精度 (mAP) 和 Top-1 准确度来量化这两个任务的分类性能。与 AVD 不同，我们测量每帧的精度。附录 I 提供了详细信息并展示了社会基线模型和结果。

Relation to existing tasks

与[67]相比，Ego4D包含更多的参与者、小时的记录以及各种传感器和社交环境。LAM 任务与之前关于自我视频中眼睛接触检测的工作最为密切相关 [36, 159]，但解决了更多样化和更具挑战性的场景。相互注视估计[54,150 -152,172,176]和注视跟随[37,65,111,186]也是相关的。TTM 任务与视听说话者检测 [7,193] 和会议理解 [21, 132, 154]。

5.5. Forecasting

Motivation

在解决了相机佩戴者视觉体验的过去和现在后，我们的最后一个基准继续预测未来。预测运动和交互需要理解相机佩戴者的意图。它可以直接应用于 AR 和人机交互，例如为了方便人类，预测打开电器或移动物体。科学动机可以通过类似于 GPT-3 [24] 等语言模型来看出，这些模型隐含地捕获了许多其他任务所需的知识。视觉预测模型不是预测下一个单词，而是模拟Agent在物理世界中的动态。

Task definition

在这里插入图片描述

预测基准包括四个任务（图 10）：

1）运动预测：预测相机佩戴者的一组可能的未来地平面轨迹。
2）手部运动预测：预测未来帧中相机佩戴者的手部位置。
3）短期物体交互预期：在剪辑的最近帧中检测一组可能的未来交互物体。对于每个物体，分配一个动词，指示交互何时开始的可能未来交互和“接触时间”估计。
4）长期动作预期：预测相机佩戴者未来动作序列。

Annotations

使用叙述，我们确定了每个物体交互的出现，分配一个动词和一个目标物体类。动词和名词分类法是从叙述中播种的，然后手工细化。对于每个动作，我们识别一个接触帧和一个前置条件帧，在该帧中，我们在活动物体周围注释边界框。相同的物体和手在前置条件帧之前的三帧中注释为 0.5s、1s 和 1.5s。我们使用运动的结构获得相机佩戴者的真实的自我轨迹。

Evaluation metrics and baselines

我们使用 L2 距离评估未来的运动运动和手部运动预测。使用 Top-5 mAP 指标评估短期物体交互预期，该指标折扣 Top-4 假阴性预测。使用编辑距离评估长期动作预期。附录 J 详细说明了任务、注释、基线模型和结果。

Relation to existing tasks

从第一视角的视觉预测未来的事件越来越感兴趣[191]。以前的工作考虑了未来的定位[113, 120, 174, 230]、动作预期[76, 77, 86, 118, 127, 219]、下一个主动物体预测[20, 74]、未来事件预测[149, 167]和未来帧预测[145, 146, 153, 215, 218, 217]。虽然过去的工作依赖于不同的基准和任务定义，但我们提出了一个统一的基准来评估该领域的进展。

6. Conclusion

Ego4D 是一个首创的数据集和基准套件，旨在推进第一视角的视频的多模态感知。与现有工作相比，我们的数据集的规模和多样性要大几个数量级。数据将允许人工智能从世界各地的日常生活经验中学习——看到我们所看到的和听到我们听到的内容——而我们的基准套件为视频理解的创新提供了坚实的基础，这对增强现实、机器人和许多其他领域至关重要。我们期待未来几年将建立在 Ego4D 之上的研究。