谷歌上周发布一个新的电影片段数据集,旨在教机器理解人的活动。这个数据集被称为 AVA(atomic visual action),这些视频对人类来说并不是很特别的东西——仅仅是 YouTube 上人们喝水、做饭等等的3秒钟视频片段。但每段视频都与一个文件捆绑在一起,这个文件勾勒了机器学习算法应该观察的人,描述他们的姿势,以及他们是否正在与另一个人或物进行互动。就像指着一只狗狗给一个小孩看,并教他说“狗!”,这个数据集是这类场景的数字版本。
与其他动作数据集相比,AVA具有以下几个关键特征:
-
以人类为中心的标注(Person-centric annotation)。每个动作标签都与一个人相关联,而不是与一个视频或视频剪辑关联。因此,我们能够为在同一场景中执行不同动作的多个人分配不同的标签,这是种情况很常见。
-
原子视觉动作(Atomic visual actions)。我们将动作标签限制在一定时间尺度(3秒),动作需要是物理性质的,并且有清晰的视觉信号。
-
真实的视频材料。我们使用不同类型、不同国家的电影作为AVA的数据源,因此,数据中包含了广泛的人类行为。
片段示例,每个片段的中间帧都有边界框标注。(为了清晰起见,每个样本只显示一个边界框)
当视频中有多个人时,每个人都有自己的标签。这样,算法就能知道“握手”的动作需要两个人。
AVA 中共同出现频率最高的动作对
这项技术可以帮助谷歌分析 YouTube 上的视频。它可以应用来更好地投放定向广告,或用于内容过滤。作者在相应的研究论文中写道,最终的目标是教计算机社会视觉智能(social visual intelligence),即“理解人类正在做什么,他们下一步将会做什么,以及他们想要达到的目的。”
AVA 数据集的动作标签分布(x轴只包括了词汇表中的一部分标签)
AVA 数据集包含 57600 个标记好的视频,详细记录了80类动作。简单的动作,例如站立、说话、倾听和走路等在数据集中更有代表性,每个标签都有超过1万个视频片段。研究人员在论文中写道,使用电影中的片段确实会给他们的工作带来一些偏见,因为电影有其“语法”,一些动作被戏剧化了。
“我们并不认为这些数据是完美的。”论文中写道:“但这比使用由用户上传的内容更好,比如动物杂耍视频、DIY教学视频、儿童生日派对之类的视频等等。”
论文引用中试图找到“不同国籍的顶级演员”,但没有详细说明数据集可能会因种族或性别而产生偏见。研究者希望AVA的发布将有助于人类行为识别系统的研究,为基于个人行为层面的精细时空粒度的标签对复杂活动进行建模提供机会。