ai比对技术 特斯联AI研发突破( 二 )


ai比对技术 特斯联AI研发突破


▲图1. 不同建模之间的视觉比较 。简单的帧级建模难以识别运动目标(b)或被遮挡的小目标(c) 。相比之下 , 多级建模提供了一种联合方式来利用长时信息和空间的显著线索进行跨模态匹配 , 从而提供更准确的结果(a)(d)
具有语义对齐的多级表征学习框架在这样的背景下 , 邵岭博士团队提出了全新的多级学习框架来解决RVOS问题 。该模型首先对视频内容进行细粒度分析 , 以实现多粒度的视频表征:
  • 在视频粒度上 , 建议使用跨帧计算对整个视频的长时依赖进行建模 , 让视觉表征得以捕捉目标的运动或动态场景信息 。
  • 在单帧粒度上 , 采用自注意力机制整合帧内信息 , 从而描述整个图像中的全局内容 。
  • 在目标粒度上 , 借助目标检测器来增强前景和背景的可分辨性 , 解决遮挡和小目标的情况 。
【ai比对技术 特斯联AI研发突破】在实现多级(或多粒度)视觉表征之后 , 团队提出动态语义对齐(DSA) , 使它们与语言特征交互 。为了有效捕捉特定粒度的语言信息 , 团队首先根据不同的视觉线索分别生成对应的基于视觉粒度的全局语言语义 。再将生成的视觉语言特征与相应的视觉特征相结合 , 为所指目标提供特定粒度下的目标表征 。最后 , 团队整合多粒度下的目标表征和边界信息 , 使用边界感知分割(BAS)引导所有帧的分割预测 。
具有语义对齐的多级表征学习经实验验证 , 效果优于其他竞争方法团队亦分享了基于前述解决方案与两个流行的RVOS数据集进行的定量及定性对比实验 , 即:Refer-DAVIS17和Refer-YouTube-VOS 。
Refer-DAVIS验证集:在用Refer-DAVIS进行训练之前 , 团队在大规模的Refer-YouTube-VOS训练集中对模型进行预训练 , 并在Refer-DAVIS验证集中对模型进行了性能测试 。如表格1所示 , 在相同的“仅进行预训练”情况下 , 提出的方法与最新的模型URVOS相比有显著的性能提升(J: 5.8% , F: 6.0%) 。在Refer-DAVIS训练集里对预训练模型进行微调后 , 提出的方法在所有指标上都大大优于所有竞争方法(与URVOS相比 , J: 6.6% , F: 6.1%) 。此外 , 团队还提供了其模型在指定图像分割数据集RefCOCO上进行预训练的结果 , 其得分高于URVOS和RefVOS等基于帧的方法 。
ai比对技术 特斯联AI研发突破


▲表格1.Refer-DAVIS17验证集的定量评估 , 含区域相似度J , 边界精确度F , J&F的平均值
Refer-YouTube-VOS验证集:我们可以进一步观察新方法在Refer-YouTube-VOS验证集上的性能 。如表格2所示 , 其模型在所有指标上都显著优于SOTA 。与URVOS相比 , 该模型将区域相似度J提高了3.1% , 轮廓精度F提高了1.8% 。这一方法在精度上也获得了更高的分数(例如 , prec@0.8: 5.0% , prec@0.9: 4.8%) 。以上两个数据集的结果均表明了具有语义对齐的多级表征学习的优越性 。
ai比对技术 特斯联AI研发突破


▲表格2. Refer-YouTube-VOS验证集的定量评估 , 含区域相似度J , 边界精确度F , J&F的平均值 , 和成功百分比(prec@X)

推荐阅读