ai比对技术 特斯联AI研发突破( 三 )


此外 , 论文还分享了其方法的一些典型视觉结果(如图2所示) 。在第一个序列中 , 摄像机的移动让视频中的女孩出现了尺寸变化 。在第二个序列中 , 蓝色木车向前移动 , 由于外观变化很大 , 难以进行准确估计 。第三和第四个序列来自同一个视频 , 但由于局部遮挡和背景中视觉上相似的对象而更具挑战性 。尽管如此 , 该模型还是成功地分割出所有的目标 。总体而言 , 得益于在视觉—语言理解过程中考虑了多级表征 , 提出的模型得到了出色的指定视频目标分割结果 。

ai比对技术 特斯联AI研发突破


▲图2. Refer-DAVIS17验证集和Refer-YouTube-VOS验证集的定性结果 。前四个序列代表指定视频目标分割结果 , 最后两个序列是显著目标预测结果
除指定视频目标分割结果外 , 文章还在图2中提供了一些显著目标预测结果 。可以看出 , 所有目标预测都带有清晰的边界 , 包括被遮挡的和小的目标 , 这表明显著目标的生成可以提供关键的先验目标信息 。
总体而言 , 在这项最新研究中 , 邵岭博士团队提出了一种新颖的多级表征学习框架来处理RVOS任务 , 通过编码视频、单帧和目标级语义 , 提供了一个强大且信息丰富的视觉表征;通过引入动态语义对齐机制 , 对不同模态可以进行自适应融合 。这一研究突破可以进一步提升视频目标分割的精确度及效率 , 使相应技术得以高效应用于城市中包括安防、应急等场景 。
,

推荐阅读