图像分割技术是计算机视觉领域的重要研究方向 , 也是该领域其他应用的一个重要前期步骤 。近些年来 , 随着深度学习技术的逐步深入 , 图像分割技术有了突飞猛进的发展 , 尤其在场景物体分割、人体背景分割、三维重建等技术在无人驾驶、增强现实等城市数字化领域得到了广泛应用 。而近日 , 特斯联科技集团首席科学家兼特斯联国际总裁邵岭博士及团队提出具有语义对齐的多级表征学习框架解决指定视频目标分割(Referring Video Object Segmentation, RVOS)中存在的问题 , 在该领域形成科研突破 , 且相关研究成果(标题为:Multi-Level Representation Learning with Semantic Alignment for Referring Video Object Segmentation)已被2022年的人工智能领域顶级会议CVPR(国际计算机视觉与模式识别会议)收录 。
总体而言 , 该项研究突破可概括为三个方面:首先 , 提出了一个基于多级表征学习的RVOS新框架 。它通过更丰富、更结构化的视频表征 , 排除了单帧建模的局限性 , 保证了更加精准的语言-视觉语义对齐;第二 , 引入了动态语义对齐(DSA) , 它在匹配语言语义与不同级别的视觉表征时采用了更有效的自适应对齐;第三 , 该方法在两个具有挑战性的数据集上实现了引人注目的表现 , 包括Refer-DAVIS17和Refer-YouTube-VOS 。值得注意的是 , 对于Refer-DAVIS17上的J , 该方法比最好的单帧建模方法获得了6.6%的显著提升 , 同时在两个数据集上实现了53.2FPS的高推理速度 。
指定视频目标分割(RVOS)是一种广泛应用于视频编辑、虚拟现实和人机交互的 AI 技术 , 旨在基于特定自然语言表达 , 从视频中预测最相关的视觉目标 。与常规的无监督或半监督视频目标分割相比 , RVOS需要实现语言文本和视频内容之间的跨模态理解 , 而不是通过视觉显著性或关键帧标注来定位目标 。
帧级建模两大局限性致 RVOS 精确度较低我们可以通过人类认知系统简单理解跨模态数据的含义 。当人类在语言的引导下识别一个目标时 , 通常会采用三个步骤:1)观察目标的外观和方位(即基于帧) , 2)翻看多帧观察目标的运动状态(即基于视频) , 3)将更多的注意力转移到遮挡或较小的目标上(即基于目标) 。
目前 , 大多数方法只是简单地将基于图像的方法应用于视频跨模态理解 。它们或者使用指定图像定位(referring image localization)来生成目标边界框作为提案 , 或者直接使用指定图像分割(referring image segmentation) 。然而 , 与人类认知系统相比 , 这些帧级建模方法存在两个局限性:忽略长时信息 , 缺乏对空间显著目标的关注 。
前述局限性导致了视觉和语言两种模态之间的错位 , 进而产生不准确的分割结果 。举例来说 , 如图1所示 , 当我们给定一个输入视频及其对应的描述 , 比如“一只狮子正在向右行走”时 , RVOS的目标是从视频中分割出运动的狮子 。但由于视频中有多个狮子 , 仅利用单帧外观信息无法识别出正确的狮子(如图1(b)所示) 。在这里 , 语言所指的目标具有时间上的运动状态 , 因此需要观察多帧来识别特定动作 。此外 , “狮子卧在高高的岩石上”指的是被遮挡的小狮子 。然而 , 帧级建模只关注每一帧的全局语义 , 而忽略了一些更重要的、更具有代表性的视觉区域 , 这也会导致指向错误的目标(如图1(c)所示) 。
推荐阅读
- 什么是专业技术职务任职资格
- 防止母猪化胎、僵尸、死胎、流产的技术简介
- 羊腹胀气症状与防治技术
- 养羊技术分享:羊支气管炎防治办法
- 什么是足球技术
- 春季常见羊病及防治技术
- 什么是指令流水线技术
- 鸡肌胃糜烂症的防治技术
- 蛙病的防治技术
- 畜牧指导治疗羊便秘技术
