Cityscapes,cityscapes( 二 )


Auto-DeepLab 开发出与分层架构搜索空间完全匹配的离散架构的连续松弛 , 显著提高架构搜索的效率 , 降低算力需求 。深度神经网络已经在很多人工智能任务上取得了成功 , 包括图像识别、语音识别、机器翻译等 。虽然更好的优化器 [36] 和归一化技术 [32, 79] 在其中起了重要作用 , 但很多进步要归功于神经网络架构的设计 。
在计算机视觉中 , 这适用于图像分类和密集图像预测 。表 1:本研究提出的模型 Auto-DeepLab 和其它双层 CNN 架构的对比 。主要区别有:(1) Auto-DeepLab 直接搜索用于语义分割的 CNN 架构;(2) Auto-DeepLab 搜索网络级架构和单元级架构;(3) Auto-DeepLab 的高效搜索在一个 P100 GPU 上仅需 3 天 。
最近 , 在 AutoML 和 AI 民主化的影响下 , 人们对自动化设计神经网络架构产生了极大兴趣 , 自动化设计神经网络无需严重依赖专家经验和知识 。更重要的是 , 去年神经架构搜索(NAS)成功找到了在大规模图像分类任务上超越人类设计架构的网络架构 [92, 47, 61] 。图像分类对 NAS 来说是一个很好的起点 , 因为它是最基础且研究最深入的高级识别任务 。
此外 , 该研究领域存在具有规模相对较小的基准数据集(如 CIFAR-10) , 从而减少了计算量并加快了训练速度 。然而 , 图像分类不应该是 NAS 的终点 , 现下的成功表明它可以扩展至要求更高的领域 。在本文中 , 作者研究了用于语义图像分割的神经架构搜索 。这是一项重要的计算机视觉任务 , 它为输入图像的每个像素分配标签 , 如「人」或「自行车」 。
简单地移植图像分类的方法不足以进行语义分割 。在图像分类中 , NAS 通常使用从低分辨率图像到高分辨率图像的迁移学习 [92] , 而语义分割的最佳架构必须在高分辨率图像上运行 。这表明 , 本研究需要:(1) 更松弛、更通用的搜索空间 , 以捕捉更高分辨率导致的架构变体;(2) 更高效的架构搜索技术 , 因为高分辨率需要的计算量更大 。
作者注意到 , 现代 CNN 设计通常遵循两级分层结构 , 其中外层网络控制空间分辨率的变化 , 内层单元级架构管理特定的分层计算 。目前关于 NAS 的绝大多数研究都遵循这个两级分层设计 , 但只自动化搜索内层网络 , 而手动设计外层网络 。这种有限的搜索空间对密集图像预测来说是一个问题 , 密集图像预测对空间分辨率变化很敏感 。
因此在本研究中 , 作者提出了一种格子状的网络级搜索空间 , 该搜索空间可以增强 [92] 首次提出的常用单元级搜索空间 , 以形成分层架构搜索空间 。本研究的目标是联合学习可重复单元结构和网络结构的良好组合 , 用于语义图像分割 。就架构搜索方法而言 , 强化学习和进化算法往往是计算密集型的——即便在低分辨率数据集 CIFAR-10 上 , 因此它们不太适合语义图像分割任务 。
受 NAS 可微分公式 [68, 49] 的启发 , 本研究开发出与分层架构搜索空间完全匹配的离散架构的连续松弛 。分层架构搜索通过随机梯度下降实施 。当搜索终止时 , 最好的单元架构会被贪婪解码 , 而最好的网络架构会通过维特比算法得到有效解码 。作者在从 Cityscapes 数据集中裁剪的 321×321 图像上直接搜索架构 。
搜索非常高效 , 在一个 P100 GPU 上仅需 3 天 。作者在多个语义分割基准数据集上进行了实验 , 包括 Cityscapes、PASCAL VOC 2012 和 ADE20K 。在未经 ImageNet 预训练的情况下 , 最佳 Auto-DeepLab 模型在 Cityscapes 测试集上的结果超过 FRRN-B 8.6% , 超过 GridNet 10.9% 。

推荐阅读