X

CVPR 2021 论文大盘点-语义分割篇

作者 | CV君

编辑 | CV君

报道 | 我爱计算机视觉(微信id:aicvml)

本篇总结图像语义分割相关论文,包含点云、域适应、半监督、弱监督、小样本以及夜间语义分割,共计 39 篇。

大家可以在:https://openaccess.thecvf.com/CVPR2021?day=all按照题目下载这些论文。


1.Differentiable Multi-Granularity Human Representation Learning for Instance-Aware Human Semantic Parsing


问题:解决 instance-aware 人体语义解析任务。

方案:提出一个新的自下而上的机制,以联合和端到端的方式学习类别级的人体语义分割以及多人姿势估计。具有紧凑、高效和强大的特性,利用不同人类粒度的结构信息,缓解人类划分的困难。

结果:在三个 instance-aware 的人类解析数据集上的实验表明,该模型优于其它自下而上的方案,推理效率更高。

作者 | Tianfei Zhou, Wenguan Wang, Si Liu, Yi Yang, Luc Van Gool

单位 | 苏黎世联邦理工学院;北航;悉尼科技大学

论文 | https://arxiv.org/abs/2103.04570

代码 | https://github.com/tfzhou/MG-HumanParsing

备注 | CVPR 2021 Oral


2.Learning Statistical Texture for Semantic Segmentation


本次工作,作者充分利用低层次纹理特征的优势,提出 Statistical Texture Learning Network(STLNet)用于语义分割。STLNet 首次分析了低层次信息的分布并有效地利用它们来完成任务。

具体来说,设计全新的 Quantization and Counting Operator(QCO),已统计的方式进行纹理信息描述。在此基础上,引入两个模块。(1) 纹理增强模块(TEM),捕捉与纹理相关的信息并增强纹理细节;(2) 金字塔纹理特征提取模块(PTFEM),有效提取多个尺度的统计纹理特征。

大量实验表明,STLNet 在 Cityscapes, PASCAL Context 和 ADE20K 三个语义分割基准上取得了最先进的性能。

作者 | Lanyun Zhu, Deyi Ji, Shiping Zhu, Weihao Gan, Wei Wu, Junjie Yan

单位 | 北航;商汤

论文 | https://arxiv.org/abs/2103.04133


3.ABMDRNet: Adaptive-weighted Bi-directional Modality Difference Reduction Network for RGB-T Semantic Segmentation

作者 | Qiang Zhang、Shenlu Zhao、Yongjiang Luo、Dingwen Zhang、 Nianchang Huang、Jungong Han

单位 | 西安电子科技大学;亚伯大学

论文 |

https://openaccess.thecvf.com/content/CVPR2021/papers/Zhang_ABMDRNet_Adaptive-Weighted_Bi-Directional_Modality_Difference_Reduction_Network_for_RGB-T_Semantic_CVPR_2021_paper.pdf


4.Revisiting Superpixels for Active Learning in Semantic Segmentation with Realistic Annotation Costs

作者 | Lile Cai、Xun Xu、Jun Hao Liew、Chuan Sheng Foo

单位 | I2R;新加坡国立大学

论文 |

https://openaccess.thecvf.com/content/CVPR2021/papers/Cai_Revisiting_Superpixels_for_Active_Learning_in_Semantic_Segmentation_With_Realistic_CVPR_2021_paper.pdf


5.Exploit Visual Dependency Relations for Semantic Segmentation

作者 | Mingyuan Liu, Dan Schonfeld , Wei Tang

单位 | 伊利诺伊大学芝加哥分校

论文 |

https://openaccess.thecvf.com/content/CVPR2021/papers/Liu_Exploit_Visual_Dependency_Relations_for_Semantic_Segmentation_CVPR_2021_paper.pdf


6.Cross-Dataset Collaborative Learning for Semantic Segmentation


Cross-Dataset Collaborative Learning(CDCL)是一个简单通用且灵活的语义分割方法,鉴于有多个标记的数据集,目标是提高每个数据集上的特征表征的泛化和辨别能力。

具体来说,引入 Dataset-Aware Blocks 系列(DAB)作为网络的基本计算单元,有助于捕捉不同数据集的同质性表示和异质性统计。其次,提出一个数据集交替训练(DAT)机制,以有效促进优化程序。在四个不同的数据集上进行了广泛的评估,即Cityscapes、BDD100K、CamVid和COCO Stuff,有单数据集和跨数据集设置。

CDCL 方法与之前的单数据集和跨数据集训练方法相比,在不引入额外的FLOPs 的情况下,取得明显的改进。特别是,在 PSPNet(ResNet-18)的相同架构下,所提出方法在 Cityscapes、BDD100K、CamVid 等验证集上分别比单数据集基线高出 5.65%、6.57% 和 5.79% 的 mIoU。

作者表示代码和模型将会公开发布。

作者 | Li Wang, Dong Li, Yousong Zhu, Lu Tian, Yi Shan

单位 | 赛灵思公司;中科院

论文 | https://arxiv.org/abs/2103.11351


7.PiCIE: Unsupervised Semantic Segmentation using Invariance and Equivariance in Clustering


本次研究工作提出一个新框架,通过聚类进行无标注的语义分割。主要贡献是将几何一致性作为一种归纳偏置,以学习光度和几何变化的不变性和等值性。全新的跨视角损失在学习划分 things 分类所需的高层次视觉概念方面是简单而高效的。

作者称 PiCIE(使用不变性和等值的像素级特征聚类),是第一个能够在没有任何超参数调整或特定任务预处理的情况下划分 things 和 stuff 类别的方法。在很大程度上超过了现有的 COCO 和 Cityscapes 的基线,获得了 +17.5 Acc. 和 +4.5 mIoU。并表示 PiCIE 为标准的监督训练提供了一个更好的初始化。

作者 | Jang Hyun Cho, Utkarsh Mall, Kavita Bala, Bharath Hariharan

单位 | 得克萨斯大学奥斯汀分校;康奈尔大学

论文 | https://arxiv.org/abs/2103.17070

代码 | https://github.com/janghyuncho/PiCIE


8.Progressive Semantic Segmentation


MagNet,一个用于高分辨率图像的多尺度分割框架,通过将输入图像划分为patches,可以在不增加 GPU 内存使用量的情况下生成高分辨率的分割输出。MagNet 有多个处理阶段,每个阶段对应一个放大级别,一个阶段的输出被送入下一个阶段进行粗到细的信息传播。每个阶段都以比前一个阶段更高的分辨率分析图像,恢复之前由于有损降采样步骤而丢失的细节,分割输出通过处理阶段逐步细化。

在三个具有挑战性的高分辨率图像数据集上证明了 MagNet 的优势,MagNet 在 mIoU 方面比以前最先进方法高出 1% 至 2%。

作者 | Chuong Huynh, Anh Tran, Khoa Luu, Minh Hoai

单位 | VinAI Research;VinUniversity;阿肯色大学;石溪大学

论文 | https://arxiv.org/abs/2104.03778

代码 | https://github.com/VinAIResearch/MagNet


9.PLOP: Learning without Forgetting for Continual Semantic Segmentation


作者 | Arthur Douillard, Yifu Chen, Arnaud Dapogny, Matthieu Cord

单位 | 索邦大学;Heuritech;Datakalab;valeo.ai

论文 | https://arxiv.org/abs/2011.11390

代码 | https://github.com/arthurdouillard/CVPR2021_PLOP


10.Continual Semantic Segmentation via Repulsion-Attraction of Sparse and Disentangled Latent Representations


作者 | Umberto Michieli, Pietro Zanuttigh

单位 | 帕多瓦大学

论文 | https://arxiv.org/abs/2103.06342

代码 | https://github.com/LTTM/SDR


域适应语义分割


11.Multi-Source Domain Adaptation with Collaborative Learning for Semantic Segmentation


多源无监督域适应(MSDA)旨在将在多个标记的源域上训练的模型适应于未标记的目标域。

文中提出基于协作学习的新型多源域适应框架,用于语义分割。首先引入一种简单的图像翻译方法来调整像素值分布一致,以便在一定程度上减少源域和目标域之间的差距。其次,为了充分利用跨源域的基本语义信息,提出一种协作学习方法,在没有从目标域看到任何数据的情况下进行域适应。

在 Cityscapes 的验证集上实现了 59.0% 的 mIoU。明显优于以前所有的单源和多源无监督域适应方法。

作者 | Jianzhong He, Xu Jia, Shuaijun Chen, Jianzhuang Liu

单位 | 华为;诺亚方舟实验室;大连理工大学

论文 | https://arxiv.org/abs/2103.04717


12.Cluster, Split, Fuse, and Update: Meta-Learning for Open Compound Domain Adaptive Semantic Segmentation


本篇文章针对 open compound domain adaptation(开放混合域适应)问题,提出基于元学习的模型:MOCDA,由 cluster, split, fuse 和 update 四个模块组成。元学习在融合和更新模块中起作用,用于对复合目标域进行连续建模和在线更新。

大量的实验表明,所提出模型在不同的基准上取得了最先进的性能,以及 MOCDA 模型的有效性。

作者 | Rui Gong, Yuhua Chen, Danda Pani Paudel, Yawei Li, Ajad Chhatkuli, Wen Li, Dengxin Dai, Luc Van Gool

单位 | 苏黎世联邦理工学院;鲁汶大学;电子科技大学;

论文 | https://arxiv.org/abs/2012.08278


13.Coarse-to-Fine Domain Adaptive Semantic Segmentation with Photometric Alignment and Category-Center Regularization


所提出 UDA 以 coarse-to-fine 方式将 image-level 对齐和 category-level 特征分布正则化统一起来。具体来说,coarse 方面,提出一个 photometric alignment 模块,使用一组图像级别的算子将源域中的图像与目标域中的参考图像对齐;fine 方面,提出 category-oriented triplet 损失,在源域中施加一个软约束来规范类别中心,在目标域中采用自监督的一致性规范化方法。

实验验证所提出方法提高了最终分割模型的泛化能力,并大大超过了以前所有的先进技术。

作者 | Haoyu Ma, Xiangru Lin, Zifeng Wu, Yizhou Yu

单位 | 香港大学;Deepwise AI Lab

论文 | https://arxiv.org/abs/2103.13041


14.Source-Free Domain Adaptation for Semantic Segmentation


无监督域适应(UDA)可以解决基于卷积神经网络(CNN)的语义分割方法严重依赖像素级标注数据的挑战,但它需要完全访问源数据集,因此对于源数据集是私有的实际场景中是不现实的。

方案:提出 source-free domain adaptation(SFDA),其中只有一个训练有素的源模型和一个未标记的目标领域数据集可用于适应。SFDA 不仅能够在模型适应过程中通过知识迁移恢复和保留源模型的源域知识,而且还能从目标域提取有价值的信息进行自监督学习。为语义分割量身定做的像素级和补丁级的优化目标被无缝地整合到该框架中。

结果:大量实验结果表明所提出框架对现有依赖源数据 UDA 方法的有效性。

作者 | Yuang Liu, Wei Zhang, Jun Wang

单位 | 华东师范大学

论文 | https://arxiv.org/abs/2103.16372


15.MetaCorrection: Domain-aware Meta Loss Correction for Unsupervised Domain Adaptation in Semantic Segmentation


无监督域适应(UDA)旨在将知识从有标签的源域迁移到无标签的目标域。当前基于自训练的 UDA 方法为目标数据指定伪标签,并将其视为 ground truth 标签,以充分利用未标签的目标数据进行模型适应。但在源域上优化的模型所产生的伪标签不可避免地包含了由于域的差距而产生的噪音。

方案:提出 MetaCorrection 框架,其中包含为 UDA 语义分割提出的 DMLC 策略。旨在通过提出的 DMLC 策略为不同层提供匹配和兼容的监督信号,提升模型的适应性。作者称这是首次通过可学习的 NTM 对目标域的伪标签噪声分布进行正式建模,并在元学习策略中进一步解决这个问题。DMLC 策略中,将类间的错误分类概率制定为目标域的噪声分布模型,并设计一种域感知的元学习算法,以数据驱动的方式估计 NTM 进行损失校正。

广泛的实验结果突出了所提出方法在三个基准上对现有最先进方法的有效性。

作者 | Xiaoqing Guo, Chen Yang, Baopu Li, Yixuan Yuan

单位 | 香港城市大学;百度(美)

论文 | https://arxiv.org/abs/2103.05254

代码 | https://github.com/cyang-cityu/MetaCorrection


16.Prototypical Pseudo Label Denoising and Target Structure Learning for Domain Adaptive Semantic Segmentation


文中所提出的 ProDA,利用原型对伪标签进行在线去噪,并学习目标域的紧凑特征空间。将知识蒸馏到自监督的预训练模型中,进一步提高了性能。并在很大程度上超过了先进的方法,大大缩小了与监督学习的差距。

作者 | Pan Zhang, Bo Zhang, Ting Zhang, Dong Chen, Yong Wang, Fang Wen

单位 | 中国科学技术大学;微软亚洲研究

论文 | https://arxiv.org/abs/2101.10979

代码 | https://github.com/microsoft/ProDA


17.Uncertainty Reduction for Model Adaptation in Semantic Segmentation

本次工作,作者重点对在没有源数据的情况下,语义分割的域适应问题的研究讨论。

在没有任何标签来指导优化的情况下,作者提出一种方法,可以减少对目标域数据预测的不确定性,也可以解释为增加特征提取器的稳定性。在语义分割迁移的标准任务基准上,获得了与使用源数据方法相当的性能。

作者 | Prabhu Teja S、Franc¸ois Fleuret

单位 | Idiap研究所;洛桑联邦理工学院;日内瓦大学

论文 |

https://openaccess.thecvf.com/content/CVPR2021/papers/S_Uncertainty_Reduction_for_Model_Adaptation_in_Semantic_Segmentation_CVPR_2021_paper.pdf

代码 | https://github.com/idiap/model-uncertainty-for-adaptation


18.Self-supervised Augmentation Consistency for Adapting Semantic Segmentation


本次工作提出一种既实用又高度准确的语义分割域适应方法。与以前的工作相比,放弃了使用涉及计算的对抗性目标、网络集成和风格迁移。而是采用标准的数据增强技术:光度噪声、翻转和缩放,并确保语义预测在这些图像转换中的一致性。通过简单的增强技术和 momentum 更新,显著提高了最先进的分割精度。

作者 | Nikita Araslanov, Stefan Roth

单位 | 达姆施塔特工业大学;hessian.AI

论文 | https://arxiv.org/abs/2105.00097

代码 | https://github.com/visinf/da-sac


点云语义分割


19.Semantic Segmentation for Real Point Cloud Scenes via Bilateral Augmentation and Adaptive Fusion


通过双边增强和自适应融合对真实点云场景进行语义分割

作者 | Shi Qiu, Saeed Anwar, Nick Barnes

单位 | 澳大利亚国立大学;Data61-CSIRO

论文 | https://arxiv.org/abs/2103.07074

代码 | https://github.com/ShiQiu0419/BAAF-Net


20.Complete & Label: A Domain Adaptation Approach to Semantic Segmentation of LiDAR Point Clouds


文章提出 "complete and label",是一种全新的域适应方法,旨在克服用不同 LiDAR 传感器获取的三维点云的域差距。

利用几何先验,可以将这个域适应问题转化为一个三维表面补全任务,然后在补全的三维表面上用传感器无关的网络执行语义分割等下游任务。实验结果表明所提出方法比以前的最先进方法有明显的改进。

作者 | Li Yi, Boqing Gong, Thomas Funkhouser

单位 | 谷歌

论文 | https://arxiv.org/abs/2007.08488


21.Few-shot 3D Point Cloud Semantic Segmentation


挑战:现有的 3D 点云语义分割方法多是完全监督,而完全监督严重依赖难以获得的大量标记的训练数据,并且在训练后不能分割新的类别。

方案:提出 attention-aware multi-prototype transductive 小样本点云语义分割方法,以给定几个标记的例子来分割新类。

结果:在两个基准数据集上,将所提出方法与基线相比,在不同的小样本点云语义分割设置(即2/3路1/5张)上显示出显著和一致的改进。

作者 | Na Zhao, Tat-Seng Chua, Gim Hee Lee

单位 | 新加坡国立大学

论文 | https://arxiv.org/abs/2006.12052

代码 | https://github.com/Na-Z/attMPTI


22.(AF) 2 -S3Net: Attentive Feature Fusion with Adaptive Feature Selection for Sparse Semantic Segmentation Network


文中提出一个端到端的 CNN 模型来解决 3D LiDAR 点云的语义分割和分类问题。(AF)2-S3Net,是一个基于三维稀疏卷积的网络,由注意力特征融合模块(AF2M)和自适应特征选择模块(AFSM)组成,可以有效地学习局部和全局上下文,强调给定LiDAR点云中的精细细节信息。

在 SemanticKITTI、nuScenes-lidarseg 和 ModelNet40 等几个基准上进行的广泛实验表明,所提出模型有能力捕捉局部细节和最先进的性能。未来的工作作者将考虑将所提出方法扩展到大规模 LiDAR 点云的端到端三维实例分割和目标检测中。

作者 | Ran Cheng, Ryan Razani, Ehsan Taghavi, Enxu Li and Bingbing Liu

单位 | 华为诺亚方舟实验室(加拿大)

论文 |

https://openaccess.thecvf.com/content/CVPR2021/papers/Cheng_AF2-S3Net_Attentive_Feature_Fusion_With_Adaptive_Feature_Selection_for_Sparse_CVPR_2021_paper.pdf


23.CGA-Net: Category Guided Aggregation for Point Cloud Semantic Segmentation


作者 | Tao Lu 、Limin Wang、Gangshan Wu

单位 | 南京大学

论文 |

https://openaccess.thecvf.com/content/CVPR2021/papers/Lu_CGA-Net_Category_Guided_Aggregation_for_Point_Cloud_Semantic_Segmentation_CVPR_2021_paper.pdf


实时语义分割


24.Rethinking BiSeNet For Real-time Semantic Segmentation


作者 | Mingyuan Fan, Shenqi Lai, Junshi Huang, Xiaoming Wei, Zhenhua Chai, Junfeng Luo, Xiaolin Wei

单位 | 美团

论文 | https://arxiv.org/abs/2104.13188

代码 | https://github.com/MichaelFan01/STDC-Seg

简介 | https://zhuanlan.zhihu.com/p/368482499


25.HyperSeg: Patch-wise Hypernetwork for Real-time Semantic Segmentation


作者 | Yuval Nirkin, Lior Wolf, Tal Hassner

单位 | Facebook;巴-伊兰大学;以色列特拉维夫大学

论文 | https://arxiv.org/abs/2012.11582

代码 | https://github.com/YuvalNirkin/hyperseg


弱监督语义分割


26.BBAM: Bounding Box Attribution Map for Weakly Supervised Semantic and Instance Segmentation


作者 | Jungbeom Lee, Jihun Yi, Chaehun Shin, Sungroh Yoon

单位 | 首尔大学;

论文 | https://arxiv.org/abs/2103.08907

代码 | https://github.com/jbeomlee93/BBAM


27.Anti-Adversarially Manipulated Attributions for Weakly and Semi-Supervised Semantic Segmentation


作者 | Jungbeom Lee, Eunji Kim, Sungroh Yoon

单位 | 首尔大学;

论文 | https://arxiv.org/abs/2103.08896

代码 | https://github.com/jbeomlee93/AdvCAM


28.Non-Salient Region Object Mining for Weakly Supervised Semantic Segmentation


作者 | Yazhou Yao, Tao Chen, Guosen Xie, Chuanyi Zhang, Fumin Shen, Qi Wu, Zhenmin Tang, Jian Zhang

单位 | 南京理工大学;MBZUAI;电子科技大学;阿德莱德大学;悉尼科技大学

论文 | https://arxiv.org/abs/2103.14581

代码 | https://github.com/NUST-Machine-Intelligence-Laboratory/nsrom


29.Background-Aware Pooling and Noise-Aware Loss for Weakly-Supervised Semantic Segmentation


弱监督语义分割新方法:BAP,使用边界盒标注,允许生成高质量的伪ground-truth 标签。NAL,利用用于预测的 CNN 特征和语义分割的分类权重之间的距离,使网络不易受到错误标签的影响。

实验结果表明,在 PASCAL VOC 2012 数据集上,使用该伪标签学习已经超过了最先进的弱监督和半监督方法,而且 NAL 进一步提高了性能。

作者 | Youngmin Oh, Beomjun Kim, Bumsub Ham

单位 | 延世大学

论文 | https://arxiv.org/abs/2104.00905

代码 | https://github.com/cvlab-yonsei/BANA


30.One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation


作者 | Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu

单位 | 香港中文大学;香港大学

论文 | https://arxiv.org/abs/2104.02246


31.Railroad is not a Train: Saliency as Pseudo-pixel Supervision for Weakly Supervised Semantic Segmentation


挑战:使用图像级弱监督进行弱监督语义分割(WSSS)研究的局限性在于 sparse object coverage、inaccurate object boundaries 以及来自非目标对象的共同出现的像素。

方案:提出 Explicit Pseudo-pixel Supervision(EPS),通过结合两个弱监督从像素级反馈中学习;图像级标签通过定位图提供目标身份,以及来自现成的显著检测模型的显著图提供丰富的边界。设计一种联合训练策略,充分利用两种信息之间的互补关系。该方法可以获得准确的物体边界,并摒弃共同出现的像素,从而显著提高 pseudo-masks 的质量。

结果:所提出的方法通过解决 WSSS 的关键挑战而明显优于现有方法,并在PASCAL VOC 2012 和 MS COCO 2014 数据集上取得了新 SOTA。

作者 | Seungho Lee, Minhyun Lee, Jongwuk Lee, Hyunjung Shim

单位 | 延世大学;成均馆大学

论文 | https://arxiv.org/abs/2105.08965

代码 | https://github.com/halbielee/EPS


半监督语义分割


32.Semi-Supervised Semantic Segmentation with Cross Pseudo Supervision


本次工作作者通过探索标记数据和额外的未标记数据对半监督语义分割的问题进行了研究。并提出一种新的一致性正则化方法,cross pseudo supervision(CPS)。通过使用从一个网络获得的 one-hot 伪分割图来监督另一个网络,从而使具有相同结构和不同初始化的两个网络之间具有一致性。CPS 的一致性有两个作用:鼓励两个扰动网络对同一输入图像预测的高度相似性,并通过使用带有伪分割图的未标记数据来扩大训练数据。在 Cityscapes 和PASCAL VOC 2012 上实现了最先进的半监督分割性能。

作者 | Xiaokang Chen, Yuhui Yuan, Gang Zeng, Jingdong Wang

单位 | 北大&微软亚洲研究

论文 | https://arxiv.org/abs/2106.01226

代码 | https://github.com/charlesCXK/TorchSemiSeg


33.Semi-supervised Domain Adaptation based on Dual-level Domain Mixing for Semantic Segmentation


文中提出基于 dual-level 域混合框架来解决半监督域适应问题。而基于所提出的 region-level 和 sample-level 的两种数据混合方法,可以得到两个互补的域混合教师。然后,对这两个域混合教师进行知识蒸馏,可以在目标域建立一个更强大的学生模型。最后,伪标签可以通过自训练的方式生成,用于下一轮域混合教师的训练。

实验表明,所提出的框架可以充分利用现有的数据,并在两个常用的 synthetic-to-real 基准上取得优异的性能。

作者 | Shuaijun Chen, Xu Jia, Jianzhong He, Yongjie Shi, Jianzhuang Liu

单位 | 华为;大连理工大学;北大

论文 | https://arxiv.org/abs/2103.04705


34.Semi-supervised Semantic Segmentation with Directional Context-aware Consistency


本次工作,作者专注于半监督的语义分割问题。为了缓解过拟合问题以及增强self-awareness,提出 context-aware 的一致性,即明确要求身份相同但上下文不同的特征要保持一致。此外,提出方向性对比损失(Directional Contrastive Loss)来进行对齐。同时,还提出两种有效的采样策略,以进一步改进。

广泛的实验表明,所提出方法取得了最先进的结果,并且在额外的图像级标注下也能很好地进行泛化。

作者 | Xin Lai、Zhuotao Tian、Li Jiang、Shu Liu、Hengshuang Zhao、 Liwei Wang、Jiaya Jia

单位 | 香港中文大学;思谋科技;牛津大学

论文 |

https://openaccess.thecvf.com/content/CVPR2021/papers/Lai_Semi-Supervised_Semantic_Segmentation_With_Directional_Context-Aware_Consistency_CVPR_2021_paper.pdf


35.Semantic Segmentation with Generative Models: Semi-Supervised Learning and Strong Out-of-Domain Generalization


作者 | Daiqing Li, Junlin Yang, Karsten Kreis, Antonio Torralba, Sanja Fidler

单位 | 英伟达;多伦多大学;耶鲁大学;麻省理工学院;Vector Institute

论文 | https://arxiv.org/abs/2104.05833

主页 | https://nv-tlabs.github.io/semanticGAN/


36.Three Ways to Improve Semantic Segmentation with Self-Supervised Depth Estimation


挑战:训练语义分割的深度网络需要大量的标记训练数据,由于标记分割掩码是一个高度劳动密集的过程,使之在实践中是一个重大挑战。

方案:设计一个半监督语义分割框架,通过来自无标签图像序列的自监督单目深度估计得到加强。具体得到下面三个贡献:

1、将在自监督深度估计过程中学习到的特征知识迁移到语义分割中

2、通过使用场景的几何形状混合图像和标签来实现强大的数据增强

3、利用深度特征的多样性以及在学生-教师框架中学习深度的困难程度来选择最有用的样本来进行语义分割的标注

结果:在 Cityscapes 数据集上对所提出模型进行了验证,三个模块都表现出明显的性能提升,在半监督语义分割方面取得了最先进的成果。

作者 | Lukas Hoyer, Dengxin Dai, Yuhua Chen, Adrian Köring, Suman Saha, Luc Van Gool

单位 | 苏黎世联邦理工学院;波恩大学;鲁汶大学

论文 | https://arxiv.org/abs/2012.10782

代码 |

https://github.com/lhoyer/improving_segmentation_with_selfsupervised_depth


夜间语义分割


37.DANNet: A One-Stage Domain Adaptation Network for Unsupervised Nighttime Semantic Segmentation


文中提出一种全新的域适应网络(DANNet),用于夜间语义分割,而不使用标记的夜间图像数据。它采用一种对抗性训练,即用一个标记的日间数据集和一个未标记的数据集,其中包含粗略排列的日夜图像对。

DANNet 是首个用于夜间语义分割的单阶段适应性框架,它没有训练额外的昼夜图像迁移模型作为单独的预处理阶段。在 Dark Zurich 和 Nighttime Driving 数据集上进行的大量实验表明,所提出方法在夜间语义分割方面取得了最先进的性能。

作者 | Xinyi Wu, Zhenyao Wu, Hao Guo, Lili Ju, Song Wang

单位 | 南卡罗莱纳大学;Farsee2 Technology Ltd

论文 | https://arxiv.org/abs/2104.10834

代码 | https://github.com/W-zx-Y/DANNet

备注 | CVPR2021 oral


小样本语义分割


38.Scale-Aware Graph Neural Network for Few-Shot Semantic Segmentation


文章提出一个 scale-aware 图神经网络(SAGNN),用来解决具有挑战性的重要的小样本语义分割(FSS)任务。

具体来说,首先在 support-induced 查询节点上建立一个尺度感知图,然后对这些节点进行图推理。以及一个 self-node collaboration 机制,在特征聚合期间丰富当前节点的特征。

SAGNN 在 PASCAL-5i 和 COCO-20i 上都创造了新的 SOTA。

作者 | Guo-Sen Xie、Jie Liu、Huan Xiong、Ling Shao

单位 | MBZUAI;起源人工智能研究院;哈尔滨工业大学

论文 |

https://openaccess.thecvf.com/content/CVPR2021/papers/Xie_Scale-Aware_Graph_Neural_Network_for_Few-Shot_Semantic_Segmentation_CVPR_2021_paper.pdf


39.Anti-aliasing Semantic Reconstruction for Few-Shot Semantic Segmentation


本文中,作者将小样本分割重新表述为语义重建的问题,提出Anti-aliasing Semantic Reconstruction(ASR),并将基类特征转换为一系列的基向量,这些基向量跨越了一个类的语义空间,用于新类的重建。

在训练过程中,ASR 最大限度地提高了正交性,同时最大限度地减少了基类的 semantic aliasing,为新类的重建提供了便利。

在推理过程中,ASR 进一步抑制了干扰语义,从而精确地激活了目标对象区域。

在大规模的 MS COCO 数据集上,ASR 改善了小样本分割的性能,与之前的方法形成了鲜明的对比。

作者 | Binghao Liu, Yao Ding, Jianbin Jiao, Xiangyang Ji, Qixiang Ye

单位 | 国科大;清华

论文 | https://arxiv.org/abs/2106.00184

代码 | https://github.com/Bibkiller/ASR


- END -

编辑:CV君

转载请联系本公众号授权