您现在的位置:首页 > >

(CVPR2019)视频-图像语义分割(21) 联合传播数据增广+标签松弛提升边界精度=语义分割效果提升

发布时间:

论文地址: Improving Semantic Segmentation via Video Propagation and Label Relaxation
项目演示


1. 简介

??该论文提出了一种基于视频帧预测的方法合成训练样本来对训练数据集进行增广以获得精度更高的语义分割网络。具体地,论文利用视频帧预测模型的能力同时获得更多的图像和标注,并且使用联合传播策略来消除合成样本中的误差,另外还设计了新颖的边界标签松弛技术使得训练过程对于合成样本数据和注释的偏差更加鲁棒。


??通过视频序列来高效合成更多训练样本的方式如下图所示,给定一个序列的视频帧,其中部分帧带有标注,之后利用视频预测模型的能力预测未来帧的标签(标注),具体地有两种方式:1)标签传播:只为现有的没有标注的视频帧预测标签;2)联合传播:同时预测新的视频帧及其标注,二者偏差具有较大的一致性,这是论文使用的方法。利用视频预测模型的能力是论文提出方法的核心,即通过合成方法生成更多的训练样本,提升视频语义分割的效果。


??综合来看,论文主要的贡献在于:


利用视频预测模型为邻帧预测标签

联合视频帧-标注传播消除图像与标注难以对齐的问题

通过极大似然类别概率和边界来进行标签松弛

比较了论文提出的视频预测方法与基于光流场的方法对于语义分割效果的提升


2. 相关工作

标签传播:有两种方式,patch-matching和光流法,前者对于基于块匹配与阈值的方法比较有效,某些情况下需要一些先验知识;后者依赖于非常精确的的光流估*峁饨夏岩允迪郑徽返墓饬鞴兰苹岬贾卤曜⒃げ馄罱洗蟆


??论文基于第二种方法进行改进,第一点,使用视频预测模型得到的运动矢量进行传播,(视频预测模型的训练是通过自监督);第二点不同在于,论文使用联合传播方法来消除对齐差。


边界处理:已有方法通过一体化的边缘线索处理边界像素,但有两种缺点,一是潜在的误差传播二是测试阶段的过拟合。也有另外一些方法,联合场,随机游走,标签松弛以及边界神经场。然而没有一个方法能够直接处理边界像素。与论文方法较为相似的是利用贝叶斯网络内部不确定性推理的方法,通过强行使像素点呈高斯分布来减弱不确定性较大时的损失。


3.具体方法

??给定输入输入视频




I






R



n


×


W


×


H





I in R^{n imes W imes H}


I∈Rn×W×H和语义标注




L






R



n


×


W


×


H





L in R^{n imes W imes H}


L∈Rn×W×H,其中




m





n



m leq n


m≤n,合成




k


×


m



k imes m


k×m个新的训练样本,其中




k



k


k是已有的图像标注对的长度。之后论文说明了如何使用视频预测模型来进行标签合成。


3.1 视频预测

??视频预测任务在于通过先前的帧生成之后的帧,可以视为直接像素合成或者学*转化先前的像素。该论文中,使用了一个基于向量的方法来预测运动矢量




(


u


,


v


)



(u,v)


(u,v)以预测出现有像素点的未来坐标,预测的帧由下面的公式给出:









I


ˉ




t


+


1




=


T


(


?


(



I



1


:


t




,



F



2


:


t




)


,



T


t



)



ar I_{t+1}= Tau(varrho(I_{1:t},F_{2:t}),T_t)


Iˉt+1?=T(?(I1:t?,F2:t?),Tt?)


??其中




?



varrho


?是一个3D卷积神经网络,根据输入帧





I



1


:


t





I_{1:t}


I1:t?和输入帧





I


i




I_i


Ii?和





I



i


?


1





I_{i-1}


Ii?1?之间的光流





F


i




F_i


Fi?来预测运动矢量。




T



Tau


T是使用运动矢量




(


u


,


v


)



(u,v)


(u,v)从最*的输入





I


t




I_t


It?双线性上采样操作。


??需要注意的是光流向量




F



F


F和运动矢量不同,前者只对当前帧可见,对下一帧不可见,因此使用光流向量对当前帧进行采样会导致前景目标重复,图像产生小孔或者导致目标边界变形;而运动矢量能够精确的预测下一帧,论文在之后的章节也会说明。


??此外,论文还复用了该运动矢量来进行标签的预测:









L


ˉ




t


+


1




=


T


(


?


(



I



1


:


t




,



F



2


:


t




)


,



L


t



)



ar L _{t+1}= Tau(varrho(I_{1:t},F_{2:t}),L_t)


Lˉt+1?=T(?(I1:t?,F2:t?),Lt?)


??其中




T



Tau


T是作用与上一帧标签的采样操作。


3.2 图像-标签联合传播策略

??传统的标签传播方法根据原始视频中的下一帧





I



i


+


k





I_{i+k}


Ii+k?得到标签






L


ˉ




i


+


k





ar L_{i+k}


Lˉi+k?创造新的样本,这样标签和帧之间的对应并不精确,可能会碰到存在差别得情况,如下图所示,虽然大部分预测得的标签(第二行)和原始图像(第一行)相符,但是由于不准确的运动矢量导致一些不符合的地方比如红色框和绿色框。

??为消除这种不对齐,论文采用了图像标签联合传播策略,即图像和标签样本对




(




I


ˉ




i


+


k




,




L


ˉ




i


+


k




)



(ar I_{i+k},ar L_{i+k})


(Iˉi+k?,Lˉi+k?)都是根据已有图像和标注来得到的,如上图的第三行,图像和标注的对齐差相*。同时作为一种特殊的数据增广方式,而且该方法还反向传播得到更多的数据,论文每一帧生成了




±


5



pm 5


±5共十个训练样本。(另外该方法还能够为一些图像对应的标签缺乏的数据集做"修缮"工作)


3.3 边界像素点标签松弛

??语义分割任务中最难分类的像素点就是边界出的点,论文提出了一个对于类别标签空间进行修改的方法用于训练过程,允许模型能够给边界像素点预测多个类别。比如,我们要给类别A和类别B之间的一各像素点进行分类,不同于根据标注来极大似然目标标签,论文极大似然类别A和B交集的概率,由因为A和B互斥,有:







P


(


A


?


B


)


=


P


(


A


)


+


P


(


B


)



P(Aigcup B)=P(A)+P(B)


P(A?B)=P(A)+P(B)


??其中




P


(


)



P()


P()是每个类别的softmax概率,另使




N



N


N为一个像素的




3


×


3



3 imes 3


3×3像素窗口的类别,损失函数定义为:








L



b


o


u


n


d


a


r


y




=


?


l


o


g







C





N




P


(


C


)



L_{boundary}=-logsum_{Cin N}P(C)


Lboundary?=?logC∈N∑?P(C)


??其中




?


C


?


=


1



|C|=1


?C?=1,这个损失降低值标准的交叉熵函数。


4. 实验结果

(Cityscapes)


定量


定性1-裁剪

定性2-全景

(KITTI)


定量

定性

(CamVid)


定量


5. 结论

??论文提出的基于视频预测的数据合成方法对训练数据进行增广,引入联合传播策略和边界松弛技术提升效果,最终在多个数据集上取得了SOTA效果,除此之外,论文还指出还有更多比如GANs的数据增广方法。另外标签松弛技术可以用在更多的语义分割模型中以获得更好的不确定性推理。



欢迎扫描二维码关注微信公众号 深度学*与数学 ?[每天获取免费的大数据、AI等相关的学*资源、经典和最新的深度学*相关的论文研读,算法和其他互联网技能的学*,概率论、线性代数等高等数学知识的回顾]


热文推荐
猜你喜欢
友情链接: 团党工作范文 工作范文 表格模版 社科文档网 营销文档资料 工程文档大全