RGB-D图像分割。RGB-D图像分割。CNN从highlevel视觉问题转化为像素标注有挑战。

1、基本信息

1、基本信息

 

题材:使用马尔科夫场实现冲超像素的RGB-D图像分割;

题目:使用马尔科夫场实现基于超像素的RGB-D图像分割;

 

笔者所属:Ferdowsi University of Mashhad(Iron)

作者所属:Ferdowsi University of Mashhad(Iron)

Conditional Random Fields as Recurrent Neural Networks

发表:2015 International Symposium on Artificial Intelligence and Signal
Processing (AISP)

发表:2015 International Symposium on Artificial Intelligence and Signal
Processing (AISP)

 

要词:微软Kinect传感器;RGB-D图像分割;MRF;法向量

一言九鼎词:微软Kinect传感器;RGB-D图像分割;MRF;法向量

ICCV2015    cite237   

2、摘要

2、摘要

 

本着问题:能量最小化;

对问题:能量最小化;

1摘要:

行使状况:室内场景标签问题(分割、分类等);

动状况:室内场景标签问题(分割、分类等);

比如素级标注的首要(语义分割 图像理解)–
现在开班利用DL—-但DL无法描述visual
objects—-本文引入新型的CNN,将CNN与CRF概率图模型结合—用高斯pairwise势函数定义之CRF作为RNN,记否CRF-RNN—-将其作为CNN的一模一样部分,使得深度模型同时所有CNN和CRF的特点,同时本文算法完美结合了CRF和CNN,弄成了一个端对端的网,可以由反为传来训练,避免了体描述的题材。—-在语义分割问题及测试,在Pascal
VOC2012齐得高结果。

重要数据:微软Kinect获得的带有距离信息之图像数据;

重大数据:微软Kinect获得的包含距离信息之图像数据;

 

着重方式:基于色彩跟去变化对原图进行超像素预处理,使用图像模型处理超像素块,并为此MRF推断得到终极之竹签结果;

一言九鼎措施:基于色彩与离开变化对原图进行超像素预处理,使用图像模型处理超像素块,并据此MRF推断得到最终的标签结果;

2 Introduction

要结果:NYU的数量,效果又好;

一言九鼎结果:NYU的多少,效果还好;

 

优点与差距:图像模型如何套用在先期处理结果的,以及MRF的携带?SAR图像可以取距离信息,但是否有必不可少?效率和质量上发出没发生可取之处?

长与差距:图像模型如何套用在事先处理结果的,以及MRF的带?SAR图像可以博距离信息,但是否有必要?效率与质及产生无起可取之处?

诸如素标注应用场景:底层视觉中的语义分割、图片深度估计,之前是特点表示来做,会设想任何因子比如边、视觉连续性、空间连续性等。

3、Introduction

3、Introduction

查找来相当的特点表示十分关键,很多口做:随机森林等。最近CNN成功使在high-level的视觉问题达到,如识别、检测等—–>研究CNN在比如素标注上的采取。都当研究用深度模型学来一个再次深层更使得之性状,替代之前的手工特征。FCN,DeepLab等证有效。

–distance,距离因素相比其他rgb等信息,收到的侵扰而小/少一点;同样也是坐使用了离开信息进行了超像素预处理(当然为为此了色彩的音讯),比其它力量要好;

–distance,距离因素相比其他rgb等消息,收到的搅和而小/少一点;同样为是坐运用了距信息进行了超像素预处理(当然也为此了色彩的信息),比其它力量自己;

CNN从highlevel视觉问题转化为像素标注有挑战:1)CNN的卷积层,滤波器有不行之感受野,当起像素级的价签时会见使结果非常小。而maxpooling更激化了就无异现状。2)CNN不考虑平滑约束,相似像素并无吃鼓励同一的价签,失去了空中和外观的连续性。这将招致对体的喻不够,且会生出假的区域。

–本文将分问题作为是一个肆意优化问题(另一样种植普遍的眼光是欠问题是一个确定的优化问题);

–本文把分问题看作是一个擅自优化问题(另一样栽常见的观点是该问题是一个确定的优化问题);

概率图模型走之跟DL不平等的程,用来针对如从进行标注。MRF和夫变体CRF在视觉领域获得成功。CRF在语义标注问题达到的重要性idea是用标签分配问题转化为概率推理问题,基于一些比方,比如一般像从标签一致等。CRF推理可以精细化弱的、粗糙的像素标签预测问题,从而获取sharp的界线和精致的划分。所以,可以为此来摆平CNN的贫。

–随机优化又发出零星栽模型:图像模型与任何非图像的型(用参数或非参的法子取得后延概率);本文使用著名的后验概率图像模型——MRF——来最小化势能量函数,以获取每个超像素的大局的不过优良标签;

–随机优化又生出零星种植模型:图像模型与其他非图像的模型(用参数或非参的法赢得后延概率);本文使用著名的后验概率图像模型——MRF——来最为小化势能量函数,以获取每个超像素的大局的最优秀标签;

平种植方式若把CRF接在CNN后边,改善CNN的竹签输出。但迅即并无克充分利用CRF,因为尚未成进DL模型中,深度模型做的时并不知道CRF这回事(这理由,,?)。

4、Related works

4、Related works

本文:端对端的型解决像素级标注,结合CNN和CRF。提出mean-field
近似推理,以富含高斯pairwise的势函数的凝聚CRF作为RNN,在眼前奔经过被针对CNN粗糙的出口精细化,同时于教练时以误差返回给CNN。结合了CNN与RNN的模型可以健康的使用反向传播来端对端的训。

多少。(与友爱研究有关的丢失,主要是3D图像的拍卖问题,针对性太胜,适用面小,又得重看吧)

稍。(与温馨研究相关的不见,主要是3D图像的处理问题,针对性太强,适用面小,又欲更拘留吧)

经相当的教练,我们的范会吓让那种以CRF独立的当作CNN的后甩卖部分的模子。在Pascal
VOC上取了74.7%的正确率。

5、MRF

5、MRF

 

–labeling问题:最大化后验概率p(L|f),在f特征下之L的最大化——》利用贝叶斯公式,得到=p(f|L)*P(L)/P(f),P(f)是只常反复,分析面临得忽略掉;P(f|L)等于是似然函数,P(L)用gibbs分布等到u能量函数,再成势函数——》所以,标签问题由要标签的尽老后验概率,变为求最好小势能函数的与(或极小能量函数,这即是独名)——》若后验概率假设是高斯分布的,得到式子后,v变为potts模型(似乎是本文采用的模型)

–labeling问题:最大化后验概率p(L|f),在f特征下的L的最大化——》利用贝叶斯公式,得到=p(f|L)*P(L)/P(f),P(f)是单常反复,分析面临得以忽略掉;P(f|L)等于是似然函数,P(L)用gibbs分布等到u能量函数,再变成势函数——》所以,标签问题由要标签的极深后验概率,变为求最好小势能函数的同(或极小能量函数,这便是独名)——》若后验概率假设是高斯分布的,得到式子后,v变为potts模型(似乎是本文采用的模型)

3 相关工作

–这里,最后的势函数是所谓的order2势函数,反应了图中相邻标签的涉;之前的势函数反应的是单纯像素/超像素在觊觎备受的涉。(?)

–这里,最后的势函数是所谓的order2势函数,反应了图被相邻标签的关系;之前的势函数反应的凡十足像素/超像素在祈求被之关联。(?)

 

6、三止的纵深去叫(?)

6、三限的纵深去叫(?)

用深度上及CNN应用及low-level的视觉任务中,尤其是图像语义分割。—方法分为两类:

提出了一致栽对的去噪方法,但没有怎么看明白——不过好之研讨着,因为对的是高分辨率的图像,且强调速度的兑现,这里越了。

提出了扳平栽对的去噪方法,但从未怎么看明白——不过好之钻研被,因为对的凡高分辨率的图像,且强调速度的落实,这里越了。

1)将那个用作单身的特征提取的计,分割方法去搜寻图中之无尽。—找来超像素块,继而找来图被的布局模式,但一样开始之proposal要是错了,对后影响甚充分。又提出了RNN模型用于对空中依赖性建模。图模型和CNN结合可以直达更好的功力。

7、Proposed Method

7、Proposed Method

2)直接攻读产生一个将图像投射到标签的非线性模型。17被,将最后之全连接层替换为卷积层,以保留空间信息。37蒙,FCN,顶层包含了体识别的特色,底层深蕴了图像基本结构特征,如止。这些重叠中的连日沟通了这些特征。10,41施用CRF调整CNN得到的撤并结果。还有通过物体识别来分的齐。我们的范同时学习CNN与CRF两者的参数,在合之大网中。

7.1 超像素提取方法

7.1 超像素提取方式

故此神经网络来预测结构化的输出:14将深度神经网络与马尔科夫网结合,用于序列数据的标。26证CNN可以在图像恢复吃及MRF或CRF表现一样好。手写数字识别为本着CNN结合的慌好,在NLP,60证实基于RNN的词语标注得透过整合CRF来提高效率,6饱受笔者就做了CNN与HMM,最近,45为此了CRF的变体。25遭受,CNN和CRF用于语句识别,57并且训练CNN与MRF用于人脸姿势估计,11为此同样之方做图像分类。21因此相同种MRF作为神经网络的同样层。我们用任何一样栽图模型(CRF)作为神经网络的层。

–是很重要的平等步,影响最后结出许多(同);

–是很重要的相同步,影响最后结果多(同);

自动学习图模型的参数,同时训练分类器与图模型。4于其Active随机场道吃并且训练MRF或CRF与同一种植推理算法。15倡导在图模型中以反向传播算法,当一种恍若度方式若mean-field及信念传播等深受采用的当儿。28使了当下同一想方设法,二值化的密集CRF被用来人脸姿势估计。47,54与的相似,说明了信心传播得优化模型参数。。。。

–针对labcie彩色空间的canny边缘检测方法与对深度(距离)信息之附近像素法向量的cos夹角方法;

–针对labcie彩色空间的canny边缘检测方法与对深度(距离)信息之附近像素法向量的cos夹角方法;

俺们方法求证了拿凝聚CRF作为RNN是立竿见影之,这样可起一个重组了深上及图模型的捧对端的网用于图像语义分割。

–也就是说,文中是因此就简单栽边缘检测方法赢得边缘,然后以获的分后的块当下同样步处理的超像素(也就是说,大小形状不定);(这里倒是提供了同等种超像素的笔触,由边缘检测等任何方式赢得,自己定义超像素亦可,只要劳动被己!!)

–也就是说,文中是为此这点儿种植边缘检测方法获得边缘,然后将获的剪切后底块当下一样步处理的超像素(也就是说,大小形状不定);(这里却提供了同种超像素的笔触,由边缘检测等任何方式得到,自己定义超像素亦可,只要劳动为自己!!)

 

7.2 能量函数(?)

7.2 能量函数(?)

4 CRF

–这里没最懂得:order3势函数也来了,表示两个互相邻像素的order2势函数的会师(?);

–这里没最好知道:order3势函数也来矣,表示两独彼此邻像素的order2势函数的集纳(?);

 

7.3 最小化(势函数)方法

7.3 最小化(势函数)方法

CRF用于像素级别之价签预测,将诸如素标签视为随机变量,构建一个坐大局为尺度的马尔科夫以机场,这个全局条件一般取为对应的图片。

–已经有许多(成熟的)方法:ICM,Graph Cut,梯度下降,a-expansion,
a-beta-swap and message passing based method;

–已经生很多(成熟之)方法:ICM,Graph Cut,梯度下降,a-expansion,
a-beta-swap and message passing based method;

本文中X相关的是于如从的标注,是随机变量,是先期定义好之同台L个。图G=(V,E),V便是N个像素的标注X,图片,也不怕全局条件,记为I。I和X的涉嫌可由CRF来建模,定义也一个Gibbs分布:P(X=x
|
I)=710官方网站 1。E(x)是x取某个值的能量,Z(I)是配分函数。

–本文以的凡一样种植MRF方法,切实是管原有问题说为sub(亚)题材——变成主从系列的问题,仆一个一个解决,让主不断更新到最终的结果;起了只算法名字:快速原始对偶算法(Fast
Primal Dual Algorithm);

–本文以的凡如出一辙栽MRF方法,切切实实是把老问题说为sub(亚)题材——变成主从系列的问题,仆一个一个化解,让主不断更新到终极的结果;起了个算法名字:快速原始对偶算法(Fast
Primal Dual Algorithm);

在备连的pairwise的CRF(29办事)中,710官方网站 2,其中,一第一之眼前半片段衡量像素标注为x的cost;二初之后半有的衡量两个像素同时得到这有限独号的cost。本文中,一初次之损失由CNN计算而来,可以说凡是不考虑平滑与连续性的预测值。后半有些次之首的尽管为闹了借助让实际图像的平整项,使得一般的像素更发出或标注一样。这个次初次的势函数被定义为混合高斯(赋予不同的权重):710官方网站 3.选用M个高斯核作用于特征向量f上,f一般由位置还是RGB直接得来。μ为标签兼容性函数,定义各标签对中间的兼容性(未被现实形式?应该各个对相应之价值就懂得当先验吗)。

8、实验结果

8、实验结果

顶小化CRF的势函数E(x)可以得出标注结果,但此过程异常复杂,所以发生矣mean-field近似方法,近似最要命后验的边缘分布进行推导。他为此简单化的Q(X)近似CRF的P(X),Q可叫勾勒啊顺序独立的边缘分布的积。

–具体的即不多说了,毕竟非是生一致,谈谈可取之处;

–具体的哪怕不多说了,毕竟非是死雷同,谈谈可取之处;

 

–数量:30个场景/图片;

–数量:30个场景/图片;

5 Mean-field 迭代作为一如既往积CNN层

–评判方法:和the Hoover
method对比(公认的组成部分方式),以及其他成熟方式;三独指标(correct
detection,noise instances,missed instances)发作图展示!

–评判方法:和the Hoover
method对比(公认的有的方法),以及另成熟艺术;三个指标(correct
detection,noise instances,missed instances)犯图显示!

 

9、Conclusion

9、Conclusion

本文的主要贡献就认证了Mean-field
CRF推理可以为公式化为RNN。为者,我们事先由算法1被闹Mean-field算法的单步运行情况,并且用他们讲述维CNN的叠。

–以几哪里信息(这里特指深度/距离信息)增强分割结果;

–用几何信息(这里特指深度/距离信息)增强分割结果;

 710官方网站 4

–具体实现的计是应用MRF原理,把消息“加载”到能函数中失去;

–具体实现之主意是动MRF原理,把消息“加载”到能函数中失;

 

–在事先处理等(得到超像素),利用了花花绿绿边缘与几何(深度)边缘来开检测的;

–以优先处理等(得到超像素),利用了五颜六色边缘与几(深度)边缘来举行检测的;

(先初始化各个标签的边缘分布,然后用高斯核应用在各个i和j像素上,得出二处女之势函数,然后,将M个势函数加权求和,然后考虑标签对的相容性,算有这标签最终之次首位情况下之边缘分布,接着,加上同样头的势函数的震慑(为何变成减去?),最后所以配分函数归一化)。这样平等交汇一个职责,便用CRF变为RNN。

–适用于high level图像处理问题,以及机器人导航问题(用kniect);

–适用于high level图像处理问题,以及机器人导航问题(用kniect);

 710官方网站 5

10、Future works

10、Future works

 

–更好之细分结果;

–更好之分开结果;

本文的孝敬在和我们着眼到密集CRF中冲滤波的mean-field推理方法依赖让在各国一个迭代中将高斯空间和彼此滤波器动为mean-field近似中。CNN中之滤波器在训练后即便一定了,而我辈采用的凡保留边的高斯滤波器,其参数依赖让图像原始之长空与外观信息。

–现有或前次分开结果的使用;每次迭代后标签的申报信息;

–现有或前次区划结果的用;每次迭代后标签的申报消息;

 

11、参考文献

11、参考文献

鉴于拿演绎过程改成为了CNN的重叠,因此要能够计算各国一样重合相对于那个输入的误差,从而得以以倒往传播时传于其前面同一叠。于是,我们模型中CRF的参数如高斯核的参数、标签相容性函数(原来是网学的)等得在训练网络时自行决定。

[9] Radhakrishna Achanta, Appu Shaji, Kevin Smith, Aurélien
Lucchi,Pascal Fua, Sabine Süsstrunk: S L IC Superpixels Compared to
Stateof-the-Art Superpixel Methods. IEEE Trans. Pattern Anal.
Mach.Intell. 34(11): 2274-2282 (2012).

[9] Radhakrishna Achanta, Appu Shaji, Kevin Smith, Aurélien
Lucchi,Pascal Fua, Sabine Süsstrunk: S L IC Superpixels Compared to
Stateof-the-Art Superpixel Methods. IEEE Trans. Pattern Anal.
Mach.Intell. 34(11): 2274-2282 (2012).

介绍算法1:U表示因的一致首位能函数(所以算法中会冒出负号),710官方网站 6,在风的CRF中,这些U一般由单独的分类器得到。

[31] Komodakis, N., Paragios, N., Tziritas, G., “MRF Energy
Minimization and Beyond via Dual Decomposition,” Pattern Analysis and
Machine Intelligence, IEEE Transactions on , vol.33, no.3,pp.531,552,
March 2011.

[31] Komodakis, N., Paragios, N., Tziritas, G., “MRF Energy
Minimization and Beyond via Dual Decomposition,” Pattern Analysis and
Machine Intelligence, IEEE Transactions on , vol.33, no.3,pp.531,552,
March 2011.

 

[32] Chaohui Wang, Nikos Komodakis, Nikos Paragios, “Markov Random
Field modeling, inference & learning in computer vision ; image
understanding”, A survey, Computer Vision and Image Understanding,
Volume 117, Issue 11, Pages 1610-1627, ISSN 1077-3142, 2013.94

[32] Chaohui Wang, Nikos Komodakis, Nikos Paragios, “Markov Random
Field modeling, inference & learning in computer vision ; image
understanding”, A survey, Computer Vision and Image Understanding,
Volume 117, Issue 11, Pages 1610-1627, ISSN 1077-3142, 2013.94

5.1 初始化

12、个人总结

12、个人总结

(对一一步骤的分解)

–获得超像素的方,不呆板,对超像素定义之明白还透彻;

–获得超像素的方式,不死,对超像素定义的明还深刻;

 

–用MRF的能函数的转移,来落实所谓的“基于”;

–以MRF的能量函数的变,来兑现所谓的“基于”;

6 端对端的但训练之大网

–没有出口现实怎么落实的题目由大化小的,对超像素块的控制还是愚蠢光…

–没有摆现实怎么落实之题目由大化小的,对超像素块的主宰还是愚昧光…

 

 

 

为介绍我们的捧对端的用于语义分割的系,我们事先说明又的mean-field迭代过程是何许被再度写为RNN的。

 

6.1 CRF as RNN

 

在事先已经介绍了算法的平等潮迭代是可以吃代表为多只CNN层的,图1。我们用f_\theta
来表示一致坏迭代所带来的倒车:有图片I,像从级别的如出一辙长势函数U和边缘分布的估价Q,则mean-field一不好mean-field迭代之后的下同样步之边缘分布之估算就是f_\theta(U,Q,I)。向量\theta为参数w(M个)和\mu。

多叠mean-field迭代可以经重新上述过程实现,每一样糟迭代的Q的量来自于事先的同等不行迭代过程的结果,一初次的势函数还是保留原的样式。这顶价于将mean-field推理视为图2所显示之RNN。网络的呈现由下的架势表示,T是迭代次数:

 710官方网站 7

 

710官方网站 8

 

(门函数是永恒的,H1开始是由于softmax作用被U上得来,后止取H2直达亦然时刻的价值,,两独G均无作为。)

咱们称此为CRF-RNN。模型的参数可以以RNN中由于正规的反向传播学得。29证了凝聚CRF
的mean-field算法可以于简单10差的迭代内没有。另外,实际利用时5浅以上重长便不见面怎么变了。因此,他非被RNN固有之梯度消失和梯度爆炸的震慑。这吗同意我们应用有于简单的(plain)RNN模型如果未是繁体而LSTM的算法。

 

6.2 完成图片标注

 

咱俩的模型包含一个全卷积网络,不考虑图片结构一直预测像素标注,然后就一个CRF-RNN模型,以基于CRF的票房价值图模型来考虑结构的建模。所以这个模型结合了CNN和CRF的表征,可经反为传来BP和无限制梯度下降SGD等端对端的训。训练时,整个图像让当mini-batch,网络对每个像从输出的价关于真实分割的误差可以由一个契合的loss函数如softmax计算出来。我们之所以FCN-8s结构作为范的率先有的,为CRF提供相同首之势函数。基于改变后底VGG-16,可以用来进行诸如从级别的前瞻。

每当前边向传来时,一旦好了CNN部分,转至CRF-RNN中计算,数据会进展T次迭代才见面离RNN的巡回。提供U的CNN以及CRF-RNN后止的有些要loss层在此期间均无需要算,因为调整,精细化过程就生在RNN循环内部。一旦输出Y离开了巡回,softmax损失层便执行计算并当网络的停。

每当反为传来着,一旦误差传至了CRF-RNN的输出Y上,在流传输入U之前为是会见进行T次迭代。在历次RNN内部的迭代中,误差均会于逐一部分中计算,如算法1。

 

7 贯彻细节

 

8 实验

 

9 总结

相关文章