分享

【泡泡图灵智库】NLCA-Net:非局部上下文注意网络用语立体匹配

 taotao_2016 2020-09-29


作者:zhibo rao,mingyi he,yuchao dai,zhidong zhu,bo li and renjie he.

来源:APSIPA Transactions on Signal and Information

Processing

编译:陈圣伦   

审核:李鑫

这是泡泡图灵智库推送的第? 篇文章,欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权

摘要

  大家好,今天为大家带来的文章是 -- NLCA-Net: a non-local context attention network for stereo matching。

    准确的视差预测是计算机视觉研究的热点,如何有效地利用上下文信息是提高视差预测性能的关键。在本文中,我们提出了一个简单而有效的非局部上下文注意网络,利用注意力机制和语义信息来实现立体匹配中的全局上下文注意。首先,我们开发了一个二维几何特征学习模块,利用多尺度特征得到更有判别性的表示,并形成基于方差的代价体。然后,利用非局部块和三维卷积构造非局部注意力匹配模块,有效地规范了代价体,捕获了全局上下文信息。最后采用几何细化模块对视差图进行细化,进一步提高了视差图的性能。此外,我们加入warp损失函数来帮助模型学习无遮挡区域的匹配规则。我们的实验表明:(1)我们的方法在KITTI和SceneFlow数据集上在端点误差和错误像素的分数(D1)上取得了有竞争力的结果;(2)我们提出的方法具有优越的性能,尤其在反射区和遮挡区。

主要贡献

    1)我们设计了一个非局部上下文注意力模块来利用全局上下文信息来规范代价量,从而提高了匹配任务的性能,特别是在遮挡情况下。

    2)用基于方差的方法代替传统的连接操作来构建成本卷,既提供了相似信息,又减少了部分内存。

算法流程

图1 网络架构

    如图1,模型由五个部分组成:特征提取与融合、代价体构建、特征匹配、视差图回归和细化。

1.特征提取

    如图2,在这个模块中使用一系列的二维卷积操作来提取语义信息,每个卷积操作之后是批归一化(BN)层和整线性单元(ReLU)层。该模块由一元特征提取部分和多尺度特征融合部分组成。前者由4个残差块和1个SPP组成,后者用于融合拼接在在一起的一元特征体。

图2 几何特征学习模块(GFL)

2.方差代价体构建

    Vl和Vr是左右图的语义特征,Vr,i是右图上的匹配范围内的特征。Vi拔是Vl和Vr,i的平均值。相比于使用拼接特征构建代价体的方式,这种方法节省了大约一半的内存。

3.非局部注意

图3 非局部注意力匹配模块(NLAM)

    如图3,这个模块中应用了一系列3D卷积操作来获得匹配的体积,每个卷积操作之后都有一个BN层和一个ReLU层。NLAM模块由特征匹配部分和尺度恢复部分组成。

4.几何细化模块

图4 几何细化模块(GR)

    GR模块将初始视差图、左图和语义特征连接作为输入。

5.损失函数

    视差的L1损失包括两部分,初始化视差误差和细化视差误差。warp损失利用视差重构图像与图像构建损失。最终的损失为两者的加权和。

主要结果

KITTI

表1 KITTI 2012,*使用3个非局部块。

表2 KITTI 2015,*使用3个非局部块。

Abstract 

    Accurate disparity prediction is a hot spot in computer vision, and how to efficiently exploit contextual information is the key to improve the performance. In this paper, we propose a simple yet effective non-local context attention network to exploit the global context information by using attentionmechanisms and semantic information for stereomatching. First, we develop a 2D geometry feature learning module to get a more discriminative representation by taking advantage of multi-scale features and form them into the variance-based cost volume. Then, we construct a non-local attention matching module by using the nonlocal block and hierarchical 3D convolutions, which can effectively regularize the cost volume and capture the global contextual information. Finally, we adopt a geometry refinement module to refine the disparity map to further improve the performance. Moreover, we add the warping loss function to help the model learn the matching rule of the non-occluded region. Our experiments show that (1) our approach achieves competitive results on KITTI and SceneFlow datasets in the end-point error and the fraction of erroneous pixels (D1); (2) our proposed method particularly has superior performance in the reflective regions and 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多