【原】SeqNet：学习基于序列的层级位置识别的描述符

小白学视觉 2021-03-29

展开全文

重磅干货，第一时间送达

小白导读

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享，旨在帮助各位读者快速了解论文内容。个人能力有限，理解难免出现偏差，建议对文章内容感兴趣的读者，一定要下载原文，了解具体内容。

摘要

视觉地点识别(VPR)是一项任务，将当前的视觉图像从一个摄像机到存储在一个参考地图的环境。虽然最初的VPR系统使用简单的直接图像方法或手工制作的视觉特征，但最近的工作集中于学习更强大的视觉特征，并通过某种形式的顺序匹配器/过滤器或层次匹配过程进一步提高性能。在这两种情况下，基于单图像的初始系统的性能仍然远远不够完美，给序列匹配带来了巨大的压力，或者(在层次系统的情况下)提出了细化阶段。在本文中，作者提出了一种新的混合系统，该系统使用短时间学习的序列描述符创建高性能的初始匹配假设生成器，它允许使用单个图像学习的描述符选择性控制序列分数聚合。序列描述符使用时序卷积网络SeqNet生成，使用一维卷积编码短图像序列，然后与参考数据集中相应的时序描述符进行匹配，提供一个有序的位置匹配假设列表。然后，作者从单独的管道中使用入围的单个图像学习描述符进行选择性的顺序评分聚合，以产生一个整体的位置匹配假设。在具有挑战性的基准数据集上进行的全面实验表明，该方法在使用相同数量的序列信息时，优于最近的最先进的方法。

代码链接：https://github.com/oravus/seqNet

论文创新点

作者的贡献如下:

一种新的空间表示方法SeqNet，基于序列图像，使用单个时间卷积层和三组丢失学习;

一个低延迟的最先进的层次视觉位置识别(HVPR)系统，它结合了顺序描述符的鲁棒性和顺序匹配器的强制性质;

详细的消融和对作者所提议系统的特性的洞察，包括从反向穿越的数据库中识别位置;

和公开的源代码和补充的结果和可视化，以促进在这个方向的进一步研究。

框架结构

基于序列的分层视觉位置识别

作者提出SeqNet来学习短序列描述符，生成高性能的初始匹配候选项，并使用单个图像学习描述符实现选择性控制序列评分聚合。

作者提出的分层VPR管道使用SeqNet通过一个序列描述符生成顶部匹配假设，然后对学习到的单个图像描述符进行序列匹配。

实验结果

采用(a)固定距离(FD)采样和(b)固定时间(FT)采样，使用布里斯班(日夜)训练模型的牛津(日夜)召回性能;(c)布里斯班(昼-夜)采用牛津(昼-夜)训练模型;(d) Nordland(春-秋)与在Nordland(夏-冬)训练的模型。

在MSLS上的性能:(a)安曼，(b)旧金山，(c)波士顿和(d)哥本哈根使用MSLS墨尔本训练的模型。

结论

使用时间卷积学习顺序描述符提供了一种强大的方法，可以生成高质量位置匹配假设的初始列表，还有一些额外的好处，即具有有限的顺序不变性。当使用这些假设对学习到的单个图像描述符进行选择性序列匹配或滤波时，其结果是最先进的性能，但整体计算量减少。未来的工作将解决由这项工作确定的一些有趣的问题，特别是在如何良好的顺序描述或匹配过程改善单个图像描述符的性能方面的广泛差异。进一步的研究可以研究如何预测量化单个图像描述符对顺序过滤的可能响应性，进而开发一个学习框架来优化响应性，该学习框架由应用程序的功能需求驱动，如期望的匹配延迟。

论文链接：https:///pdf/2102.11603.pdf

每日坚持论文分享不易，如果喜欢我们的内容，希望可以推荐或者转发给周围的同学。

- END -

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。深度学习爱好者或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

深度学习爱好者鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

· 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

· 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

· 深度学习爱好者默认每篇文章都是首发，均会添加“原创”标志