1.Mapping from Frame-Driven to Frame-Free Event-Driven Vision Systems by Low-Rate Rate Coding and Co

一念净心xjtu 2019-12-16

展开全文

Abstract

事件驱动的视觉传感器引起了许多不同研究社区的关注。它们以与传统视频系统完全不同的方式提供视觉信息，传统视频系统由以给定“帧频”渲染的静止图像序列组成。事件驱动的视觉传感器从生物学中获得启发。每个像素在感觉到有意义的事情正在发生时发出一个事件（峰值），而没有任何帧的概念。事件驱动传感器是一种特殊类型的事件，即所谓的动态视觉传感器（DVS），其中每个像素都计算光线或“时间对比度”的相对变化。传感器输出包括连续的像素事件流，这些像素事件表示场景中的运动对象。传感器输出包括连续的像素事件流，这些像素事件表示场景中的运动对象。像素事件相对于“真实性”具有微秒的延迟。这些事件可以通过级联的事件（卷积）处理器“在它们流动时”进行处理。结果，输入和输出事件流实际上在时间上是重合的，并且一旦传感器提供足够有意义的事件，就可以识别出对象。

在本文中，我们提出了一种方法，用于从常规框架驱动表示形式中经过适当训练的神经网络映射到事件驱动表示形式。通过研究事件驱动的卷积神经网络（ConvNet）来说明该方法，该事件网络经过训练可以识别旋转的人体轮廓或高速扑克牌符号。事件驱动的ConvNet所需要的数据从真实DVS摄像机获得。事件驱动的ConvNet使用专用的事件驱动模拟器进行仿真，并且由多个事件驱动的处理模块组成，这些模块的特性可从单独制造的硬件模块获得。

Introduction

DVS概念，及AER（address event representation）概念

在本文中，我们专注于视觉系统，该系统包括事件驱动的传感器和大量事件驱动的处理模块，这些模块用于执行对象识别任务。为此，我们将专注于一种特殊类型的生物启发式视觉处理结构，称为卷积神经网络（ConvNets）[12]。报告的ConvNet基于框架驱动的原理进行操作，并通过向其提供训练静态图像（框架）的数据库来进行训练。另一方面，事件驱动处理模块的培训仍然是一个开放的研究问题。

一些初步的和非常有前途的工作可以在文献中找到[19]，[20]。但是，将其应用于大规模系统目前尚不实用。因此，在本文中，我们提出了一种中间解决方案。首先，我们通过在固定时间间隔内从DVS摄像机收集事件来建立训练图像（帧）的数据库。其次，我们使用该数据库训练框架驱动的ConvNet来执行对象识别。第三，我们将帧驱动的ConvNet的学习参数映射到事件驱动的ConvNet，最后，我们微调事件驱动的ConvNet的一些额外的与时序相关的参数以优化识别。为此，我们提供了一种方法，用于将经过适当培训的框架驱动的ConvNet映射到其相应的事件驱动的版本。然后，我们将通过两个示例ConvNet练习来说明这一点：一个用于检测行走的人的轮廓的旋转DVS记录的角度，另一个用于在DVS前方约1秒钟浏览纸牌时识别扑克牌的符号。

本文的结构如下：

下一部分讨论帧驱动表示形式和事件驱动表示形式中视觉之间的时序差异。

第3节介绍了从帧驱动系统神经元到事件驱动系统神经元的映射方法。

第4节和第5节介绍了两个示例ConvNet系统，它们使用来自真正DVS视网膜芯片的DVS记录。在第4节中，该示例针对一个问题，即被观察世界的时间常数与人类所使用的时间常数相似，而第5部分中的实验说明了DVS性能被推到极限的更高速度的观察现实。

最后，第6节和第7节介绍了一些讨论和结论。