【原】计算机视觉技术在安防领域的案例实践 [ EGO演讲实录 ]

TGO鲲鹏会 2021-01-08

展开全文

2017年4月，EGO北京分会邀请到了格灵深瞳首席架构师苑维然老师为大家分享格灵深瞳在安防领域的计算机视觉技术实践。本文根据现场演讲整理，有删节。

作者|苑维然

编辑|赵新龙

1.引言

人类85%以上的信息获取来自于视觉，来自听觉的信息获取却不到10%。对于人类而言，视觉信息获取是极其重要的。

计算机视觉是自二十世纪六十年代中期以来，迅速发展起来的一门新学科。计算机视觉是使用计算机及相关设备对生物视觉的一种模拟，主要任务就是通过对采集的图片或视频进行处理以获得相应场景信息。计算机视觉不是处在完美的实验室环境中的，尤其像汽车、机器人、安保领域，他们面临的是真实的世界和复杂的光学环境。

传统计算机视觉的方法首先是获取原始数据，算法工程师在原始数据中选择属性，再对其进行预处理、特征处理和特征选择，之后利用机器学习方法，建立模型，通过训练得到模型参数以此达到最终结果。总而言之，在传统模式识别方法中，人来确定特征，机器做出学习。

深度学习省略了人来确定特征的步骤，机器从原始数据开始，通过人定义的网络模型，将特征与学习一起完成，这一过程即是特征学习。2013年，深度学习成为世界上十大技术突破之首，从那时开始，深度学习在中国逐渐流行，现在在图形图像、语音识别甚至在金融领域都有大量的应用出现。

上图是深度学习介入之后人脸识别错误率的下降曲线。蓝线代表着人类平均水平。LFW是国际上比较通用的人脸识别测试数据集，人类在这个数据集上的平均错误率是2.5%。从2014年开始，机器的识别错误率逐渐地低于人类的水平。

2.实际应用分析

2.1 车辆目标结构化

2015年年初，格灵深瞳开始了公司的第一个安防产品研发——车辆目标结构化。

上图是一个非常典型的安防摄像头画面，包括行人、车、二轮车、三轮车等。我们需要识别车辆的详细信息，比如车牌号、品牌、颜色、年检标、驾驶员是否系安全带。

以车辆图片为基础，将车辆进行目标视觉特征向量化。通过车辆的特征向量，在已有的车辆数据库中找到目标向量，将其进行对比得出结果，该结果即为车辆的ReID。ReID可以快速地查到该ID的车辆在何时出现在何地。

即使该车辆的车牌被遮挡了，车牌有污垢，或者视频不清晰不足以看清车牌，我们仍然可以通过ReID在第一时间内查到该车辆。ReID的另一个应用是以图搜图，查出与该车辆相似的车辆。车辆有可能被更改过车牌号，但车上会有一些细微的特征，比如车外划痕、车窗挂件等，通过这些细小的特征，格灵深瞳可以搜出车牌不一样甚至更改过牌号的车辆的图片。

2.2 人体目标结构化

比车辆目标结构化更复杂的是人体目标结构化。车有着车牌号，代表着唯一的ID，但是人的图像没有这种唯一的ID。比如街上的行人，有戴着头巾的、有老人、有打伞的、提包的等，他们都有着非常不同的特征，通过结构化可以得出这些目标的年龄、性别、发型、服装等特征。

结构化信息存入数据库可以进行检索，只不过人体结构化的准确度依然存在着一个限度的。假如一个人穿着蓝色上衣，短裤，搜索这个特征得到正确答案的概率不超过80%，相比之下搜索车的车型车款，一般可以得到90%以上的精确度。结构化信息作为整个数据分析系统的基本数据，能节省了不少在刑侦等应用中翻查视频的时间，即使得出的结果不能百分百确认，也可以通过少量人工处理得到合理的结果。同样，通过特征向量化，数据库中的行人都可获得一个ReID，于是也就衍生了类似于在多个摄像头的数据中查询同一个人行动轨迹的应用。

2.3 人脸目标结构化

与车、人目标结构化相似，人脸也有目标结构化阶段。

上图通过人脸目标结构化得出一个人的眼镜、表情、胡须等特征。更重要的是人脸特征向量化，即我们常说的人脸识别。昨天我在杭州出差入住酒店，前台要求我在一台机器面前，将身份证的照片与现场照片进行对比，只有结果符合本人，才可以入住。这是一个较为简单的1:1人脸识别应用。

还有一些1:N的应用，N即为库内人脸的数量。比如说，人脸门禁应用，在办公室门口设置摄像头，并将员工库作为N，每当一个人经过，系统在库中做特征比对，以确认此人是否为员工。

而N比N的应用更为复杂。这些应用里，N的数量级有很大区别，比如说某城市部署了上千个摄像头用来拍摄人脸，每个摄像头每秒钟都会抓取数张人脸，那么系统每秒钟便抓拍了上千张，每天四千万张，每个月十几亿张。当某个应用需要我们在十几亿的人脸抓拍库中进行比对时，我们不得不思考一个新的问题——视频大数据处理。

2.4 视频大数据

上图为公安系统处理流程。

视频信息源分成几种不同的种类，比如社会化智慧天网视频就是街上的安防视频数据源，随处可见，外形迷你，但其数据不清晰；卡口、交通违停视频质量相对不错；离线视频，比如手机拍摄的短视频，通过视频专网接入平台，也可以进行分析。
分析平台首先进行结构化处理，将人脸、车辆、人体结构化输出，然后提取其特征向量，进行大数据分析。举个例子——落脚点分析。我要找一个犯人，查找该犯人的藏身之处，于是对他进行长时间的数据分析，查找他每天消失的地方，还有每天早上他出现的地方。
公安数据资源库即身份证库、车辆库等公安内网的数据库。一些应用需要将数据分析得出的结果与资源库中的人脸照片等进行碰撞，比如全国逃犯库、区域常住人口库等，一般人脸黑名单、白名单库的量级在十万以内的话，结果是非常可用的。在公安准许的权限下，将基于资源库的处理结果推送到指挥中心、基层派出所等，还可以在民警手机APP上得到他们订阅的结果。

2.5 数据闭环

实现车辆识别、人脸识别，深度学习几乎成为标配，而深度学习最根本的依赖是好的数据。目前人工智能行业的现状是，必须拥有千万级别以上的数据，才可能训练出比较好的模型，人脸识别系统也不例外。

因此数据闭环就显得尤其重要，让我先来简单解释一下这个词汇。数据闭环是公司内部大量的数据流动，这些数据来自于多个渠道，有来自于业务系统、有来自于专门的数据采集系统，这些数据在闭环内以高效的方式进行处理，算法在这个过程中不断迭代，反哺到业务上，并获得更多的数据，以此形成闭环。

我们已经拥有很多不错的算法模型，但是，一旦遇到全新的应用环境，就可能出现问题，比如在北京的数据上训练的行人结构化模型，拿到新疆就可能得不到很好的结果。而正是由于数据闭环的存在，这个问题才可快速解决。所以这是格灵深瞳真正的技术壁垒。数据闭环，意为驱动数据流动，在获取数据之后，需要进行人工标注。

人工标注的流程各个公司不同，但我们共同的目标是提高标注效率，比如我们有批处理、标签、自动标签、人工任务等流程。标注是应用系统之外的部分，人工量比较庞大。在格灵深瞳内部及外部，都设有专门的人工标注团队，可持续、快速的完成数据闭环内的标注任务。在响应过程中，还可通过自动化方法简化标注过程，比如自动标注、数据分类、二次人工验证、标签等。

当现有的算法模型与应用要求的场景不匹配的时候，我们就需要在庞大数据库中重新开始查找数据，以及搜集新的数据，快速标注以响应我所需要的结果，并使用标注结果进行批量模型训练。模型训练关系到深度学习网络及参数选择，而在设计过程中也不能确定其效果，为提高效率，将其放置机群进行批量训练，并通过已标注的测试集进行批量测试，选取有效的结果做为最终模型。

若将此模型进行产品化，可将其自动集成于计算引擎，从而可以用来进行结构化、特征提取等应用。在实际应用中会产生一些错误的结果，我们在系统中设计一些人工筛选的方式进行的错误标注，并将这些负样本重新用于训练。

2.7 数据规模

上图表示某城市的数据规模在某年所达到的进度（以车辆数据为例）

三、四线城市仅有几十个卡口，几万路视频。但对于一般三四线城市，现有的基础设施尚不能完全处理这些视频点位。
对于普通一线城市而言，视频结构化需几万台服务器，更是一个庞大的市场；在全国信息化程度最好的城市深圳，其摄像头基础设施已达到数十万，在边防重地新疆虽然基础设施不足，但其经费充裕，所需数量规模也极为庞大。

真正落地的大规模应用是比较困难的。所谓大规模应用，不仅仅在于数据的分类、结构化，而在于寻找数据的轨迹、分析其每天的活动规律、个体间的关系处理等。还有跨模态应用，即摄像头的视觉数据不是唯一的数据来源，还可通过手机信号、消费记录收费等数据，将其结合起来进行分析得出结果的应用。

3.案例分析

3.1 人脸识别系统

安防系统目前正处在看得清、存不下、找不到的状态。比如新闻里常出现的丢小孩的事情，就算及时向派出所报案，进一步假设就算摄像头拍下了嫌疑人的照片，仍然很难找出该人的行踪。虽然世界上生产的50%的硬盘都是用来存放此类视频，但传统的视觉分析只适合做一些简单的应用场景，进行车牌分析，违章查询等，无法从如此浩瀚的视频中自动搜索出具体的线索，还需要大量的视频刑侦干警人工筛选。而近两年，格灵深瞳将重心放在对复杂应用场景的智能分析，比如将摄影机当做一个微卡口，将其放置一个混乱的区域，进行行人检测、人脸追踪等。

3.2 模糊轨迹，以图搜图

要想在偌大的城市里找出一辆车的轨迹是不易的，若其车牌号还是模糊的情况下，查找更是难上加难。

技术使这一切变简单了。我们依靠残缺不全的结构化数据、车辆ReID特征和时空关系一起分析得出一辆车最可能的轨迹路线。若车辆的车牌被挡住了，可通过搜查其车上的局部特征来锁定目标车辆，然后将其与之前没有遮挡车牌时期的车辆进行对比，确定目标。

3.3 社会化视频

社会化摄像头密集程度类似于毛细血管。目前几乎全部的摄像头都是政府所有和管理的，包括公安、交通等部门，从去年开始，格灵深瞳和合作伙伴一起在某市建立了大量的社会化视频源，对这些无处不在摄像头基础设施进行更专业化的维护以及应用，而政府则购买公司的服务。

4. 机会和局限

模糊的车辆数据、清晰的车辆数据、人脸数据、人体数据……它们之间存在着纵横关系。不同的数据采用不同的方法进行ID关联，而这些数据应用的本质，就在于得到这些纵横关联，并从中找出线索。

上图是一个技术成熟度曲线。在目前阶段，人工智能计算机视觉现在正处于踏踏实实的走技术之路，泡沫渐渐消去，真正有价值的公司不能只依靠资本上的投入，必须自己打拼业务。

计算机视觉技术历经60年的发展，到今天为止，真正大规模成熟应用依然屈指可数，虽然深度学习的进步使得技术有了巨大提升，但依然面临很多挑战。仅有视觉技术，依然无法真正实现用户价值，需要和应用结合，需要与其它技术结合，才能真正形成闭环。在产业链中，单纯的算法模式无法持续，随着技术进步，算法的领先优势很难保持，激烈竞争下，算法在产业链内分得的利益会逐步减少。深入场景形成闭环获得数据，才能真正建立护城河，并从数据中获取更大价值。

作者介绍

苑维然，格灵深瞳首席架构师，2008年博士毕业于北京大学；曾就职于法国国家信息与自动化研究院，从事虚拟人和虚拟服装的计算引擎的开发；2010年回国创业，过早的进入了虚拟现实领域，在市场上铩羽而归；2013年加入格灵深瞳，作为创始团队成员，主导“皓目”、“威目”系列视觉行为分析产品的软件工程和产品化，从无到有，和优秀的团队一起，打造了市场领先的人工智能产品。