【原】让计算机看懂世界：格灵深瞳与华为Atlas AI的故事

懂懂_笔记 2021-07-29

展开全文

来源：懂懂笔记

人脸识别已经被广泛应用在各个领域，但当新冠肺炎来袭的时候，戴着口罩的你如何证明你是你？

发现一个犯罪嫌疑人，但是视频没有捕捉到他的脸。能不能通过衣服的颜色、布料的纹理，查找相似的ID?

有违章或是犯罪行为的车辆，往往会遮挡号牌或是使用套牌，那么用车牌号就不能正确辨识车辆的身份，能不能通过更细致的外观把它找出来？

视频识别在我们现实中的应用越来越广泛，很多我们想得到的、想不到的，AI已经带给我们越来越多的惊喜与惊叹。但，这也都是在进程当中，现实的应用场景对AI不断提出更高的挑战：以前只要能识别人脸就可以了，现在你要能识别戴口罩的人；以前通过人脸照片追查罪犯，现在看不到脸也能把他找出来；以前通过车牌号码辨别车辆身份，现在则要通过车身细节去追踪……

“人们往往高估一项技术的短期表现，而低估一项技术的长期表现。” 已经从事17年计算机视觉研究的格灵深瞳信息技术有限公司CTO邓亚峰深有体会，AI是一个长跑，自己的实力很重要，陪伴的伙伴也很重要。

No.1

从看见到看懂，AI在各行各业中落地才有价值

关于AI，我们常常听到智慧城市、机器人、自动驾驶、智慧医疗、工业视觉、AR等，这些都是AI的应用场景。如果说到AI的核心技术，主要是三个方向：计算机视觉、语音识别、自然语言理解。也就是说，在三个技术方向上的深入，可以应用到各种场景当中去发挥价值。

在我们人类物理世界来看，视觉可以占到人体各种感觉器官接受信息的80%。所以，视觉是人与外界沟通最重要的途径。同样，在数字世界里，计算机视觉的发展也决定着AI的走向与能力。“计算机视觉是智慧物联网时代最大的数据入口，拥有广阔的应用场景。” 格灵深瞳信息技术有限公司CTO邓亚峰表示，无论智慧城市、机器人、自动驾驶、智慧医疗、智能制造，所有这些应都离不开计算机视觉这一项AI基础技术。

在智慧城市的应用中，可以通过人的行为轨迹分析找线索、发现规律，甚至提前预知异常。比如某个人白天不出门，经常是后半夜出门，而且行为轨迹也不是去某个固定的工作场所，那么这个人就有可能是犯罪嫌疑人。

再比如在智能商业应用中，通过人脸识别将同一个人多次到店关联起来，利用人脸将商品购买记录关联起来，并形成动线和热力图。有时候，通过海量数据汇集后，AI真的可以“比你更了解你”。

“看见”这个世界并不能，但“看懂”这个世界却非常难。在中国现在有近2亿的安防摄像头，但其产生的视频数据有80%是冗余信息。AI如何通过深度学习、高性能运算及大数据技术，在这些数据中筛出有用的价值。

格灵深瞳就是一家以“让计算机看懂世界”为愿景的公司。他们与华为联合打造的全目标结构化系统，集结构化分析、数据存储、数据应用于一体的高性能、高密度计算系统，以解决对人体、机动车、非机动车、人脸等全目标的特征识别和快速检索。其主要功能包括目标检测、跟踪、分类、全目标特征识别、以图搜图、轨迹分析、综合布控、违法分析等应用。这个系统能够有效处理大规模视频数据，将广泛具备并发能力强、分析识别准、运算速度快、检索效率高等优势，可实现预警、布控、研判等多种应用，提高办案效率。应用于包括智慧城市、公共安全领域各类场景。

No.2

没必要重复造轮子

让算法工程师的工作变得简单而极致

单机实现384路极致高密视频实时分析，支持图片分析（检测、结构化、特征提取）不低于1200张/秒——这些听起来不明觉厉的技术，是如何在高效的机器视觉系统上实现的呢？

一般来讲，高效的机器视觉系统取决于四个关键因素：一是核心算法，二是自动化大规模训练模式，三是智能数据挖掘和标注，四是基于硬件平台的计算优化。

如上图，在传统的算法开发模式中，工程师把大量的时间都放在处理参数等这些基础工作上，而真正能发挥其价值的时间占比很少。同时，机器的GPU利用率低，硬件无法充分发挥其效能。形成了对人才价值和机器价值的双重浪费。

再看改进后的开发模式，通过设计与开发工具，帮助更好的收集和处理数据，工程师把数据、框架、计算资源都管理起来，使得训练的效率、资源的使用效率都非常高，工程师的时间都用要高价值的工作内容上。

“通过虚拟化的环境，系统把运算资源、存储资源运用得更为高效，让算法工程师的工作变得简单而极致。” 邓亚峰总结到。

从前后两种开发模式对比来看，差别就在于一套大规模训练平台。“大部分公司没必要重新造轮子。”在邓亚峰看来，打造一个高效的大规模训练平台就相当于那个“轮子”，把算法工程师从大量的低端重复性工作中拯救出来。

那么又如构建一个通用又高效的轮子呢？格灵深瞳用了“数据并行+模型并行”的方式。简单来讲就是把数据和模型分配到不同的机器上去运行，通过巧妙的分割、设计，使得不同机器间数据交换量比较少，平行拓展计算资源，从而实现非常高的训练效率。

这恰好就是深瞳大脑的设计思路：构建从“数据->标注->算法->训练->产品->数据”的一个正循环，在这个训练框架里可以支持上百卡的集群训练、支持上亿类别任务训练、支持多达上百层以及数十亿参数的深度学习模型。“终极目标是工程师做完这个框架，标注好数据，系统就会算出一个完美的结果。”邓亚峰表示。

No.3

找对那个“关键先生”

前面讲过，高效的机器视觉系统有四个关键因素，其中前三个都是与框架相关的，是靠内部工程师的智慧来解决，而第四个则是如何借助外力，选择最好的“伙伴”，邓亚峰认为这一点极其重要：“如何选择平台，把计算做到极到，这跟效率和成本都是密切相关的。”

华为Atlas、海思NNIE、Movidius、TPU、NPU……对于工程师而言，当前市场上的选择比较多。邓亚峰给出几个重要的考量标准：性价比如何？开发成本如何？能否提供一整套完整的接口和框架？生态的持续性如何？

在他看来，平台的完整性和生态的可持续性非常重要。首先，多平台开发和维护成本很高。如果一个平台不具备云、端、侧完整的能力，那么工程师就需要开发多平台、维护多平台。增加一个新平台，不仅资金成本增加，关键是时间成本可能是企业不能承受的。所以，选择具备云、端、侧完整能力的平台可以减少很多不必要的重复工作。其次，要选择一个立足于长远发展的生态。如果生态没有保障，那么可能很多前期的投入就会全部作废，这是更可怕的事情。

正是基于这样的思考，格灵深瞳选择了鲲鹏处理器+Atlas 300加速卡，结合自创的业界领先的全目标（人脸、人体、车辆、非机动车）结构化算法，搭建了自己的平台，通过系统调度、推理流水线优化、内存优化，最终实现单卡支持48路视频结构化，64路人脸识别。单机可以提供实现384路极致高密视频实时分析。这其中Atlas 300 AI加速卡是一个“关键先生”，基于昇腾310和910 AI处理器的Atlas 300 AI加速卡提供多种数据精度，适用于人工智能训练和推理场景。

“我们业务的特点是模型非常多，各种各样的处理需求复杂。Atlas 300有非常多的资源。” 邓亚峰对双方联合打造的解决方案非常满意，“这已经是行业内非常领先的一个结果。”

华为人工智能计算平台以强大的算力，有云、边、端丰富的产品，使得综合成本更低。邓亚峰认为更为重要的原因是，华为在生态上有非常大的决心去投入，“我们开发中间也遇到一些困难，华为非常积极地支持我们，跟我们一起联调。

格灵深瞳去年参加了行业最具挑战的“非约束性自然环境人脸照片”测试项目，根据全球最权威的人脸识别算法测试（FRVT）公布的结果来看，格灵深瞳获得了全球第一名的成绩。此外，在2019年北京市交管局组织的第一届交通行为图像智能识别技术竞赛中，格灵深瞳的行为识别算法也获得了全国总排名第一的佳绩。

在懂懂看来，让格灵深瞳之所以选择华为，主要是两个原因：

第一，华为Atlas智能计算平台的强算力和完整性。这是基于华为昇腾系列AI处理器和业界主层异构计算部件，通过模块、板卡、小站、服务器、集群丰富的产品形态，打造面向“端、边、云”的全场景AI基础设施方案，可广泛用于平安城市、智能交通、智慧医疗、AI推理等领域。

第二，是华为开放的生态以及对生态伙伴不遗余力的支持。华为Atlas智能计算平台支持业界主流框架，方便易用的代码迁移和模型转换工具，通过灵活的合作方式与业界ISV共建、共赢。也就是说，选择了华为Atlas智能计算平台，就是选择了一个开放的标准，选择了更多的合作伙伴，选择了更多的机会。