2019世界人工智能大会田永鸿：视频大数据挑战问题与研究进展

AiChinaTech 2019-09-03

展开全文

8月31日，2019世界人工智能大会·开发者日，极链科技主题论坛在上海世博中心成功举办，现场汇聚了300多位行业人士到场，其中包括全球顶尖AI专家、技术大牛、知名企业代表以及开发者，大会以“重构视界·见未来”为主题，围绕计算机视觉技术和“AI+视频”的开发实践进行分享和解读。

大会现场，北京大学博雅特聘教授&国家杰青田永鸿带来了主题演讲，对视频大数据挑战问题进行了深度剖析，并介绍了前沿的研究进展。

北京大学田永鸿教授

视频大数据三大挑战问题

当前，已迎来视频大数据爆炸时代，IDC分析报告显示，互联网总数据到2025年将达到175ZB，其中视觉数据为80ZB。大数据技术与AI是孪生兄弟，大数据赋能AI，让AI能力更进一步，但也提出了一些新挑战。

视频数据分析识别长期以来的模式，是通过压缩形成码流，解码后进行特征提取，再进行分析识别。而最近几年深度学习应用后，大量深度神经网络通过训练把特征提取和分析识别以端到端方式提取出来。典型的图像/视频分析处理系统就是云模式，视频存储、分析与识别均在云上完成，分析识别的视频路数与云服务器的算力成正比。这样的模式下，有很多潜在问题。

问题一，“数据大不等于大数据”的挑战。数据量大一定是分散存储，而大数据分析需要视频数据汇聚在一起，涉及到带宽支持、视频压缩编码等技术，目前条件很难将视频大量汇聚。

问题二，“高通量&低延时”的挑战。视频本身是实时媒体，具有高通量的特征。其中，网络直播视频和广电节目对实时性要求很高。对视频传输技术是一个很大挑战。

问题三，“低价值密度”的挑战。大量正常视频是低价值密度，而少量敏感视频是高价值密度。分布非均衡分布对传统机器学习算法提出了很大挑战。

面对挑战，在国家和省部项目支持下，田永鸿教授及其团队推出了视频大数据处理分析平台及示范应用，支持高效编码、特征表达、对象识别和行为分析，应用在电视节目、网络视频、城市监管等应用中。

仿眼类脑是视觉处理系统演进的必由之路

众所周知，数码相机的生物学原型是人类的视网膜。就像数码相机中能采集“像素”一样，视网膜能获取并编码大量的视觉数据。视网膜中间有两个部分，一是中央凹，即瞳孔，是为了看清楚东西，另一个是外周，与中央凹的视觉神经网络不一样，外周神经网络可以提取并编码场景或物体的特征，如纹理、轮廓等。从这个角度来看，传统的数码相机仅仅只模拟视网膜的一部分功能。

因此，一个自然的问题就是，如何借鉴“人类视网膜同时具有影像编码与特征编码功能”这一生物特性来研究和设计一种更高效的摄像头。我们称之为数字视网膜摄像头(retina-likecamera)，简称为数字视网膜。数字视网膜架构本质特征为：一，有全网统一时间和精确地理位置；二，能够进行视频编码和特征编码；三，自适应可扩展架构，包括模型可更新、注意可调节和软件可定义。

视网膜表示的核心技术是视频特征的紧凑表达，需要对识别分析准且快，且特征需要小才可以大量汇聚。对此，田永鸿教授团队建立了深度特征的帧内帧间压缩框架，利用Hash网络将浮点型深度特征进行量化，并根据不同的内容设计了不同的帧间编码结构与模式。另外，仅预定义的属性不能有效区分表观相似对象，但可以利用大规模汇聚特征表示挖掘隐含视觉属性。

基于此，田永鸿教授团队与企业合作开发了城市视频大数据分析平台，包括特征与结构分析，计算平台汇聚网关，业务应用系统等等。应用在城市范围内特定对象精准追踪、智能交通实现数字视网膜AI赋能、视频节目流异常检测与识别问题中。

虽然传统认知将眼睛视为视觉图像的简单预滤器，但现在看来，数据打通当中，内脑仿眼是视觉处理系统演进的必由之路。可以使用能够生成强大解决方案的机器，以此发现更多未知算法，这些算法或许会超越视觉领域，不仅仅是视觉，还有包括听觉、嗅觉、触觉等，实现未来的VideoAI。