分享

MIT新突破:强悍AI视觉算法已可在手机上运行,优于现有方法三倍

 weinfb 2019-10-20

近日,MIT-IBM 沃森人工智能实验室的研究人员在计算机视觉识别算法相关研究中取得突破,他们使用的训练视频识别模型的新技术,不仅比目前最先进的方法快三倍,还成功缩小了最先进的计算机视觉模型,这就意味着,人们已经可以在处理能力非常有限的手机或其他设备上运行视频识别模型。

深度学习(deeplearning)是机器学习的一个分支,它帮助电脑在某些定义明确的视觉任务上超越人类。而视觉识别是深度学习的最广泛应用之一。计算机视觉算法目前可以分析医学图像、赋能自动驾驶汽车和人脸识别。但随着这项技术扩展到识别视频和真实世界的事物时,训练模型就变得越来越大,计算量也越来越大。

据估计,训练一个视频识别模型比训练一个图像分类模型需要多 50 倍的数据和 8 倍的处理能力。随着对训练深度学习模型处理能力的需求呈指数级增长,以及人们对人工智能的巨大碳排放的担忧与日俱增,这已经成为了重要的问题。另外,在低功耗移动设备上运行大型视频识别模型仍然是一个挑战,许多人工智能应用程序正朝着这个方向发展。

麻省理工学院电子工程与计算机科学系(EECS)助理教授韩松所带领的团队,正通过设计更高效的深度学习模型来解决这个问题。

MIT新突破:强悍AI视觉算法已可在手机上运行,优于现有方法三倍

(来源:麻省理工科技评论)

他们在一篇被 ICCV2019 接收的论文中概述了一种缩小视频识别模型的方法,可加快智能手机和其他移动设备上的视觉识别模型训练,并提高运行时的性能,成功将最先进模型中的 1.5 亿个参数减少到 2500 万个,模型缩小到原来的六分之一。

基础的图像和视频识别模型是神经网络,它大致模拟了大脑处理信息的方式。无论是数码照片还是视频图像序列,神经网络都会在像素中寻找模式,并为它们看到的东西构建一个抽象的表示。通过足够多的例子,神经网络“学习”识别人、物体以及它们之间的关系。通常,视频识别算法会将视频分割成图像帧,并在每个帧上运行识别算法。然后,它通过观察对象在随后每帧中的变化,将视频中显示的动作拼接在一起。该方法要求算法“记住”它在每一帧中看到的内容,以及它看到这些内容的顺序。这很低效,而且没有必要。

在新的方法中,算法提取每一帧对象的基本草图,并将它们叠加起来,算法可以通过观察草图中物体在空间中的移动来获得时间流逝的印记,而不用记住什么时候发生了什么。该模型在识别某些视频数据集中的行为方面,表现优于其他模型。

研究人员发现,这种训练视频识别模型新方法的速度是现有方法的三倍。在最近的一次演示中,它还能通过耗电很小的一台小型电脑和一台照相机来快速识别手势。

MIT新突破:强悍AI视觉算法已可在手机上运行,优于现有方法三倍

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多