计算机视觉都学会抢答了，你呢？新研究使用图像回答问题

扫地僧一一 2019-08-20

展开全文

大数据文摘专栏作品

作者：Christopher Dossman

编译：Jiaxu、fuma、云舟

呜啦啦啦啦啦啦啦大家好，拖更的AIScholar Weekly栏目又和大家见面啦！

AI ScholarWeekly是AI领域的学术专栏，致力于为你带来最新潮、最全面、最深度的AI学术概览，一网打尽每周AI学术的前沿资讯。

每周更新，做AI科研，每周从这一篇开始就够啦！

本周关键词：对象检测、BERT、视频理解

本周最佳研究

深度学习再进一步：对象检测全回顾

最近，研究人员对深度学习在视觉目标检测方面的最新进展进行了全面的研究。

他们回顾了大量最新的对象检测工作，并系统地分析了当前的对象检测框架。他们的研究包括对象检测器组件、机器学习策略、实际应用和基准评估。他们还讨论了未来的发展方向，以促进深度学习的视觉对象检测。

虽然深度学习理论一直在不断地创新，但最重要的是它们的应用。

不可否认，在当今的人工智能系统中，对象检测是一项重要的技术。例如，它被用于最先进的驾驶辅助系统(ADAS)中，该系统允许汽车识别车道或检测行人和其他物体，以提高行驶安全。它在视频监控和图像检索应用中也很有用。

这一工作有助于以结构化、系统的方式展示当前在对象检测方面的贡献。通过这种方式，到目前为止，人工智能社区通过深度学习获得了对对象检测的全面理解。此外，这项工作有助于激发对未来对象检测方法和应用的研究工作。

https:///abs/1908.03673v1

用BERT做标记和解析：更简单、更准确

美国埃默里大学(Emory University)的研究人员最近提出了一种新的模型，利用BERT作为词性标记、语法分析和语义分析任务的标记级嵌入。这是第一个使用BERT进行语法和语义分析的项目，它比传统方法简单得多，但同时却更准确。

对于这三项任务中的每一项，研究人员都复制并简化了当前最先进的方法，提高了模型效率。然后，他们使用BERT生成的token嵌入来评估任务的简化方法。

深度学习方法通常需要大量的计算和记忆。现在看来，研究人员已经从语法、语义和多语言视角发现了BERT有趣的特性。这项工作表明，可以使用更简单的模型来处理标记和解析。

平均而言，在不损失精度的情况下，所提出的BERT模型比现有的性能最好的模型性能高出2.5%。研究人员和整个人工智能社区现在可以利用和改进这些模型，为未来建立强大的基准线。

代码链接：

https://github.com/emorynlp/bert-2019

https:///abs/1908.04943

使用时间周期一致性(TCC)学习的视频理解

为了解决当前逐帧视频跟踪中存在的问题，谷歌的研究人员提出了一种潜在的解决方案，即使用一种名为时间周期一致性学习(TCC)的自监督学习方法。该方法利用相似序列过程中实例间的对应关系，学习适合于细粒度时间视频理解的表示形式。

该模型的主要目标是学习帧编码器，使用网络架构处理图像，通过编码器将所有视频帧进行对齐，从而产生相应的嵌入。

研究表明，每一帧嵌入都具有显著的潜力，可以实现一系列有趣的应用，包括无监督视频对齐、少镜头动作相位分类、视频间模态传输、视频帧检索等。

随着对细粒度标记的需求不断增长，这项工作刺激了对可伸缩学习模型的需求，这种模型可以理解视频，而不需要像机器人、体育分析等应用程序那样繁琐的标记过程。

包括TCC在内的代码已经发布，可以帮助视频理解方面的研究人员和希望使用机器学习实现视频对齐的艺术家们更好的工作。

https://ai./2019/08/video-understanding-using-temporal.html

用于异常声音检测的小型机器运转数据集

NTT媒体智能实验室与日本立命馆大学合作推出了一个新的数据集“ToyADMOS”，用于机器操作声音（ADMOS）中的异常检测。为了建立一个大规模的ADMOS数据集，研究人员通过故意破坏机器来收集微型机器的异常操作声音。ToyADMOS大约有540小时的正常机器操作声音，包括超过12,000个异常声音样本，使用采样率为48 kHz的四个麦克风收集。