什么是计算机视觉？

taotao_2016 2019-06-15

展开全文

图像分类、目标检测、图像分割之类的项目已经有很多了，在这里推荐一个比较特别的竞赛项目：

场景文本视觉问答

（即在场景图像中，借助文本信息来回答问题，这是“ICDAR 2019 Robust Reading competitions”中一个重要的挑战方向）

Q表示提出的问题，A表示回答

在上面的几幅图中，提出一个问题，比如，香蕉多少钱，火车行驶方向，人类可以轻易地获得信息并得到答案，但是这样的任务对于计算机可不太友好。

在以往的视觉问答（Visual Question Answer，VQA）问题中，一般不考虑数据集图像中文本传达的丰富语义信息。但实际上，人类生活环境中的文本内容传达了重要的高级语义信息，这些信息是明确的，并且场景中其他形式的内容都提供不了这些信息。

以往的视觉问答基本都是根据图像中的非文本信息进行判断

图片来源：VQA

事实上，利用图像中的文本信息，可以解决非常多的日常问题，比如购物时一目了然的商品价格，道路、列车的指引标识，在城市中定位，检查商店是否营业……带有文本信息的图像占比非常大，比如，在MS Common Objects in Contex这个大规模的数据集中，大约50%的图像中存在文本信息，在城市中，这一比例更高。因此，确保文本得到正确解释对整体的场景解释非常重要。

但目前的自动场景解释模型，如视觉问答（Visual Question Answer，VQA）模型，由于忽视了场景文本内容，存在严重的局限性。

为了让场景得到更好的解释，研究人员开始关注图像中的文本信息。在“ICDAR 2019 Robust Reading competitions”这个竞赛中，场景文本视觉问答就是一个重要的挑战方向。

研究场景文本视觉问答是为了回答下面这样的问题：

货架上最便宜的米浆是什么？

图中的蓝色巴士要去哪里？

在这项竞赛中，研究人员创建了一个包含文本的图像数据集ST-VQA（Scene Text Visual Question Answering），用来证明将图像中存在的高级语义信息作为VQA过程中的文本线索的重要性。

ST-VQA数据集整合了六大数据集的图像，包括场景文本理解数据集和通用计算机视觉数据集两种类型。在收集数据时，使用端到端的单发文本检索架构（single shot text retrieval architecture）选择图像，从而定义问题和回答。自动选择的图像至少包含2个文本实例，确保提出的问题至少包含2个可能的答案选项。最后创建的ST-VQA数据集包含23038幅图像，31791个问题。

从下面这张图中可以看到，在ST-VQA数据集中，提出了诸如“是什么（what are）”、“什么品牌（what brand）”、“哪一年（what year）”等各种各样的问题。

另外，这些问题是以一种需要具备某些先验知识的方式制定的，例如，在一些关于什么品牌、什么网站、什么名称、巴士号码是什么的问题中，首先需要了解品牌、网站、名称、号码的定义。

ST-VQA数据集提出者们还应用了很多当前流行的方法和模型来测试它们在这个数据集中的表现效果，比如：

Scene Image OCR：使用一个端到端的网络构建文本识别模型，处理图像。
Show, Ask, Attend and Answer（SAAA）：包含一个CNN-LSTM网络架构，使用了ResNet-152网络和一个多层的LSTM网络。
Stacked Attention Networks（SAN）：使用了一个预训练好的VGGNet，获取尺寸为14 × 14 × 512的图像特征。并通过使用RMSProp（Root Mean Square Prop）算法，修改起始学习率以及衰变值来优化该算法。

……

这些模型已经能够回答一部分场景文本视觉问答中的问题：