图像分类、目标检测、图像分割之类的项目已经有很多了,在这里推荐一个比较特别的竞赛项目: 场景文本视觉问答(即在场景图像中,借助文本信息来回答问题,这是“ICDAR 2019 Robust Reading competitions”中一个重要的挑战方向) Q表示提出的问题,A表示回答在上面的几幅图中,提出一个问题,比如,香蕉多少钱,火车行驶方向,人类可以轻易地获得信息并得到答案,但是这样的任务对于计算机可不太友好。 在以往的视觉问答(Visual Question Answer,VQA)问题中,一般不考虑数据集图像中文本传达的丰富语义信息。但实际上,人类生活环境中的文本内容传达了重要的高级语义信息,这些信息是明确的,并且场景中其他形式的内容都提供不了这些信息。 以往的视觉问答基本都是根据图像中的非文本信息进行判断图片来源:VQA 事实上,利用图像中的文本信息,可以解决非常多的日常问题,比如购物时一目了然的商品价格,道路、列车的指引标识,在城市中定位,检查商店是否营业……带有文本信息的图像占比非常大,比如,在MS Common Objects in Contex这个大规模的数据集中,大约50%的图像中存在文本信息,在城市中,这一比例更高。因此,确保文本得到正确解释对整体的场景解释非常重要。 但目前的自动场景解释模型,如视觉问答(Visual Question Answer,VQA)模型,由于忽视了场景文本内容,存在严重的局限性。 为了让场景得到更好的解释,研究人员开始关注图像中的文本信息。在“ICDAR 2019 Robust Reading competitions”这个竞赛中,场景文本视觉问答就是一个重要的挑战方向。 研究场景文本视觉问答是为了回答下面这样的问题: 货架上最便宜的米浆是什么? 图中的蓝色巴士要去哪里? 在这项竞赛中,研究人员创建了一个包含文本的图像数据集ST-VQA(Scene Text Visual Question Answering),用来证明将图像中存在的高级语义信息作为VQA过程中的文本线索的重要性。 ST-VQA数据集整合了六大数据集的图像,包括场景文本理解数据集和通用计算机视觉数据集两种类型。在收集数据时,使用端到端的单发文本检索架构(single shot text retrieval architecture)选择图像,从而定义问题和回答。自动选择的图像至少包含2个文本实例,确保提出的问题至少包含2个可能的答案选项。最后创建的ST-VQA数据集包含23038幅图像,31791个问题。 从下面这张图中可以看到,在ST-VQA数据集中,提出了诸如“是什么(what are)”、“什么品牌(what brand)”、“哪一年(what year)”等各种各样的问题。 另外,这些问题是以一种需要具备某些先验知识的方式制定的,例如,在一些关于什么品牌、什么网站、什么名称、巴士号码是什么的问题中,首先需要了解品牌、网站、名称、号码的定义。 ST-VQA数据集提出者们还应用了很多当前流行的方法和模型来测试它们在这个数据集中的表现效果,比如:
…… 这些模型已经能够回答一部分场景文本视觉问答中的问题: 这是几种不同方法在ST-VQA数据集上回答问题的结果。在每幅图像中,Q代表问题,A(蓝色)代表真实的答案,下面是几种不同方法提供的答案(绿色代表回答正确,红色代表回答错误)。具体的方法细节可以参考Scene Text Visual Question Answering 这篇文章。这个项目的数据集也已经在ICDAR 2019的官网上公开,感兴趣的话可以去下载数据集并动手实验一下,当你的方法能够正确回答出问题甚至取得更好的效果时,相信你会很有成就感的 更多好玩的科技资讯可关注 @人民邮电出版社,我们会持续推出优质的计算机知识和图书资源。 |
|
来自: taotao_2016 > 《AI》