最近,一个有趣的视频数据集开源了,它不仅能助你研究生涯一臂之力,或许还能提升你的……嗯,厨艺。 这个将锅与视频播放键融于一体的图像,就是刚开源的Epic Kitchens数据集的logo。 聪明的你可能已经猜到,这个数据集和厨房有关。 没错,在这个第一视角视频的数据集中,记录了多个多角度、无脚本、本地环境中的厨房场景。 它们均来自拍摄者真实的日常饮食生活,并且使用了一种新颖的实时音频评论方法来收集注释,因为拍摄者在做饭的时候总喜欢自言自语些什么 这个世界上最大的厨艺第一视角视频数据集大礼包里都有啥?这有一个介绍视频—— 成分分析Epic Kitchens数据集里包含什么内容?不妨看看这张数据集“构成成分”表——
数据集中的视频均为操作人员的头戴式摄像机采集,包含多种语言的描述,其中描述的动词有125种,名词有331种。 成分统计研究人员将Epic Kitchens中的视频数据进行分类,想看看这个数据集中到底是怎样的场景。 统计显示,数据集中的视频大多来自晚饭时间,其中傍晚7-8点是采集的高峰期。9-10点也是一个采集小高峰,看来数据的来源群体有吃“早午饭(brunch)”的文化。 数据集中43.14%的视频为烹饪阶段,17.55%为数据收集者在做相关准备,16.48%的视频为他们在刷刷洗洗。 研究人员用视频中的标注生成了标签云,“开”“关”“拿”“锅”“叉子”“勺子”“刀子”等均为大比重的关键词。 在标注中的动作统计中,“put”“take”“wash”等关键动作均出现了上千次。做饭嘛,不就是由拿起和放下组成的嘛~ 视频标注中提到的最多的物体是各种厨房用具,其次是各种调料与蔬菜。 研究团队这项研究由布里斯托大学、多伦多大学和卡塔尼亚大学的11名研究人员完成,研究论文Scaling Egocentric Vision: The EPIC-KITCHENS Dataset也已发布在arXiv上。 论文一作是一名叫Dima Damen的小姐姐,目前是布里斯托大学的高级讲师,负责计算机视觉的相关研究。 Damen的研究经常亮相顶会。今年2月,她论文Who’s Better, Who’s Best被CVPR2018接收,Trespassing the Boundaries: Labeling Temporal Bounds for Object Interactions in Egocentric Video被ICCV2017接收,还被评为ICCV2017的最佳审稿人。 获取方式想获取这份数据集的相关信息,有以下几种打开方式~ 项目地址: 论文地址: 数据集下载地址: 代码地址: 祝各位学业厨艺双丰收~ 作者系网易新闻·网易号“各有态度”签约作者— 完 — 诚挚招聘 |
|
来自: 飞越迷雾vu4mev > 《人工智能》