转自:https://blog.csdn.net/u012538490/article/details/53993191(一)、大规模数据集(1)、图像视频数据集 1、UBUNTU对话语料库 可用于搭建一个聊天机器人,如这篇博客所示(用深度学习网络搭建一个聊天机器人) 数据集地址:https://github.com/rkadlec/ubuntu-ranking-dataset-creator 2、室内机器人和无人机训练数据(转自机器学习研究会 ) 这个数据集适合于机器人SLAM(同时定位与地图创建和使用RGB-D输入预训练数据驱动的计算机视觉技术。 数据集地址:https://robotvault./scenenet-rgbd.html 论文链接:https://robotvault./SceneNetRGBD.pdf 3、谷歌发布的视频数据集Youtube-8M 该数据集包含了 800 万个 YouTube 视频 (500,000 小时的视频),4800类,以及视频层面的标签。可用于视频分析、检测和识别、视频理解。经过处理后的数据,在单GPU的机器上训练一天即可完成。 论文地址:https:///abs/1609.08675 数据集地址:https://research.google.com/youtube8m/ 4、自动驾驶视频数据集 这个数据集是牛津大学用于自动驾驶研究的数据集。 数据库地址:http://robotcar-dataset.robots./ 论文地址:http://robotcar-dataset.robots./images/robotcar_ijrr.pdf 5、斯坦福无人机拍摄的视频数据集(转自机器学习研究会) 这个数据集是斯坦福大学无人机拍摄的视频数据集,共69G,包含各种不同的行人、车辆等标注信息。 数据库地址:http://cvgl./projects/uav_data/ 论文地址:http://web./~alahi/downloads/ECCV16social.pdf 6、Caltech 101目标检测数据集 这个数据集比较早,大概在2000年左右建立,李飞飞在CVPR2014的一篇论文,用过这个数据集 数据库地址:https://www.vision./Image_Dataset/Caltech101/#Dowload 7、中文语音识别(清华大学) 清华大学开源的一个数据库可用于中文语音识别 数据集地址:http://thuocl./ 8、谷歌图像数据库 谷歌开源的图像数据库,包含900万标注数据,标签种类超过6000种。同时谷歌使用这个数据集训练了一个Inception v3模型,可以使用这个模型进行fine-tune. 数据集地址:https://github.com/openimages/dataset 9、YouTube-BoundingBoxes视频数据集 里面包含23类共500万手动标注的、紧密贴合对象边界的边界框,精度高于95%。谷歌称这是迄今最大的手动标注边界框视频数据集,可用于视频对象检测和跟踪。 数据集地址:https://research.google.com/youtube-bb/ 10、用于视觉问答(VQA)的数据库 斯坦福大学李飞飞组发布的一个数据库,可用于训练视觉问答模型 数据集地址:http://cs./people/jcjohns/clevr/ 11、谷歌大规模音频数据集(AudioSe) 该数据集包含2100万标注视频、5800个小时的音频、527种类型的标注声音。AudioSet 包括 632 个音频事件类的扩展类目和从YouTube视频绘制的 2,084,320 个人类标记的10秒声音剪辑的集合。类目被指定为事件类别的分层图,覆盖广泛的人类和动物声音,乐器和风格以及常见的日常环境声音。 论文地址:https://research.google.com/pubs/archive/45857.pdf 数据集地址:https://research.google.com/audioset/ 12、机器人抓取和推动数据集(Grasping+Push) 2016年谷歌公布,Grasping数据集大小 650k ,主要包含抓取尝试数据,用于机器人抓取的手眼协调。Push数据集大小59k,主要包括机器人的推动,使用无监督学习进行物理交互。这两个数据集中包含了机器臂、夹具和目标的 RGB-D 视角数据、制动和位置参数。 Grasping地址:https://github.com/tensorflow/tensorflow/blob/master/tensorflow/core/example/example.proto Push地址:https://github.com/tensorflow/tensorflow/blob/master/tensorflow/core/example/feature.proto 13、交通场景数据库(KITTI) 主要用于交通场景中车辆检测,车辆追踪,语义分割等 数据集地址:http://www./datasets/kitti/index.php 14、人类行为识别数据集(HMDB51和UCF101) HMDB51地址:http://us./hmdb51_dataset.html UCF101地址:http://crcv./data/UCF101.php 15、转载一篇关于数据集的博客 这篇博客里面有许多数据集 博客地址:http://www.cnblogs.com/huashiyiqike/p/3778035.html 博客地址:http://www./archives/567646.html 16、3D街景数据集 下载地址:https://github.com/amir32002/3D_Street_View 官方简介:http://3drepresentation./ 模型演示:https://github.com/amir32002/3D_Street_View/tree/master/3D_cities_snapshots 论文地址:http://cvgl./papers/zamir_eccv16.pdf (2)、问答系统数据集(VQA) 1、MS MARCO:人工生成的机器阅读理解数据集,来自微软,2016(转自全球人工智能) 论文地址:https:///abs/1611.09268 数据集地址:http://www./ 2、NewsQA:Maluuba 的机器理解数据集,2016 论文地址:https:///abs/1611.09830 数据集地址:https://github.com/Maluuba/newsqa 3、SQuAD:超过 100,000 个问题和其机器理解文本的数据集,由斯坦福大学推出,2016 论文地址:https:///abs/1606.05250 数据集地址:https://rajpurkar./SQuAD-explorer/ 4、GraphQuestions:一个特征丰富的事实性问题回答数据集,来自 EMNLP 16 论文《On Generating Characteristic-rich Question Sets for QA Evaluation》,2016 论文地址:http:///4u7oFE 数据集地址:https://github.com/ysu1989/GraphQuestions 5、Story Cloze:一个常见故事的语料库和有关故事的总结性语句,来自美国罗切斯特大学,2016 论文地址:https:///abs/1604.01696 数据集地址:http://cs./nlp/rocstories/ 6、SimpleQuestions:大量使用记忆网络的简单问答数据,2015 论文地址:https:///pdf/1506.02075v1.pdf 数据集地址:http:///2eiX0O 7、WikiQA:一个开放问题与回答的挑战数据集,由微软推出,2015 论文地址:http:///1bqPMh 数据集地址:http:///3aJVyp 8、CNN-DailyMail:用于训练机器进行阅读理解任务的数据集,2015 论文地址:https:///abs/1506.03340 代码地址:https://github.com/deepmind/rc-data 数据集地址:http://cs./~kcho/DMQA/ 9、中文完型填空数据集 数据集地址:https://github.com/ymcui/Chinese-RC-Dataset 10、中文数据集大全 数据集地址:https://github.com/PaddlePaddle/Paddle/issues/981 (3)、对话系统数据集 1、Ubuntu Dialogue Corpus:一个用于非结构化多回路对话系统研究的大型数据集,2015 论文地址:https:///abs/1506.08909 数据集地址:http:///2pbKCC 2、Frames:用于向面向目标的对话系统加入记忆的语料库,Maluuba,2016 论文地址:http:///36jcl2 数据集地址:http://datasets./Frames (二)、深度学习开源模型1、CNN模型—Inception-ResNet-v2 这个模型在ILSVRC图像分类基准测试中实现了当下(2016.9)最好的成绩。受残差网络(ResNet)的影响而提出。 论文地址:https:///abs/1602.07261 模型地址:http://download./models/inception_resnet_v2_2016_08_30.tar.gz
tensorflow模型下载地址:https://github.com/tensorflow/models/tree/master/slim#Pretrained (三)、github开源项目1、tensorflow应用于android 将tensorflow应用于android上面,实现在移动端的检测。 项目地址:https://github.com/miyosuda/TensorFlowAndroidDemo
|