分享

人工智能数据库

 czxiaoyi 2018-08-23

转自:https://blog.csdn.net/u012538490/article/details/53993191

(一)、大规模数据集

(1)、图像视频数据集

1、UBUNTU对话语料库 
可用于搭建一个聊天机器人,如这篇博客所示(用深度学习网络搭建一个聊天机器人) 
数据集地址:https://github.com/rkadlec/ubuntu-ranking-dataset-creator 
2、室内机器人和无人机训练数据(转自机器学习研究会 ) 
这个数据集适合于机器人SLAM(同时定位与地图创建和使用RGB-D输入预训练数据驱动的计算机视觉技术。 
数据集地址:https://robotvault./scenenet-rgbd.html 
论文链接:https://robotvault./SceneNetRGBD.pdf 
3、谷歌发布的视频数据集Youtube-8M 
该数据集包含了 800 万个 YouTube 视频 (500,000 小时的视频),4800类,以及视频层面的标签。可用于视频分析、检测和识别、视频理解。经过处理后的数据,在单GPU的机器上训练一天即可完成。 
论文地址:https:///abs/1609.08675 
数据集地址:https://research.google.com/youtube8m/ 
4、自动驾驶视频数据集 
这个数据集是牛津大学用于自动驾驶研究的数据集。 
数据库地址:http://robotcar-dataset.robots./ 
论文地址:http://robotcar-dataset.robots./images/robotcar_ijrr.pdf 
5、斯坦福无人机拍摄的视频数据集(转自机器学习研究会) 
这个数据集是斯坦福大学无人机拍摄的视频数据集,共69G,包含各种不同的行人、车辆等标注信息。 
数据库地址:http://cvgl./projects/uav_data/ 
论文地址:http://web./~alahi/downloads/ECCV16social.pdf 
6、Caltech 101目标检测数据集 
这个数据集比较早,大概在2000年左右建立,李飞飞在CVPR2014的一篇论文,用过这个数据集 
数据库地址:https://www.vision./Image_Dataset/Caltech101/#Dowload 
7、中文语音识别(清华大学) 
清华大学开源的一个数据库可用于中文语音识别 
数据集地址:http://thuocl./ 
8、谷歌图像数据库 
谷歌开源的图像数据库,包含900万标注数据,标签种类超过6000种。同时谷歌使用这个数据集训练了一个Inception v3模型,可以使用这个模型进行fine-tune. 
数据集地址:https://github.com/openimages/dataset 
9、YouTube-BoundingBoxes视频数据集 
里面包含23类共500万手动标注的、紧密贴合对象边界的边界框,精度高于95%。谷歌称这是迄今最大的手动标注边界框视频数据集,可用于视频对象检测和跟踪。 
数据集地址:https://research.google.com/youtube-bb/ 
10、用于视觉问答(VQA)的数据库 
斯坦福大学李飞飞组发布的一个数据库,可用于训练视觉问答模型 
数据集地址:http://cs./people/jcjohns/clevr/ 
11、谷歌大规模音频数据集(AudioSe) 
该数据集包含2100万标注视频、5800个小时的音频、527种类型的标注声音。AudioSet 包括 632 个音频事件类的扩展类目和从YouTube视频绘制的 2,084,320 个人类标记的10秒声音剪辑的集合。类目被指定为事件类别的分层图,覆盖广泛的人类和动物声音,乐器和风格以及常见的日常环境声音。 
论文地址:https://research.google.com/pubs/archive/45857.pdf 
数据集地址:https://research.google.com/audioset/ 
12、机器人抓取和推动数据集(Grasping+Push) 
2016年谷歌公布,Grasping数据集大小 650k ,主要包含抓取尝试数据,用于机器人抓取的手眼协调。Push数据集大小59k,主要包括机器人的推动,使用无监督学习进行物理交互。这两个数据集中包含了机器臂、夹具和目标的 RGB-D 视角数据、制动和位置参数。 
Grasping地址:https://github.com/tensorflow/tensorflow/blob/master/tensorflow/core/example/example.proto 
Push地址:https://github.com/tensorflow/tensorflow/blob/master/tensorflow/core/example/feature.proto 
13、交通场景数据库(KITTI) 
主要用于交通场景中车辆检测,车辆追踪,语义分割等 
数据集地址:http://www./datasets/kitti/index.php 
14、人类行为识别数据集(HMDB51和UCF101) 
HMDB51地址:http://us./hmdb51_dataset.html 
UCF101地址:http://crcv./data/UCF101.php 
15、转载一篇关于数据集的博客 
这篇博客里面有许多数据集 
博客地址:http://www.cnblogs.com/huashiyiqike/p/3778035.html 
博客地址:http://www./archives/567646.html 
16、3D街景数据集 
下载地址:https://github.com/amir32002/3D_Street_View 
官方简介:http://3drepresentation./ 
模型演示:https://github.com/amir32002/3D_Street_View/tree/master/3D_cities_snapshots 
论文地址:http://cvgl./papers/zamir_eccv16.pdf

(2)、问答系统数据集(VQA)

1、MS MARCO:人工生成的机器阅读理解数据集,来自微软,2016(转自全球人工智能) 
论文地址:https:///abs/1611.09268 
数据集地址:http://www./ 
2、NewsQA:Maluuba 的机器理解数据集,2016 
论文地址:https:///abs/1611.09830 
数据集地址:https://github.com/Maluuba/newsqa 
3、SQuAD:超过 100,000 个问题和其机器理解文本的数据集,由斯坦福大学推出,2016 
论文地址:https:///abs/1606.05250 
数据集地址:https://rajpurkar./SQuAD-explorer/ 
4、GraphQuestions:一个特征丰富的事实性问题回答数据集,来自 EMNLP 16 论文《On Generating Characteristic-rich Question Sets for QA Evaluation》,2016 
论文地址:http:///4u7oFE 
数据集地址:https://github.com/ysu1989/GraphQuestions 
5、Story Cloze:一个常见故事的语料库和有关故事的总结性语句,来自美国罗切斯特大学,2016 
论文地址:https:///abs/1604.01696 
数据集地址:http://cs./nlp/rocstories/ 
6、SimpleQuestions:大量使用记忆网络的简单问答数据,2015 
论文地址:https:///pdf/1506.02075v1.pdf 
数据集地址:http:///2eiX0O 
7、WikiQA:一个开放问题与回答的挑战数据集,由微软推出,2015 
论文地址:http:///1bqPMh 
数据集地址:http:///3aJVyp 
8、CNN-DailyMail:用于训练机器进行阅读理解任务的数据集,2015 
论文地址:https:///abs/1506.03340 
代码地址:https://github.com/deepmind/rc-data 
数据集地址:http://cs./~kcho/DMQA/ 
9、中文完型填空数据集 
数据集地址:https://github.com/ymcui/Chinese-RC-Dataset 
10、中文数据集大全 
数据集地址:https://github.com/PaddlePaddle/Paddle/issues/981 
(3)、对话系统数据集

1、Ubuntu Dialogue Corpus:一个用于非结构化多回路对话系统研究的大型数据集,2015 
论文地址:https:///abs/1506.08909 
数据集地址:http:///2pbKCC 
2、Frames:用于向面向目标的对话系统加入记忆的语料库,Maluuba,2016 
论文地址:http:///36jcl2 
数据集地址:http://datasets./Frames

(二)、深度学习开源模型

1、CNN模型—Inception-ResNet-v2 
这个模型在ILSVRC图像分类基准测试中实现了当下(2016.9)最好的成绩。受残差网络(ResNet)的影响而提出。 
论文地址:https:///abs/1602.07261 
模型地址:http://download./models/inception_resnet_v2_2016_08_30.tar.gz 
图1 tensorflow发布的预训练模型
tensorflow模型下载地址:https://github.com/tensorflow/models/tree/master/slim#Pretrained

(三)、github开源项目

1、tensorflow应用于android 
将tensorflow应用于android上面,实现在移动端的检测。 
这里写图片描述 
项目地址:https://github.com/miyosuda/TensorFlowAndroidDemo

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多