常用数据库CIFAR10 小图片分类数据集该数据库具有50,000个32*32的彩色图片作为训练集,10,000个图片作为测试集。图片一共有10个类别。 使用方法from keras.datasets import cifar10(X_train, y_train), (X_test, y_test) = cifar10.load_data() 返回值:两个Tuple
CIFAR100 小图片分类数据库该数据库具有50,000个32*32的彩色图片作为训练集,10,000个图片作为测试集。图片一共有100个类别,每个类别有600张图片。这100个类别又分为20个大类。 使用方法from keras.datasets import cifar100(X_train, y_train), (X_test, y_test) = cifar100.load_data(label_mode='fine') 参数
返回值两个Tuple,
IMDB影评倾向分类本数据库含有来自IMDB的25,000条影评,被标记为正面/负面两种评价。影评已被预处理为词下标构成的序列。方便起见,单词的下标基于它在数据集中出现的频率标定,例如整数3所编码的词为数据集中第3常出现的词。这样的组织方法使得用户可以快速完成诸如“只考虑最常出现的10,000个词,但不考虑最常出现的20个词”这样的操作 按照惯例,0不代表任何特定的词,而用来编码任何未知单词 使用方法from keras.datasets import imdb(X_train, y_train), (X_test, y_test) = imdb.load_data(path='imdb_full.pkl', nb_words=None, skip_top=0, maxlen=None, test_split=0.1) seed=113, start_char=1, oov_char=2, index_from=3) 参数
返回值两个Tuple,
路透社新闻主题分类本数据库包含来自路透社的11,228条新闻,分为了46个主题。与IMDB库一样,每条新闻被编码为一个词下标的序列。 使用方法from keras.datasets import reuters(X_train, y_train), (X_test, y_test) = reuters.load_data(path='reuters.pkl', nb_words=None, skip_top=0, maxlen=None, test_split=0.2, seed=113, start_char=1, oov_char=2, index_from=3) 参数的含义与IMDB同名参数相同,唯一多的参数是: word_index = reuters.get_word_index(path='reuters_word_index.pkl') 上面代码的返回值是一个以单词为关键字,以其下标为值的字典。例如, 数据库将会被下载到 MNIST手写数字识别本数据库有60,000个用于训练的28*28的灰度手写数字图片,10,000个测试图片 使用方法from keras.datasets import mnist(X_train, y_train), (X_test, y_test) = mnist.load_data() 返回值两个Tuple,
数据库将会被下载到 |
|