选自Gengo.ai 作者:Meiryum Ali 机器之心编译 参与:王淑婷、李泽南
首先,在选择数据集时要记住几个重要标准:
这样的话,让我们看看能找到点什么? 查找数据集 Kaggle:一个数据科学竞赛网站,其中包含大量外部贡献的有趣数据集。你可以在它长长的列表中(https://www./datasets)找到各种小众数据集,从拉面的评分、篮球数据,到西雅图的宠物牌照。 UCI Machine Learning Repository:它是网络中最古老的数据集源之一,是寻找各种有趣数据集的第一选择。在这里,尽管数据集都是用户自行贡献的,但清洁程度仍然很高。此外,你可以直接从 UCI Machine Learning Repository 上下载数据,无需注册。 通用数据集 公共政府数据集 Data.gov:这个网站可以从多个美国政府机构下载数据,从政府预算到学校成绩。不过要注意:其中的大部分数据需要进一步研究。 链接:https://www./ Food Environment Atlas:包含有关本地食物选择如何影响美国饮食习惯的数据。 链接:https://catalog./dataset/food-environment-atlas-f4a22 School system finances:美国学校系统财务状况调查。 链接:https://catalog./dataset/annual-survey-of-school-system-finances Chronic disease data:美国各地慢性病指标数据。 链接:https://catalog./dataset/u-s-chronic-disease-indicators-cdi-e50c9 The US National Center for Education Statistics:美国和世界各地教育机构和教育人口统计数据。 链接:https://nces./ The UK Data Centre:英国最大的社会、经济和人口数据收集。 链接:https://www./ Data USA:美国公共数据的全面可视化。 金融类 Quandl:很好的财经数据来源——有助于建立预测经济指标或股票价格的模型。 链接:https://www./ World Bank Open Data:涵盖人口统计和世界各地大量经济和发展指标的数据集。 链接:https://data./ IMF Data:国际货币基金组织公布有关国际金融、债务利率、外汇储备、商品价格和投资的数据。 链接:https://www./en/Data Financial Times Market Data:世界金融市场的最新信息,包括股票价格指数、商品和外汇。 链接:https://markets./data/ Google Trends:观察和分析有关互联网搜索活动和世界各地新闻故事趋势的数据。 链接:http://www.google.com/trends?q=google&ctab=0&geo=all&date=all&sort=0 AmericanEconomic Association (AEA):寻找美国宏观经济数据的来源。 链接:https://www./resources/data/us-macro-regional 机器学习数据集 图像 Labelme:注释图像的大数据集。 ImageNet:著名的 ImageNet,由斯坦福大学教授李飞飞等人发起,它是面向新算法的真实图像数据集。根据 WordNet 层次结构来组织,其中层次结构的每个节点都由成百上千个图像来描述。 LSUN:场景理解和许多辅助任务(房间布局估计、显著性预测等)。 MS COCO:ImageNet 之外另一个常用的图像数据集,包含通用图像理解和注释。 COIL100:100 个不同的物体在 360°旋转中以每个角度成像。 Visual Genome:非常详细的视觉知识库,配有约 100K 个图像的注释。 Google's Open Images:Creative Commons 下的 900 万个图片的网址集合,「已经标注了跨越 6000 多个类别的标签」。 链接:https://research./2016/09/introducing-open-images-dataset.html Labelled Faces in the Wild:13000 张贴有标签的人脸图像,用于开发涉及人脸识别的应用。 Stanford Dogs Dataset:包含 20580 个图像和 120 个不同品种的狗类别。 Indoor Scene Recognition:非常具体的数据集,适用于大多数场景识别模型,因为后者在「外部」表现更好。包含 67 个室内类别,总共 15620 个图像。 情感分析 Multidomain Sentiment analysis dataset:有点旧的一个数据集,以亚马逊的产品评论为特色。 IMDB reviews:用于二进制情感分类的较旧的、相对较小的数据集,具有 25000 个电影评论。 Stanford Sentiment Treebank:带有情感注释的标准情感数据集。 链接:https://nlp./sentiment/code.html Sentiment140:一个流行的数据集,使用 16 万条预先删除表情符号的推文 Twitter US Airline Sentiment:2015 年 2 月以来美国航空公司的推特数据,分为正面、负面和中性。 链接:https://www./crowdflower/twitter-airline-sentiment 自然语言处理 Enron Dataset:Enron 公司高层管理人员的电子邮件数据,整理成文件夹。 链接:https://www.cs./~./enron/ Amazon Reviews:包含来自亚马逊长达 18 年的约 3500 万条评论。数据包括产品和用户信息、评级和明文审查。 链接:https://snap./data/web-Amazon.html Google Books Ngrams:Google 书籍中的词汇集合。 链接:https://aws.amazon.com/cn/datasets/google-books-ngrams/ Blogger Corpus:从 blogger . com 收集的 681288 篇博客文章。每个博客至少包含 200 个常用英语单词。 Wikipedia Links data:维基百科全文。数据集包含 400 多万篇文章中的近 19 亿字。你可以根据单词、短语或段落本身的一部分进行搜索。 链接:https://code.google.com/p/wiki-links/downloads/list Gutenberg eBooks List:古腾堡计划电子书注释清单。 Hansards text chunks of Canadian Parliament:加拿大第 36 届国会记录 130 万对文本。 链接:https://www./natural-language/download/hansard/ Jeopardy:机智问答节目 Jeopardy 中存档的 20 多万个问题。 链接:https://www./r/datasets/comments/1uyd0t/200000jeopardyquestionsinajsonfile/ SMS Spam Collection in English:由 5574 条英文短信垃圾邮件组成的数据集 Yelp Reviews:Yelp 发布的开放数据集包含 500 多万条评论。 链接:https://www./dataset UCI's Spambase:大型垃圾邮件数据集,可用于垃圾邮件过滤。 链接:https://archive.ics./ml/datasets/Spamb (https://archive.ics./ml/datasets/Spambase) 自动驾驶 Berkeley DeepDrive BDD100k:目前最大的自动驾驶人工智能数据集。包含 100000 多段视频,内容涉及一天中不同时间和天气条件下 1100 多小时的驾驶体验。注释图像来自纽约和旧金山地区。 Baidu Apolloscapes:百度 Apollo 计划开放的大规模自动驾驶数据集。它定义了 26 个不同语义项目,如汽车、自行车、行人、建筑物、路灯等。 Comma.ai:7 小时以上的公路行驶体验。详细信息包括车速、加速度、转向角和 GPS 坐标。 链接:https:///details/comma-dataset Oxford's Robotic Car:一年内在英国牛津同一条路线重复 100 多次的行驶。数据集捕捉天气、交通和行人的不同组合,以及建筑和道路工程等长期变化。 Cityscape Dataset:记录 50 个不同城市街道场景的大型数据集。 链接:https://www./ CSSAD Dataset:该数据集可用于自主车辆的感知和导航。数据集在发达国家的道路上出现严重偏差。 KUL Belgium Traffic Sign Dataset:比利时佛兰德区数以千计截然不同的超过 10000 个的交通标志标注。 MIT AGE Lab:在 AgeLab 收集的 1000 多个小时的多传感器驱动数据集样本。 LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets:此数据集包括交通标志、车辆检测、交通灯和轨迹模式。 如果你知道本文中有哪些漏掉的重要数据集,欢迎留言补充。 原文链接:https:///articles/the-50-best-free-datasets-for-machine-learning/ 本文为机器之心编译,转载请联系本公众号获得授权。 ✄------------------------------------------------ 加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com 投稿或寻求报道:content@jiqizhixin.com 广告 & 商务合作:bd@jiqizhixin.com |
|
来自: 昵称11935121 > 《未命名》