'The world's most valuable resource is no longer oil,but data' 一种新的商品催生出一个利润丰厚、发展迅速的行业。这促使反垄断监管机构介入,从而约束那些能够控制这种商品流动的巨头。 一百年前,石油就是这样一种资源。现在,一些经营数据的巨头引发了类似担忧,这些数据将成为数字时代的石油。 目前处于数据驱动型经济中,如果无法分析当前或未来的趋势,任何组织都无法生存下去。抢夺数据已经成为决定下一步行动方案的关键。 作为数据科学领域的从业者来说,对于数据的需求更为强烈。 本次整理了一些NBA、社交网络、图像、语音、文本、时间序列、人文历史、金融等领域的免费和开源的数据集资源。(从正文带蓝色下划线链接自取)。 数据集 一、NBA球员数据集:
二、图像、文本、语言数据集 图像 1、由79302017幅图像组成的数据集,每幅图像为32x32像素彩色图像。 http://horatio.cs./mit/tiny/data/index.html 2、人脸识别数据集。 http://www./databases/ 3、一个可搜索的图像数据库。 http://www./index 语音: 1、CMU语音识别数据库。 http://www.speech.cs./databases/ 2、对音乐分析的数据集。 http://users.cis./~lli003/Music/music.html 3、100万首歌曲的数据集 https://labrosa.ee./millionsong/ 文本: 1、用于构建机器学习推荐系统的1.5 TB数据集 https://webscope.sandbox.yahoo.com/catalog.php?datatype=r&did=75&guccounter=1 三、金融和商业数据集: 1、ebay拍卖招标数据集。 http://www./datasets 2、纽约市警察局的交通事故数据(csv格式)。 http://nypd./#/ 3、从aiHit数据库中随机抽取的10,000家英国公司的信息 https://www./redirect/cons/datasets.html 4、美国股票新闻数据 http:///Dataju/web/datasetInstanceDetail/220 5、美国金融客户投诉数据 http:///Dataju/web/datasetInstanceDetail/229 6、Airbnb 开放的民宿信息和住客评论数据 http:///Dataju/web/datasetInstanceDetail/360 四、政府出台的相关数据 1、健康、环境、能源等数据。 http://data./ 2、经济时间系列,由美国政府机构制作,以多种形式和媒体发行 http://inforumweb./econdata/econdata.html ![]() 3、USGovXML是一个由美国政府提供的公开可用web服务和XML数据源的索引 http:/// 五、技术、社交网络、人文历史等数据集 1、80 Tb的存档web爬虫数据。 http://blog./2012/10/26/80-terabytes-of-archived-web-crawl-data-available-for-research/ ![]() 2、一个包含许多“开放”社交网络分析数据集的可访问库的站点。 http://ww31./overview ![]() 3、斯坦福大型网络数据集收集。 http://snap./data/index.html ![]() 4、一个包含谷歌图书公司的数据集。 https://aws.amazon.com/cn/datasets/google-books-ngrams/ ![]() 5、基因遗传数据集。 http://portals./cgi-bin/cancer/datasets.cgi ![]() 6、地球撞击陨石数据。 https://www.analyticbridge./profiles/blogs/registered-meteorites-that-has-impacted-on-earth-visualized 机器学习数据集常用搜索网站 1、Kaggle https://www./competitions 2、加州大学欧文分校机器学习库。 http://archive.ics./ml/index.php ![]() 3、Google数据集搜索。 https://toolbox.google.com/datasetsearch 4、Datahub,分享高质量数据集平台 https:/// 5、用于上传和查找数据集的机器学习数据集存储库。 https://www./www.mldata.org 介绍完以上的数据,最后分享份收藏已久的数据分析课的视频资源,希望帮助公众号的读者入门! 大家可以在本公众号『程序IT圈』上输入框回复:数据。 |
|
来自: 西北望msm66g9f > 《培训》