分享

现在世界上最有价值的是数据

 西北望msm66g9f 2019-03-11

'The world's most valuable resource is no longer oil,but data'

一种新的商品催生出一个利润丰厚、发展迅速的行业。这促使反垄断监管机构介入,从而约束那些能够控制这种商品流动的巨头。

一百年前,石油就是这样一种资源。现在,一些经营数据的巨头引发了类似担忧,这些数据将成为数字时代的石油。

目前处于数据驱动型经济中,如果无法分析当前或未来的趋势,任何组织都无法生存下去。抢夺数据已经成为决定下一步行动方案的关键。

作为数据科学领域的从业者来说,对于数据的需求更为强烈。

本次整理了一些NBA、社交网络、图像、语音、文本、时间序列、人文历史、金融等领域的免费和开源的数据集资源。(从正文带蓝色下划线链接自取)。

  数据集

一、NBA球员数据集:

  • https://www./players/l/linje01.html

  • http://china./statistics

  • http://www.stat-

二、图像、文本、语言数据集

图像

1、由79302017幅图像组成的数据集,每幅图像为32x32像素彩色图像。

http://horatio.cs./mit/tiny/data/index.html

2、人脸识别数据集。

http://www./databases/

3、一个可搜索的图像数据库。

http://www./index

语音:

1、CMU语音识别数据库。

http://www.speech.cs./databases/

2、对音乐分析的数据集。

http://users.cis./~lli003/Music/music.html

3、100万首歌曲的数据集

https://labrosa.ee./millionsong/

文本:

1、用于构建机器学习推荐系统的1.5 TB数据集

https://webscope.sandbox.yahoo.com/catalog.php?datatype=r&did=75&guccounter=1

三、金融和商业数据集:

1、ebay拍卖招标数据集。

http://www./datasets

2、纽约市警察局的交通事故数据(csv格式)。

http://nypd./#/

3、从aiHit数据库中随机抽取的10,000家英国公司的信息

https://www./redirect/cons/datasets.html

4、美国股票新闻数据

http:///Dataju/web/datasetInstanceDetail/220

5、美国金融客户投诉数据

http:///Dataju/web/datasetInstanceDetail/229

6、Airbnb 开放的民宿信息和住客评论数据 http:///Dataju/web/datasetInstanceDetail/360

四、政府出台的相关数据

1、健康、环境、能源等数据。

http://data./

2、经济时间系列,由美国政府机构制作,以多种形式和媒体发行

http://inforumweb./econdata/econdata.html

3、USGovXML是一个由美国政府提供的公开可用web服务和XML数据源的索引

http:///

五、技术、社交网络、人文历史等数据集

1、80 Tb的存档web爬虫数据。

http://blog./2012/10/26/80-terabytes-of-archived-web-crawl-data-available-for-research/

2、一个包含许多“开放”社交网络分析数据集的可访问库的站点。

http://ww31./overview

3、斯坦福大型网络数据集收集。

http://snap./data/index.html

4、一个包含谷歌图书公司的数据集。

https://aws.amazon.com/cn/datasets/google-books-ngrams/

5、基因遗传数据集。

http://portals./cgi-bin/cancer/datasets.cgi

6、地球撞击陨石数据。

https://www.analyticbridge./profiles/blogs/registered-meteorites-that-has-impacted-on-earth-visualized

  机器学习数据集常用搜索网站

1、Kaggle

https://www./competitions

2、加州大学欧文分校机器学习库。

http://archive.ics./ml/index.php

3、Google数据集搜索。

https://toolbox.google.com/datasetsearch

4、Datahub,分享高质量数据集平台

https:///

5、用于上传和查找数据集的机器学习数据集存储库。

https://www./www.mldata.org

介绍完以上的数据,最后分享份收藏已久的数据分析课的视频资源,希望帮助公众号的读者入门!

大家可以在本公众号『程序IT圈』上输入框回复:数据

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多