分享

学习数据分析时,有哪些获取海量数据源的网站?

 好乐电脑1 2017-11-18

数据分析,数据是根本。首先,我们要保证拿到的是可靠、真实的数据,然后再把这些数据分析基础运用到实际的工作业务中,好好理解业务逻辑,真正用数据分析驱动网站运营、业务管理,发挥数据的价值。那么,到底在哪里才能获取到可靠的数据呢?拿到以后又怎样去展示他们?

一、公开数据集

1.GitHub—Awesome Public Datasets

(https://github.com/caesar0301/awesome-public-datasets)

这个我一定要放第一个,太惊艳了。一个大神整理的非常全面的数据获取渠道,包含各个细分领域的数据库资源。领域科研研究,从这里开始。

涉及的领域包括:农业、生物学、气候、计算机网络、数据科学、地球科学、经济学、教育、能源、金融学、GIS、图像处理、机器学习、自然语言、神经科学、物理学、心理学、社会科学....

oh,看到英语不用害怕。谷歌浏览器,你值得拥有。

2. 亚马逊AWS

(https://aws.amazon.com/cn/datasets/?nc1=h_ls)

来自亚马逊的跨科学云数据平台,包含化学、生物学、经济学、天文学等多个领域的数据集。同样是公开数据集,涉及领域较少但是非常权威。

3.UCI

(http://archive.ics./ml/datasets.html)

加州大学欧文分校开放的经典数据集,可以说非常经典了,被很多机器学习实验室采用。机器学习必选数据。

二、国内公开数据

1.国家数据

(http://data.stats.gov.cn/)

这个数据库信息内容涵盖范围全面、详实,并且有些数据已经做好了可视化,所以具有很高的实用性;基本只要和国情相关的信息都会在里边发布;比如地区房价、工业、能源、居民消费总额、房地产投资甚至食品的平均价格。

国家统计数据库包括历年月、季、年度数据,可通过数据库“搜索”、选择“指标”等方式,方便快捷地查询到历年、分地区、分专业的数据。

2.中华人民共和国国家统计局

(http://www.stats.gov.cn/)

这个网站的信息是比较宏观的,国家统计局一般只发布全国和分省的宏观统计数据。但如果想获取市级、地级信息,也可以底部的友情链接中获取。

三、数据采集

网络爬虫,做数据分析的,相信大家都听说过。但很多人就说,我不会写Python,也没时间学。很多公司需要数据的时候常常也会将要爬取的网站外包出去。但其实还有一种方式,就是采集器采集。

1.八爪鱼采集器

(http://www./)

这是一款免费的数据采集工具,而且没有功能限制,几乎所有网站都能采集,最大的特点是上手快,免费采集几万条数据没压力,当然也有付费增值服务可选。

四、地图数据源

不得不承认,做数据分析的时候,我最喜欢的就是地图了。因为可以自己选择、编辑、绘制地图。而地图的美观程度直接影响了我的心情。当然最重要的还是里面的开源数据。

1.OSGeo中国中心

(http://www./)

OSGeo中国中心的使命是支持开源地理信息软件和遥感软件的开发以及推动其更广泛的应用,尤其是帮助中国地区的用户和开发者。涉及生态领域、地理、气候资源较多。

2.ArcGIS

(https://hub./pages/open-data)

3.OSM

(openstreetmap.org/)

OpenStreetMap 是一个世界地图,可依据开放许可协议自由使用、编辑、绘制。目标是创造一个内容自由且能让所有人编辑的世界地图。设计属于自己的地图,从这里开始。

数据源的获取我知道的都已经分享给大家了。但拿到数据以后还需要用可视化工具展示出来。接下来我会整理关于如何展示数据的内容。

希望这些免费的资源对学习数据分析的你有帮助。如果有帮助,欢迎关注我以示支持,也以防错过下一波干货!~

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多