分享

用Python建立自己的数据分析平台

 powerbaby 2016-02-13

Python,R作为量化领域领域两门主流的语言,各有千秋,R语法比较“迂回”,加上先开始学习python,当然会成为首选的工具语言,python在数据分析方面有很多成熟的库,所以如果在linux环境下布置自己的分析环境一定会有很多便利,很多券商例如华宝证券,万得,IB都有开放的 python api接口,如果需要开发自己的交易平台时这也会带来很大便利。

前面提到在linux系统下做部署有一些天然优势,但是所依赖的一系列工具都是一样的,本来一直在使用ubuntu,在部署环境开始时很顺利,但是最后在安装一个获取国内数据的包时受挫,可能一直以来都把Ubuntu做为跟window一样的平台去使用,很多在ubuntu环境下的设置操作都不太熟练,两天找不到解决方案,就转战到windows环境下,因为之前配置过ipython notebook,所以安装很顺利,下面主要介绍下windows下的设置步骤。

1当然所有的软件都依赖最基层的python,pip可以使我们在平台上安装一些依赖的包像在Linux系统下一样方便,pip的安装可以参考这篇文章http:///1dlBFo。

2接下来需要安装的软件:numpy,pandas,tushare,matplotlib,scipy,lxml,xlwt.

其中numpy/scipy可以快速高效的进行数组和矩阵运算,python本事也自带有数组运算的list容器,但是numpy可以省略代码中很多的循环语句,这样大大提高了效率,特别是在处理较大规模的数据时,具体效率高出多少,可以参考numpy指南一书中的例子。

pandas由AQR Capital Management开发,主要用于处理数据“冲突”和时间序列分析,Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis),同时它也是tushare库的基础,在使用tushare之前必须先安装pandas,两者操作的语法几乎一样,tushare一个财经数据接口包,由国内开发者在Pypi发布,使用爬虫系统从新浪财经,雅虎财经,以及上交所,深交所提供的数据,十分强大,谁用谁知道。。官网:http://tushare.,作者微博:http://weibo.com/u/1304687120,你可以在官网看到你可以用tushare获得的数据以及步骤。  安装tushare之前先安装lxml,不然在读取安装地址时会出现错误。

matplotlib用以数据的可视化,比如绘制图表等等,xlwt是一个可以把用python抓取的数据存入excel的工具,也可以存入csv文件,当然所以来的库包含在pandas中,所以不用额外安装,当然如果想从excel中读取数据可以安装xlrd库存。截一张安装命令及成功截图

 

介绍完了几个主要库的功能,他们的安装全都依靠一个命令:pip install xx,xx为你要安装的库,安装顺序以及必备的库上面已经介绍过,当然这只是对初学者,对于一些数据分析高手,比如经常参加业内比较出名的比赛kaggle,或者国内由阿里巴巴组织的天池大数据比赛,你还需要更强大的工具,比如scikit-learn,可以用于机器学习和人工智能算法,pyspark结合了大数据分析领域火热的spark,在处理海量数据时可以使用。好了,这篇文章主要讲述分析所以来的软件和库,下一篇会讲利用这些库进行一些入门工作。

当前页面网址http://www./gongju/1734,转载请保留

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多