分享

(一)大数据和机器学习练习环境搭建

 不丁真人 2017-07-20

前言

大数据和机器学习目前正处于风口,对相关人才需求很大,然而国内科班出身的人才确实不多,想要转行的务必抓住这个短暂的时间窗口。而且,我个人认为目前经济已经进入通缩状态,失业率看涨,进入新兴行业或许会有不错的转机。


我也是通过自学转入这个领域的,我写这个专栏的目的一方面是梳理我所学的专业知识以及工作中用到的一些算法和项目,另一方面也希望能够和大家一起互相学习、快速成长。

我在win下做项目,所以只讲win下怎么快速部署完整的学习和应用环境。

快速环境配置

想要节省时间,直接看这里。想知道为什么这么安装,以及一些优化和美化方法,可以直接看下面慢速环境配置。

1. 安装python,安装时要点选把python加入系统path,下载地址:Download Python

2. 在某文件下放入如下3个文件:

# rapid-install.pyimport pipfrom subprocess import call# numpy, scipy换成你自己的版本 package_list = ['numpy‑1.13.0+mkl‑cp27‑cp27m‑win_amd64.whl', 'scipy‑0.19.0‑cp27‑cp27m‑win_amd64.whl', 'pandas', 'matplotlib', 'scikit-learn']for package in package_list: call('pip install --upgrade ' + package, shell=True)

然后,在此目录下,按住shift+鼠标右击,选择打开命令行,输入 python rapid_install.py,之后就可以坐等完成了。


慢速环境配置

我崇尚简约美,所以我并不喜欢用一体式的anaconda作为开发环境,anaconda优点在于集成了底层需要的c和fortran的编译库,也提供了numpy和scipy依赖的诸如BLAS、LAPACK等的性能优化(想要和GPU结合还需要付钱)。

不过,如果只是作为平时练习和项目demo使用,按照我用的开发环境就可以了,只需要官方python和最美、最强大的编辑器Visual Studio Code足以,很纯洁。

1. Python 安装

下载地址Download Python

我用的是python 2.7,因为2.x的库相对完善,其实2.x和3.x在我看来都一样,按自己喜好来就可以。根据自己操作系统位数来选择合适的版本,32位选择 x86 MSI,64位选x86-64 MSI。

安装的过程中,注意如图示这一步,把最后一个×改成下拉框内第一个,这样可以将python路径自动加到系统的path路径下,此外可以看到pip这个包管理工具也默认安装了。

到命令行工具下验证python是否安装成功,可以看到python版本和位数:

2. Visual Studio Code 安装

下载地址:Download Visual Studio Code - Mac, Linux, Windows

2.1 安装时,在这一步建议把所有都勾上,这样以后点击鼠标右键可以快速启动。

2.2 优化和美化,按个人喜好设置。

File-> Preferences:

3. 大数据和机器学习库 安装

主要就是5个库:numpy、scipy、pandas、matplotlib、scikit-learn。

打开vs code,按“ Crtl + ` ”进入vs code自带的命令行环境—powershell,比win自带的好用。

3.1 numpy 和 scipy 安装


Overview(官方说明)

Compared to OSX and Linux, building NumPy and SciPy on Windows is difficult, largely due to the lack of compatible, open-source libraries like LAPACK or ATLAS that are necessary to build both libraries and have them perform relatively well. You can’t sudo apt-get install everything like you can on the other two platforms.

numpy是数值代数库,scipy是科学计算库。在win下安装这两包比较坑爹,主要是这俩包依赖的一些c和fortran底层库存在平台兼容性问题。事实上,numpy可以直接用pip install numpy 安装,但功能和性能受限,而scipy干脆就是不能安装。

幸好有高手对这俩包做了完整的binary库,我们可以下载后直接安装。


安装:pip install xxx.whl注意:文件名要修改成你下载的,以及文件要在当前命令行所在目录。)

可以进入ipython环境,输入 import numpy, scipy,验证是否安装成功,无异常则成功。


3.2 pandas、matplotlib 、scikit-learn安装

  • pandas是统计学库,在数据处理中(数据清洗)用得很多;
  • matplotlib是2D可视化库,用图来说明问题是最好的方式;
  • scikit-learn是python领域比较火的机器学习库。

安装:

  • pip install pandas
  • pip install matplotlib
  • pip install scikit-learn

可以进入ipython环境,输入 import pandas, matplotlib, sklearn,验证是否安装成功,无异常则成功。

3.3 ipython 安装

其实到上面这一步就可以了,但是我们只要再多做一点点,就能成倍的提高工作效率。

ipython 是一个美化过的python解释器,同时提供了和操作系统交互的能力,同时一些提供了很强大的magic命令,用起来真是异常方便。

安装:pip install ipython

不出意外肯定会出如下错误—需要安装python拓展C++ compiler模块,下载Microsoft Visual C++ Compiler for Python 2.7。是个.msi文件,直接安装即可,安装好后,重新输入安装命令来安装ipython。

在命令行输入 ipython 来验证是否安装成功, 输入 exit 退出ipython环境。

4. 库更新

pip list --outdated 可以查看哪些库已经更新了。下面我提供一个批量更新库脚本,能够保证numpy和scipy不出问题。

# pip-upgrade.pyimport pipfrom subprocess import call for dist in pip.get_installed_distributions(): call('pip install --upgrade ' + dist.project_name, shell=True)# numpy 换成新的call('pip install numpy‑1.13.0+mkl‑cp27‑cp27m‑win_amd64.whl')# scipy 换成新的call('pip install scipy‑0.19.0‑cp27‑cp27m‑win_amd64.whl')

以后会写的东西

环境配置是容易的,后面的练习和使用才是最困难的,numpy、scipy等等中都有很多的api,如何去学习让人很头疼。其实,每个库都有真正核心的api,掌握这些就能干大多数活了,以后的文章我会每个库写一些核心和常用的api,让大家都能聚焦于最重要的东西,都能快速上手。


最后,是我的刚建立的微信订阅号 ,文章会同时发送到订阅号上,欢迎关注,搜索 键盘数据侠或者jp-sjx进行关注。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多