欲善其事必先利其器,这节我们就讲讲爬虫所依赖的各种环境变量。
提起爬虫我们首先就会想到python,虽然其他的语言也可以做出爬虫,但是都没有python方便,python有许多第三方库可以为我们所用,所以我们会以python的角度学习爬虫。
这里介绍的是Windows下的安装过程
目录 1、Python3的安装 2、请求库的安装 3、解析库的安装 4、OCR 识别库 既然要用python开发那么第一步肯定要安装好python环境。 官方网站:http:// 下载地址:http://www./downloads 官方文档:http://docs./3 直接在官方网站下载python3的安装包,当前最新的版本是3.8.1,小编用的是3.7.3,这里就以3.7.3为例(其他版本的也一样) pip选项记得选上,这个是帮助我们下载第三方库的工具
勾选Add Python to environment variables选项,它可以自主的将python加入环境变量中,省去了我们手动操作。 安装完成后,按Win+R运行cmd命令在命令行输入:python
2.1、requests的安装 2.2、selenium的安装 requests属于第三方库,python不会自带这个库,就需要我们手动安装。PyPI:https://pypi./pypi/requestshttp://docs./zh_CN/latest在安装的时候我们还安装了一个pip的第三方库的下载工具还记得吗即可完成requests库的安装(因为pip链接的是国外的源所以会比较的慢,建议加个国内的源就会快很多,安装python库都可以加这个源)pip install -i https://pypi.douban.com/simple/ requests Wheel是python的一种安装包,其后缀为.whl,在无法用pip直接下载的时候可以选择下载wheel文件再安装,再用pip命令加文件铭安装即可。然后到pypi下载对应wheel文件
在wheel文件下进入命令行(只需要文件路径的命令行输入cmd’即可) pip install requests-2.22.0-py2.py3-none-any.whl
这样也可以完成安装
2.2、Selenium的安装
Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。对于一些JavaScript渲染的界面来说,这种抓取非常有效,可以避过很多反爬机制。https://pypi./pypi/seleniumhttp://selenium-python-zh.
2.3、ChromeDriver的安装
前面我们安装好了Selenium,但它只是一个自动化测试工具,还需要配合浏览器一起使用。推荐使用谷歌浏览器,至于下载有很多方法,这里就不再赘述了。之后安装ChromeDriver。只有安装了ChromeDriver才能驱动Chrome。http://npm./mirrors/chromedriver/
ChromeDriver要与Chrome的版本相对应建议把chromedriver.exe文件加入到python的Scripts目录下;也可以将其单独配置到环境变量
目录 3.1、lxml的安装 3.2、pyquery的安装 lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据(xpath就是这个库的一个功能)Pypi: https://pypi./pypi/lxml如果有问题的话就用wheel安装,链接为:https:///project/lxml/#files
下载后进入文件所在目录运行: pip install lxml-4.4.2-cp27m-win_amd64.whl
类似于jquery的python库,支持css选择器Pypi:https://pypi./pypi/pyquery也可以用wheel安装 tesserocr 是 Python 的一个 OCR 识别库,但其实是对 tesseract做的一层 Python API 封装,所以它的核心是 tesseract。因此,在安装 tesserocr 之前,我们需要先安装 tesseracthttp://digi.bib./tesseracthttps://pypi./pypi/tesserocr
Tesseract的安装
名字中带有dev的为开发版本,不带dev的为稳定版,推荐下稳定版
勾选Addition language data(download),安装OCR支持的语言包,这样OCR就可以识别多国语言,之后一直点Next即可,安装过程中会出项很多语言包无法下载,可以直接忽略,不影响正常使用。pip install tesserocr pillow
下一节会讲数据库的安装及python操作数据库所依赖的库
|