分享

爬虫开发环境部署(一)

 geoallan 2022-11-23 发布于四川

欲善其事必先利其器,这节我们就讲讲爬虫所依赖的各种环境变量。


提起爬虫我们首先就会想到python,虽然其他的语言也可以做出爬虫,但是都没有python方便,python有许多第三方库可以为我们所用,所以我们会以python的角度学习爬虫。

这里介绍的是Windows下的安装过程


目录

1、Python3的安装        2、请求库的安装

3、解析库的安装           4、OCR 识别库

01

Python3的安装

 既然要用python开发那么第一步肯定要安装好python环境。

官方网站:http://

下载地址:http://www./downloads

官方文档:http://docs./3

直接在官方网站下载python3的安装包,当前最新的版本是3.8.1,小编用的是3.7.3,这里就以3.7.3为例(其他版本的也一样)

点击下载就好了

图片

pip选项记得选上,这个是帮助我们下载第三方库的工具

图片

        勾选Add Python to environment variables选项,它可以自主的将python加入环境变量中,省去了我们手动操作。

安装完成后,按Win+R运行cmd命令在命令行输入:python

图片

如果出现了这些就说明你的python安装完成了。

02

图片

请求库的安装

目录:
2.1、requests的安装          2.2、selenium的安装
2.3、ChromeDriver的安装
常用的请求库有requests、selenium

2.1、 requests的安装
requests属于第三方库,python不会自带这个库,就需要我们手动安装。
相关连接:
PyPI:https://pypi./pypi/requests
官方文档:http://www.
中文文档:
http://docs./zh_CN/latest
1、pip安装
在安装的时候我们还安装了一个pip的第三方库的下载工具还记得吗
在命令界面输入:
pip install requests
即可完成requests库的安装(因为pip链接的是国外的源所以会比较的慢,建议加个国内的源就会快很多,安装python库都可以加这个源)
这里用的是豆瓣源:
pip install -i https://pypi.douban.com/simple/ requests
这是最简单是安装方式
2、wheel安装
Wheel是python的一种安装包,其后缀为.whl,在无法用pip直接下载的时候可以选择下载wheel文件再安装,再用pip命令加文件铭安装即可。
在这之前要安装wheel库
pip install wheel

然后到pypi下载对应wheel文件

图片

在wheel文件下进入命令行(只需要文件路径的命令行输入cmd’即可)

图片
pip install requests-2.22.0-py2.py3-none-any.whl

这样也可以完成安装


2.2、Selenium的安装

        Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。对于一些JavaScript渲染的界面来说,这种抓取非常有效,可以避过很多反爬机制。
相关连接:
官方网站:http://www.
Pypi:
https://pypi./pypi/selenium
官方文档:
http://selenium-python.
中文文档:
http://selenium-python-zh.
推荐直接用pip安装即可:
pip install selenium

2.3、ChromeDriver的安装

前面我们安装好了Selenium,但它只是一个自动化测试工具,还需要配合浏览器一起使用。
推荐使用谷歌浏览器,至于下载有很多方法,这里就不再赘述了。
之后安装ChromeDriver。只有安装了ChromeDriver才能驱动Chrome。
相关连接:

http://npm./mirrors/chromedriver/

图片
ChromeDriver要与Chrome的版本相对应
建议把chromedriver.exe文件加入到python的Scripts目录下;也可以将其单独配置到环境变量
图片

03

图片

解析库的安装

目录

3.1、lxml的安装            3.2、pyquery的安装


3.1、lxml的安装 
lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据(xpath就是这个库的一个功能)
相关连接:
官方网站:http://
Pypi:  https://pypi./pypi/lxml
推荐直接用pip安装即可:
pip install lxml

如果有问题的话就用wheel安装,链接为:https:///project/lxml/#files

图片

下载后进入文件所在目录运行:

pip install lxml-4.4.2-cp27m-win_amd64.whl

3.2、pyquery的安装
类似于jquery的python库,支持css选择器
官方文档:http://pyquery.
Pypi:https://pypi./pypi/pyquery
推荐pip安装:
pip install pyquery

也可以用wheel安装

04

图片

OCR 识别库

Tesserocr的安装
tesserocr 是 Python 的一个 OCR 识别库,但其实是对 tesseract做的一层 Python API 封装,所以它的核心是 tesseract。因此,在安装 tesserocr 之前,我们需要先安装 tesseract
相关链接:
Tesseract下载地址:
http://digi.bib./tesseract
Tesserocr pypi: 
https://pypi./pypi/tesserocr

Tesseract的安装

图片

名字中带有dev的为开发版本,不带dev的为稳定版,推荐下稳定版

图片
勾选Addition language data(download),安装OCR支持的语言包,这样OCR就可以识别多国语言,之后一直点Next即可,安装过程中会出项很多语言包无法下载,可以直接忽略,不影响正常使用。
之后再安装tesserocr
pip install tesserocr pillow

下一节会讲数据库的安装及python操作数据库所依赖的库

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多