Python爬虫周记之案例篇——基金净值爬取（下）

米老鼠的世界 2021-06-08

展开全文

在简单完成了基金净值爬取以后，我们对中间的过程可能产生了很多疑惑，即使完成了目标，也仅仅是知其然而不知其所以然，而为了以后爬虫任务的顺利进行，对爬虫过程中所涉及的原理进行掌握是十分有必要的。

本文将会针对之前爬虫过程中所涉及到的几个爬虫原理进行简单的阐述。

url究竟是什么？它的构成有什么规律可循？

URL和URI

在访问任何一个网页时，我们都需要一个网页链接（如百度: www.baidu.com)，这就相当于网页的“家庭地址”一样，只有在知道了这个“地址”，我们才能看到“这户人家”长得什么样。而这个“地址”在大部分时候也被称为URL，全称为Universal Resource Locator，即统一资源定位符。

除了URL，还有一个极少听到的名词——URI，全称为Uniform Resource Identifier，即统一资源标志符。

以获取基金代码列表时用到的链接为例——

http://fund.eastmoney.com/js/fundcode_search.js是天天基金网基金代码的数据存储链接，它是一个URL，也是一个URI。即有这样的数据资源，我们用URL/URl来唯一指定了它的访问方式，这其中包括了访问协议http、访问路径（/即根目录）和资源名称fundcode_search.js。通过这样的一个链接，我们便可以从互联网上找到这个资源，这就是URL/URI。

URL是URI的自己，也就是说每个URL都是URI，但不是每一个URI都是URL，URI的子集中还包括URN，它在目前的互联网中用得非常少，几乎所有的URI都是URL，因此，一般的网页链接我们都可以直接、也惯称为URL。

URL的解析

在爬取基金代码和基金净值数据时，仔细观察相关的URL，我们可以发现它们的构成并非是无规律可循的。而事实上，URL的构成也确实存在一套统一的标准。

protocol://domain[:port]/path/[?parameters]#fragment

protocol 协议：标明了请求需要使用的协议,通常使用的是HTTP协议或者安全协议 HTTPS.其他协议还有mailto:用户打开邮箱的客户端,和ftp:用来做文件的转换, file用来获取文件,data获取外部资源等
domain 域名：标明了需要请求的服务器的地址，一个URL中也可以使用IP地址作为域名使用
port 端口：标明了获取服务器资源的入口端口号用于区分服务的端口，一台拥有IP地址的服务器可以提供许多服务，比如Web服务、FTP服务、SMTP服务等。那么，服务器的资源通过“IP地址+端口号”来区分不同的服务。如果把服务器比作房子，端口号可以看做是通向不同服务的门。端口不是一个URL必须的部分，如果省略端口部分，将采用默认端口，一般为80。
path 路径：表示服务器上资源的路径，从域名后的最后一个“/”开始到“？”为止，是文件名部分，如果没有“?”,则是从域名后的最后一个“/”开始到“#”为止，是文件部分，如果没有“？”和“#”，那么从域名后的最后一个“/”开始到结束，都是文件名部分。过去这样的路径标记的是服务器上文件的物理路径，但是现在，路径表示的只是一个抽象地址，并不指代任何物理地址。文件名部分也不是一个URL必须的部分，如果省略该部分，则使用默认的文件名。
parameter 参数：从“？”开始到“#”为止之间的部分为参数部分，又称搜索部分、查询部分。这些参数是以键值对的形式，通过&符号分隔开来，服务器可以通过这些参数进行相应的个性化处理。
fragment 片段：可以理解为资源内部的书签，用来想服务器指明展示的内容所在的书签的点。例如对于HTML文件来说，浏览器会滚动到特定的或者上次浏览过的位置，对于音频或者视频资源来说，浏览器又会跳转到对应的时间节点。锚部分也不是一个URL必须的部分。

requests.get()中的headers和params参数又是什么？

当我们尝试获取网页内容时，我们会用到requests.get()访问网站的服务器，然后获取想到得到的网页内容。

params参数

requests.get()中的params参数就是为了将一些特别长，且明显有规律的URL，如：

http://api.fund.eastmoney.com/f10/lsjz?callback=jQuery18303213780505917203_1548395296124&fundCode=000001&pageIndex=1&pageSize=20&startDate=&endDate=&_=1548395296139

以参数化的方式传入，让其URL组合更为简洁和格式化。

headers参数

而我们在获取基金净值数据时发现，直接用URL访问并不能获得我们想要的内容，而是加上参数headers才成功。

这是因为对一些网页进行访问时，在你发送请求给服务器的过程中，需要使用一些附加信息，在获得服务器的识别和准许后，才能返回给你你所想要的内容。这就像我们平时到某个小区去看望朋友时，保安会在需要确认你的信息后才会放你同行一样。

常用头信息

Accept	请求报头域，用于指定客户端可接受哪些类型的信息
Accept-Language	指定客户端可接受的语言类型
Accept-Encoding	指定客户端接受的内容编码
Host	用于指定请求资源的主机IP和端口号，其内容为请求URL的原始服务器或网关的位置
Cookie	也常用复数形式Cookies，这是网站为了辨别用户进行会话跟踪而存储在用户本地的数据，它的主要功能是维持当前访问会话
Referer	此内容用来标识这个请求是从哪个页面发过来的，服务器可以拿到这一信息并做相应的处理，如做来源统计、防盗链处理等
User-Agent	特殊的字符串头，可以使服务器识别客户使用的操作系统及版本、浏览器及版本等信息。
Content-Type	在HTTP协议消息头中，它用来表示具体请求中的媒体类型信息

是否只有get一种访问形式？

每一次访问网页都是一次向服务器发出请求的过程。更具体的说，在浏览器中输入URL，回车之后会在浏览器观察到页面内容，这个过程就是浏览器向网站所在的服务器发送一个请求，网站服务器接收到这个请求后进行处理和解析，然后返回对应的响应，接着传回给浏览器。响应里包含了页面的源代码等内容，浏览器再对其进行解析，便将网页呈现出来，也就是最终我们在浏览器上所看到的效果。

请求由客户端（手机或PC浏览器）向服务器发出，可分为四部分：请求方法、请求的网址、请求头和请求体。而get则是一种请求方法。

请求方法

常见的请求方法：GET和POST。

基金净值数据的访问，就是一种GET请求，链接为——

http://api.fund.eastmoney.com/f10/lsjz?callback=jQuery18303213780505917203_1548395296124&fundCode=000001&pageIndex=1&pageSize=20&startDate=&endDate=&_=1548395296139

其中URL中包含了请求的参数信息。
POST请求大多在表单提交时发起，常见于登录过程中发送的登录表单，在输入用户名和密码后点击登录，通常便会发起一个POST请求，其数据通常以表单形式传输，不会体现在URL中。

其他请求方法：