爬虫入门教程 —— 1

我本无我O 2020-11-03

展开全文

爬虫入门教程 -1

很想做一些爬虫的基础性的教程，来与大家共同分享我的一些小经验，我将以我认为的方式为大家讲解网络爬虫，如果你没有编程基础，对网络爬虫有兴趣，开始可能稍微有一些小难度，不过我希望能给你带来一些帮助。对我来说同样也是相互学习。。

工具： 1 大家需要在电脑上安装Python3.x版本我们以Python3 为例子讲解。安装方式百度一下按照步骤做就可以，安装时候遇到的问题也可以百度的到，你遇到的这些问题小白都遇到过，特别的正常

2 关于IDE(集成开发环境)的选择我建议大家使用pycham 至于什么是IDE。就是我们写代码的地方，它提供了代码高亮，代码报错，代码的搜索等等非常方便的功能。

3 我用的操作系统是liunx ,大家可以使用windows

4 你可能用的是IE浏览器，看到这里我希望你能安装chrome 或者火狐浏览器

本套教程主要用的编程语言是Python

第一节认识网络爬虫

本节我主要是带领大家了解认识网络爬虫

什么是网络爬虫？

网络爬虫

除了百度百科所讲，通俗来讲，我平时浏览的页面大都是HTML页面，包括我们平时浏览的新闻，门户网站等都是将文字内容镶嵌在HTML代码中的，比如腾讯新闻的这篇文章：

html例子

爬虫要做的可以简单理解为利用程序来获取我们需要的网络上的内容，包括文字，视频，图片等信息称之为数据。

你可能会说真low 老子分分钟复制粘贴好几篇，辣鸡---##---。您说的有道理但是，你想如果是10w篇呢，甚至100w呢，你还分分钟复制粘贴吗，程序可以做到将这写数据下载下来或者是保存到数据库中这些---------

为什么要做网络爬虫？

数据你感觉重要不重要？ '大数据时代'，获取数据方式有哪些？

企业产生的数据：百度搜索指数、腾讯公司业绩数据、阿里巴巴集团财务及运营数据、新浪微博微指数等...

数据平台购买数据：数据堂、国云数据市场、贵阳大数据交易所等等

爬取网络数据：如果数据市场上没有需要的数据，或者价格太高不愿意购买，那么可以利用爬虫技术，抓取网站上的数据。

我们对于爬虫其实我们经常与它打交道，百度谷歌，雅虎，等就是大爬虫，他们有个响当当的名字------搜索引擎

搜索引擎可以说是爬虫的至高境界--- 你修炼到这个境界今年是不可能了，当然明年也不肯可能。

你可能要问了，那百度为什么搜索的时候搜不到数据，都是官网，打开才可以进去，像搜索引擎不会像个人写的爬虫程序一样无脑，因为他们要遵循一个协议：如标注为nofollow的链接，或者是Robots协议。

这些协议注明了那些页面是爬虫可以访问的，哪些是不可以访问的。如：

淘宝网：https://www.taobao.com/robots.txt

腾讯网： http://www.qq.com/robots.txt

搜索引擎通过爬虫爬取到的网页，将数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。

搜索引擎蜘蛛在抓取页面时，也做一定的重复内容检测，一旦遇到访问权重很低的网站上有大量抄袭、采集或者复制的内容，很可能就不再爬行。

别激动我们做的是小爬虫，也称聚焦爬虫，即你想爬哪些数据，找到网址，分析规则然后写程序取抓取数据，当然不同网站的难易程度是不一样的。

首先你要知道当你点击一下百度，发生了什么，能把你想要的数据返回到你的电脑屏幕上

简单来说这段过程发生了以下四个步骤：

浏览器通过 DNS服务器查找域名对应的 IP地址;
向 IP地址对应的 Web服务器发送请求;
Web服务器响应请求，发回 HTML页面;
浏览器解析 HTML内容，并显示出来。

HTTP和HTTPS

HTTP协议（HyperText Transfer Protocol，超文本传输协议）：是一种发布和接收 HTML页面的方法。

HTTPS（Hypertext Transfer Protocol over Secure Socket Layer）简单讲是HTTP的安全版，在HTTP下加入SSL层。

SSL（Secure Sockets Layer 安全套接层）主要用于Web的安全传输协议，在传输层对网络连接进行加密，保障在Internet上数据传输的安全。

HTTP的端口号为80，
HTTPS的端口号为443

HTTP工作原理

网络爬虫抓取过程可以理解为模拟浏览器操作的过程。

浏览器的主要功能是向服务器发出请求，在浏览器窗口中展示您选择的网络资源，HTTP是一套计算机通过网络进行通信的规则

浏览器发送HTTP请求的过程：

当用户在浏览器的地址栏中输入一个URL地址并按回车键之后，浏览器会向HTTP服务器发送HTTP请求。 HTTP请求主要分为 Get 和 Post 两种方法。
当我们在浏览器输入URL http://www.baidu.com 的时候，浏览器发送一个Request请求去获取 http://www.baidu.com 的html文件，服务器把Response文件对象发送回给浏览器。
浏览器分析Response中的 HTML，发现其中引用了很多其他文件，比如Images文件，CSS文件，JS文件。浏览器会自动再次发送Request去获取图片，CSS文件，或者JS文件等。
当所有的文件都下载成功后，网页会根据HTML语法结构，完整的显示出来了。

URL（Uniform / Universal Resource Locator的缩写）：统一资源定位符，是用于完整地描述Internet上

HTTP请求主要分为`Get`和`Post`两类：

GET是从服务器上获取指定页面信息，POST是向服务器提交数据并获取页面信息。
GET请求参数都显示在URL上，服务器根据该请求所包含URL中的参数来产生响应内容。 'Get' 请求的参数是URL的一部分。
POST请求参数在请求体当中，消息长度没有限制而且以隐式的方式进行发送，通常用来向HTTP服务器提交量比较大的数据（比如请求中包含许多参数或者文件上传操作等）。 'POST'请求的参数不在URL中，而在请求体中。

get请求的参数都在网址里面包含，所以我们有时候看到一个网址特别长，后边带了一坨东西。post请求一般是用于表单提交，将账号密码以post的方式发送。

当你任意点开客户端与服务期的一次信息交互，你会看到它访问客户端携带的参数也就是头部信息：request headers （常用）以及客户端的回应response headers