最详细的python爬虫入门教学，一篇入门爬虫不是儿戏（视频分享）

庆亮trj21bcn0z 2018-09-12

展开全文

很多人问学了python能做什么？能找到什么工作

python应用范围非常广泛，几乎所有都能做；最常见的就是web和爬虫了；往后就是人工智能和数据分析了。这里时间有限我就不多说了；今天我们就来说说爬虫吧。

python入门基础，从0到1，爬虫教学：关注小编，帮忙转发，私聊关键词“资料”。

一，首先爬虫的基本流程是什么？

最详细的python爬虫入门教学，一篇入门爬虫不是儿戏（视频分享）

二、爬虫能抓取什么样的数据？

最详细的python爬虫入门教学，一篇入门爬虫不是儿戏（视频分享）

三、认识urllib库

urllib是用于获取网络资源的库，python3自带。

初学爬虫者，主要是掌握urllib库中request模块的一堆函数功能。

有必要的话，也可以学习一下error模块。

request模块一些常用到的函数

函数功能简介Request返回一个Request对象，因为对象有些常用的方法，故而必要的时候需要用到。urlopen通过直接给的URL或者Request对象化后的URL,返回一个含有该URL的网页源码的对象。ProxyHandler跟代理有关函数，搭建与代理的通信build_opener跟代理有关函数，创建一个opener对象install_opener安装opener

一些常用到的方法

方法功能简介read()用于读urlopen函数返回对象中的网页源码encode()编码decode()解码

编码解码还有这两种函数，str是关于编码的函数，bytes是关于解码的函数。网页涉及到的编码经常有’utf-8’和”gb18030’等。一些编码解码的内容可以看这一篇博客——python3 中的编码和解码

四、认识一些模块

re模块

首先，需要了解的是 re模块——正则表达式模块。

正则表达式是什么？可以这么说，是用于快速从一大堆字符中快速找出想要的子字符串的一种表达方式。函数+表达方式=快速找出子字符串。

这个模块是初学者必须要弄清楚的，内容比较多，在这里就不多说了。可以参考我写的一篇简略的博客——正则表达式

os模块

可用于对文件文本的操作，可以创建文件夹，访问文件夹内容等（博主对该库了解不深，只用来创建过文件夹和访问文件夹内容）

可以了解的函数有创建文件夹用的函数mkdir和chdir、访问文件夹里的所有文件函数listdir。

csv模块

爬取出来的数据可以以csv的格式保存，可以用office办公软件中的Excel表格软件打开。

网上给出的写法有好几种，在此给出博主的写法。

首先你需要了解内置函数open的newline参数用法,在这里，用与去除存入csv文件时多出来的空行。

csv模块函数

writer，返回一个对写入数据操作的对象。

writerow，参数是列表，在表格中写入一行数据。

import csvfilename = '统计.csv'fileheader = ['姓名', '性别']contexts = [['小明', '男'], ['小刚', '男'], ['小红', '女'], ['小花', '女']]with open(filename, 'w', newline='', encoding='gb18030') as f: csv_writer = csv.writer(f) csv_writer.writerow(fileheader) for people in contexts: csv_writer.writerow(people)1234567891011

三、查看网页源码