小猪短租(成都)页面:http://cd./ 1.爬取租房标题 按照惯例,先来爬下标题试试水,找到标题,复制xpath。 多复制几个房屋的标题 xpath 进行对比: 瞬间发现标题的 xpath 只在 还是固定的套路,让我们尝试把整页的标题爬下来: 小猪在IP限制方面比较严格,代码中务必要加入 sleep() 函数控制爬取的频率 好了,再来对比下 xpath 信息: 顺着标题的标签网上找,找到整个房屋信息标签, xpath 对比如下: 你应该知道该怎么来改代码了吧,写一个循环: 好了,来运行一下试试: 2.爬取多个元素的信息 对比其他元素的 xpath: 然后可以写出代码: 来尝试运行一下: 3.翻页,爬取更多页面 看一下翻页时候 url 的变化: url 变化的规律很简单,只是 p 后面的数字不一样而已,而且跟页码的序号是一模一样的,这就很好办了……写一个简单的循环来遍历所有的url。 完整的代码如下: 看一下爬了5个页面下来的效果: 相信你已经掌握爬虫基本的套路了,但你还需要去不断熟悉,能独立写出代码为止。 写代码不仅要细心,也需要耐心。很多人从入门到放弃,并不是因为编程这件事情有多难,而是某次实践过程中,遇到一个小问题。 1.用Python语句存储数据 写文件时,我们主要用到 with open() 语句: name:包含文件名称的字符串,比如:‘xiaozhu.txt’; mode:决定了打开文件的模式,只读/写入/追加等; encoding:表示我们要写入数据的编码,一般为 utf-8 或者 gbk ; file:表示我们在代码中对文件的命名。 用我们前面爬的小猪的例子来看一下,实际是什么样的: 将写入的文件名 xzzf.txt,如果没有将自动创建。 在前面加了一个桌面的路径,它将存在桌面,如果不加路径,它将存在你当前工作目录中。 w:只写的模式,如果没有文件将自动创建; encoding='utf-8':指定写入文件的编码为:utf-8,一般指定utf-8即可; 来看一下存下来的数据是怎样的: 如果你没有指定文件路径,怎么找写在本地的文件呢?给你两种方法: 1.在 win10 中打开小娜(cortana),搜索你的文件名即可 2.推荐软件“everything”,查询文件更方便快捷。 这个软件非常小,百度很容易找到,但确实是神器用了你会回来感谢我的~ 所以还是建议你在写代码的时候,老老实实在文件名前面加上你想存放的路径。什么,你连路径怎么写都不知道?好吧,比如我想把文件存在桌面,那么怎么查看路径? 随便找一个文档,比如桌面的文档, 右键 >“属性”,“位置”后面的信息,就是该文档所在的路径了。 2.文件存为CSV格式 当然,你也可以将文件存为 .csv 格式,在 with open() 语句后更改文件后缀即可。 另外,需要注意的是:CSV 每个字段之间要用逗号隔开,所以这里把之前的空格改为了逗号。 CSV 文件怎么打开? 一般情况下,用记事本就可以直接打开,如果你直接用 Excel 打开,很有肯能会出现乱码,就像下面这样: Excel 打开 CSV 出现乱码怎么办? 1.在记事本中打开文件 2.另存为 – 选择编码为“ANSI” 再来看看之前的豆瓣TOP250图书写入文件: 最后存下来的数据是这样的: 好了,这节课就到这里! |
|