分享

DC免费课程(四)|除了实战还有什么?满满干货!

 heii2 2018-02-02



小猪短租(成都)页面:http://cd./



1.爬取租房标题


按照惯例,先来爬下标题试试水,找到标题,复制xpath。



多复制几个房屋的标题 xpath 进行对比:



瞬间发现标题的 xpath 只在

  • 后序号变化,于是,秒写出爬取整页标题的 xpath:



  • 还是固定的套路,让我们尝试把整页的标题爬下来:



    小猪在IP限制方面比较严格,代码中务必要加入 sleep() 函数控制爬取的频率


    好了,再来对比下 xpath 信息:



    顺着标题的标签网上找,找到整个房屋信息标签, xpath 对比如下:



    你应该知道该怎么来改代码了吧,写一个循环:



    好了,来运行一下试试:



    2.爬取多个元素的信息


    对比其他元素的 xpath:



    然后可以写出代码:



    来尝试运行一下:



    3.翻页,爬取更多页面


    看一下翻页时候 url 的变化:



    url 变化的规律很简单,只是 p 后面的数字不一样而已,而且跟页码的序号是一模一样的,这就很好办了……写一个简单的循环来遍历所有的url。



    完整的代码如下:



    看一下爬了5个页面下来的效果:



    相信你已经掌握爬虫基本的套路了,但你还需要去不断熟悉,能独立写出代码为止。


    写代码不仅要细心,也需要耐心。很多人从入门到放弃,并不是因为编程这件事情有多难,而是某次实践过程中,遇到一个小问题。




    1.用Python语句存储数据


    写文件时,我们主要用到 with open() 语句:



    name:包含文件名称的字符串,比如:‘xiaozhu.txt’; mode:决定了打开文件的模式,只读/写入/追加等; encoding:表示我们要写入数据的编码,一般为 utf-8 或者 gbk ; file:表示我们在代码中对文件的命名。


    用我们前面爬的小猪的例子来看一下,实际是什么样的:




    将写入的文件名 xzzf.txt,如果没有将自动创建。



    在前面加了一个桌面的路径,它将存在桌面,如果不加路径,它将存在你当前工作目录中。


    w:只写的模式,如果没有文件将自动创建;


    encoding='utf-8':指定写入文件的编码为:utf-8,一般指定utf-8即可;



    来看一下存下来的数据是怎样的:



    如果你没有指定文件路径,怎么找写在本地的文件呢?给你两种方法:


    1.在 win10 中打开小娜(cortana),搜索你的文件名即可



    2.推荐软件“everything”,查询文件更方便快捷。



    这个软件非常小,百度很容易找到,但确实是神器用了你会回来感谢我的~


    所以还是建议你在写代码的时候,老老实实在文件名前面加上你想存放的路径。什么,你连路径怎么写都不知道?好吧,比如我想把文件存在桌面,那么怎么查看路径?


    随便找一个文档,比如桌面的文档, 右键 >“属性”,“位置”后面的信息,就是该文档所在的路径了。



    2.文件存为CSV格式


    当然,你也可以将文件存为 .csv 格式,在 with open() 语句后更改文件后缀即可。




    另外,需要注意的是:CSV 每个字段之间要用逗号隔开,所以这里把之前的空格改为了逗号。


    CSV 文件怎么打开?


    一般情况下,用记事本就可以直接打开,如果你直接用 Excel 打开,很有肯能会出现乱码,就像下面这样:



    Excel 打开 CSV 出现乱码怎么办?

    1.在记事本中打开文件

    2.另存为 – 选择编码为“ANSI”



    再来看看之前的豆瓣TOP250图书写入文件:




    最后存下来的数据是这样的:



    好了,这节课就到这里!


      本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
      转藏 分享 献花(0

      0条评论

      发表

      请遵守用户 评论公约

      类似文章 更多