看到很多人都在写怎么去用python做爬虫,大部分都是说个大概,没有详细的各种环境案例。 在日常工作当中,用python做爬虫去爬取数据,无疑是非常便利和快捷的。 譬如,要舒服点的,加载requests库,requests.get(url)一句代码就可以爬取数据了 但是在现实工作当中,并不是这么理想的场景,网络可能会中断、网站对方可能会拉黑你等待。。 如果直接双击运行py程序,就会弹出DOS窗口自动运行 在现实的场景当中,如果出现网络受阻或者其它编码问题,那么窗口会弹出错误信息,然后退出。 当这个时候,写的爬虫就变成死蛇了,又或者你需要长时间值守在屏幕前面,写个爬虫出来坑自己就是这么个意思。 一个优秀(懒惰)的运维应该具备的思想,其实应该是怎么通过程序去偷懒。 那么我其实是其中的一个。 怎么解决这个不定时遇到bug的问题呢,想到了么???? 其实就是杀毒软件或者病毒的构思,守护进程或者双进程。 思路:通过设立一个守护程序,来监督另外一个程序,又或者可以相互监督 通过一个可休眠的看门狗脚本监督爬虫,而爬虫又反过来同时监督这个可休眠的看门狗脚本 |
|