Python爬虫:Scrapy从脚本运行爬虫的5种方式! Python编程学习圈 1周前 关注+星标,每天学习Python新技能 测试环境 一、命令行运行爬虫 1、编写爬虫文件 baidu.py 图片 2、运行爬虫(2种方式) 图片 二、文件中运行爬虫 1、cmdline方式运行爬虫 图片 2、CrawlerProcess方式运行爬虫 图片 3、通过CrawlerRunner 运行爬虫 图片 三、文件中运行多个爬虫 项目中新建一个爬虫 SinaSpider 图片 1、cmdline方式不可以运行多个爬虫 如果将两个语句放在一起,第一个语句执行完后程序就退出了,执行到不到第二句 图片 不过有了以下两个方法来替代,就更优雅了 2、CrawlerProcess方式运行多个爬虫 备注:爬虫项目文件为: scrapy_demo/spiders/baidu.py scrapy_demo/spiders/sina.py 图片 此方式运行,发现日志中中间件只启动了一次,而且发送请求基本是同时的,说明这两个爬虫运行不是独立的,可能会相互干扰 3、通过CrawlerRunner 运行多个爬虫 图片 此方式也只加载一次中间件,不过是逐个运行的,会减少干扰,官方文档也推荐使用此方法来运行多个爬虫 总结 图片 cmdline.execute 运行单个爬虫文件的配置最简单,一次配置,多次运行 *声明:本文于网络整理,版权归原作者所有,如来源信息有误或侵犯权益,请联系我们删除或授权事宜。 图片 阅读原文 阅读 187 |
|