这 6 个爬虫开源项目永远的神

天选小丑 2021-10-26

展开全文

作者丨老逛

来源丨经授权转自逛逛GitHub（ID：ggGithub）

今天盘点 6 个爬虫开源项目，它们可以帮你爬天爬地怕空气，爬微博、爬B站、爬知乎、爬*站。

提前声明，切勿使用这些项目从事非法商业活动，仅用于用于科研学习

微博爬虫

这个开源项目程序可以持续爬取一个或多个新浪微博用户（如李文di、无疫烦）的数据，并将结果信息写入文件或数据库。写入信息几乎包括用户微博的所有数据，包括用户信息和微博信息两大类。

地址：https://github.com/dataabc/weiboSpider

爬取结果可写入文件和数据库，具体的写入文件类型如下：

txt文件
csv文件
json文件
MySQL数据库
MongoDB数据库
SQLite数据库

同时支持下载微博中的图片和视频，具体的可下载文件如下：

原创微博中的原始图片
转发微博中的原始图片
原创微博中的视频
转发微博中的视频
原创微博Live Photo中的视频
转发微博Live Photo中的视频

首先需要修改 config.json 文件，然后爬取，程序会自动生成一个 weibo 文件夹，我们以后爬取的所有微博都被存储在这里。

然后程序在该文件夹下生成一个名为'微博名字'的文件夹，明星的所有微博爬取结果都在这里。文件夹里包含一个csv文件、一个txt文件、一个json文件、一个img文件夹和一个video文件夹，img文件夹用来存储下载到的图片，video文件夹用来存储下载到的视频。如果你设置了保存数据库功能，这些信息也会保存在数据库里，数据库设置见设置数据库部分。

Python爬虫教程

Python爬虫教程系列、从 0 到 1 学习 Python 爬虫，包括浏览器抓包，手机 APP 抓包，如 fiddler、mitmproxy，各种爬虫涉及的模块的使用，如：requests、beautifulSoup、selenium、appium、scrapy 等，以及验证码识别，MySQL，MongoDB 数据库的 Python 使用，多线程多进程爬虫的使用，css 爬虫加密逆向破解，JS爬虫逆向，分布式爬虫，爬虫项目实战实例等。

地址：https://github.com/wistbean/learn_python3_spider

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：天选小丑 > 《计算机与编程》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

天选小丑

关注对话

TA的最新馆藏

[转] 明朝第一奇才解缙在藤州的诗词和书法作品
[转] 角元塞瓦定理
[转] 衣长春：论雍正帝西南边疆治理方略
[转] 大智慧全公式函数
[转] 【前沿】多级分段压裂技术可能改变地热能产业
[转] 宋太宗的一笔“败家投资”，让大宋赚足全世界的钱

喜欢该文的人也喜欢更多

热门阅读换一换

这 6 个爬虫开源项目 永远的神

这 6 个爬虫开源项目永远的神