原文地址链接: https://mp.weixin.qq.com/s/lNAllLzn1p4TsOrCUvpNWw
用aardio来做网络爬虫,一键打包成exe原创 kanadeblisst Python成长路 2024-04-22 09:15 北京 1人听过 前言之前一直使用Python做爬虫,Python在爬虫方面的优势毋庸置疑。丰富的第三方库加上简洁的语法可以在写爬虫时提供天然的便利。 但是如果不是给企业写的爬虫,而是给个人用的一些减少工作量的工具,Python有一个很不方便的点:无法编译成可执行文件。用起来有门槛。 打包虽然可以用打包工具(例如Nuitka和pyinstaller)来将Python打包成exe,但它其实就是给你带了一个Python环境,如果打包成整个exe的话,会将Python整个环境都打包到exe里,使用起来并不方便。 所以就有了这个想法:如果可以用aardio做爬虫的话,那么打包成exe不就很方便了,而且文件也小。如果你不想公开源代码的话,aardio编译之后也无法被还原,可以很好的保护源代码。 爬虫基础库做爬虫必要的一些第三方库如下: - 请求相关: 比如http请求,websockets请求等
- 解析相关:比如xpath、css选择器、正则表达式和json等
- 加密相关:比如一些常用的加密算法,aes、des和rsa等
- 自动化抓包:例如mitmproxy,用于自动化抓包采集
- 浏览器自动化:比如selenium,用于操作浏览器来采集
aardio实现上面的功能- kicrypt(
待完成 ):实现一些常见的加密算法,例如aes和des,其他的算法aardio里都有 - ChakraCore(
待完成 ): 用于执行js代码的引擎,微软开源的 - drissionpage(
待完成 ):我也想用aardio实现Python的drissionpage库,本质上就是cdp协议。可以用于浏览器模拟自动化。更强大的自动化工具还得是playwright和 - ddddocr(
待完成 ):封装Python的ddddocr做验证码识别 - 采集框架(
不完成 ):采集框架暂不在计划内,因为我没打算做一个类似八爪鱼的东西,只是想做些小工具而已。平常的http请求库足够用了。正式给公司做采集肯定还是用Python 一些常见的数据库操作在aardio中基本都有,遇到没有的再封装。其实如果遇到在aardio中没有的,可以看看C++、go有没有实现,然后封装成dll就能在aardio中使用。 库的代码更新:https://github.com/kanadeblisst00/aardio-extlibs
实战目前在计划的内容有: - 采集公众号历史文章,并保存为mhtml和PDF文件
- 采集一些短视频平台的数据,比如b站、抖音等。这个可能得等我开始玩对话模型的时候再写,那个时候会需要对话的数据来训练模型,可以从这些平台采集评论来做数据集
- 一些课程里的网站。玩了太久的微信逆向,js逆向基本忘的差不多了。最近重新看看一些js逆向课程,有兴趣的可以b站搜
志远一期二期
kirequests先说一下 kirequests的一些基本用法: , , , , 省 , ,
省, ,
https://spa2./api/movie/
。
|