搜索

分享

QQ空间 QQ好友新浪微博微信

用aardio来做网络爬虫，一键打包成exe

风声之家 2024-04-22 发布于江苏

展开全文

原文地址链接：

https://mp.weixin.qq.com/s/lNAllLzn1p4TsOrCUvpNWw

用aardio来做网络爬虫，一键打包成exe

原创 kanadeblisst Python成长路 2024-04-22 09:15 1人听过

前言

之前一直使用Python做爬虫，Python在爬虫方面的优势毋庸置疑。丰富的第三方库加上简洁的语法可以在写爬虫时提供天然的便利。

但是如果不是给企业写的爬虫，而是给个人用的一些减少工作量的工具，Python有一个很不方便的点：无法编译成可执行文件。用起来有门槛。

打包

虽然可以用打包工具(例如Nuitka和pyinstaller)来将Python打包成exe，但它其实就是给你带了一个Python环境，如果打包成整个exe的话，会将Python整个环境都打包到exe里，使用起来并不方便。

所以就有了这个想法：如果可以用aardio做爬虫的话，那么打包成exe不就很方便了，而且文件也小。如果你不想公开源代码的话，aardio编译之后也无法被还原，可以很好的保护源代码。

爬虫基础库
做爬虫必要的一些第三方库如下：
请求相关：比如http请求，websockets请求等
采集框架：比如scrapy等
解析相关：比如xpath、css选择器、正则表达式和json等
加密相关：比如一些常用的加密算法，aes、des和rsa等
自动化抓包：例如mitmproxy，用于自动化抓包采集
js引擎：比如pyexecjs，用于执行js代码
浏览器自动化：比如selenium，用于操作浏览器来采集
存储相关：一些常用数据库的操作
验证码相关：识别字符、滑块、点选验证码等

aardio实现上面的功能
kicrypt(`待完成`)：实现一些常见的加密算法，例如aes和des，其他的算法aardio里都有
ChakraCore(`待完成`): 用于执行js代码的引擎，微软开源的
drissionpage(`待完成`)：我也想用aardio实现Python的drissionpage库，本质上就是cdp协议。可以用于浏览器模拟自动化。更强大的自动化工具还得是playwright和
puppeteer
ddddocr(`待完成`)：封装Python的ddddocr做验证码识别
采集框架(`不完成`)：采集框架暂不在计划内，因为我没打算做一个类似八爪鱼的东西，只是想做些小工具而已。平常的http请求库足够用了。正式给公司做采集肯定还是用Python
一些常见的数据库操作在aardio中基本都有，遇到没有的再封装。其实如果遇到在aardio中没有的，可以看看C++、go有没有实现，然后封装成dll就能在aardio中使用。
库的代码更新：https://github.com/kanadeblisst00/aardio-extlibs

实战

目前在计划的内容有：

导出自己的公众号粉丝列表
采集公众号历史文章，并保存为mhtml和PDF文件
采集一些短视频平台的数据，比如b站、抖音等。这个可能得等我开始玩对话模型的时候再写，那个时候会需要对话的数据来训练模型，可以从这些平台采集评论来做数据集
一些练习网站
一些课程里的网站。玩了太久的微信逆向，js逆向基本忘的差不多了。最近重新看看一些js逆向课程，有兴趣的可以b站搜志远一期二期

kirequests

先说一下 kirequests的一些基本用法：

，

，

，

，

省

，

，

省，

，

https://spa2./api/movie/

。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：风声之家 > 《python》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

风声之家

关注对话

TA的最新馆藏

咖喱鸡块这么做简单又好吃，关键上手快，厨房小白也能做出的美味
血淤在脸上是斑，在身上是病，一招化解！
用药心法口诀·药对100
重庆小面做法，重庆小面做法，包括33种配方，赶紧收藏起来吧
4分钟吃完1碗面
西安宫廷香酥牛肉饼制作工艺

喜欢该文的人也喜欢更多

热门阅读换一换