分享

用aardio来做网络爬虫,一键打包成exe

 风声之家 2024-04-22 发布于江苏

原文地址链接:

https://mp.weixin.qq.com/s/lNAllLzn1p4TsOrCUvpNWw 

用aardio来做网络爬虫,一键打包成exe

原创 kanadeblisst Python成长路 2024-04-22 09:15  1人听过

前言

之前一直使用Python做爬虫,Python在爬虫方面的优势毋庸置疑。丰富的第三方库加上简洁的语法可以在写爬虫时提供天然的便利。

但是如果不是给企业写的爬虫,而是给个人用的一些减少工作量的工具,Python有一个很不方便的点:无法编译成可执行文件。用起来有门槛。

打包

虽然可以用打包工具(例如Nuitka和pyinstaller)来将Python打包成exe,但它其实就是给你带了一个Python环境,如果打包成整个exe的话,会将Python整个环境都打包到exe里,使用起来并不方便。

所以就有了这个想法:如果可以用aardio做爬虫的话,那么打包成exe不就很方便了,而且文件也小。如果你不想公开源代码的话,aardio编译之后也无法被还原,可以很好的保护源代码。

爬虫基础库

做爬虫必要的一些第三方库如下:

  • 请求相关: 比如http请求,websockets请求等
  • 采集框架:比如scrapy等
  • 解析相关:比如xpath、css选择器、正则表达式和json等
  • 加密相关:比如一些常用的加密算法,aes、des和rsa等
  • 自动化抓包:例如mitmproxy,用于自动化抓包采集
  • js引擎:比如pyexecjs,用于执行js代码
  • 浏览器自动化:比如selenium,用于操作浏览器来采集
  • 存储相关:一些常用数据库的操作
  • 验证码相关:识别字符、滑块、点选验证码等

aardio实现上面的功能
  • kicrypt(待完成):实现一些常见的加密算法,例如aes和des,其他的算法aardio里都有
  • ChakraCore(待完成): 用于执行js代码的引擎,微软开源的
  • drissionpage(待完成):我也想用aardio实现Python的drissionpage库,本质上就是cdp协议。可以用于浏览器模拟自动化。更强大的自动化工具还得是playwright和
  • puppeteer
  • ddddocr(待完成):封装Python的ddddocr做验证码识别
  • 采集框架(不完成):采集框架暂不在计划内,因为我没打算做一个类似八爪鱼的东西,只是想做些小工具而已。平常的http请求库足够用了。正式给公司做采集肯定还是用Python
  • 一些常见的数据库操作在aardio中基本都有,遇到没有的再封装。其实如果遇到在aardio中没有的,可以看看C++、go有没有实现,然后封装成dll就能在aardio中使用。

    库的代码更新:https://github.com/kanadeblisst00/aardio-extlibs 

实战

目前在计划的内容有:

  • 导出自己的公众号粉丝列表
  • 采集公众号历史文章,并保存为mhtml和PDF文件
  • 采集一些短视频平台的数据,比如b站、抖音等。这个可能得等我开始玩对话模型的时候再写,那个时候会需要对话的数据来训练模型,可以从这些平台采集评论来做数据集
  • 一些练习网站
  • 一些课程里的网站。玩了太久的微信逆向,js逆向基本忘的差不多了。最近重新看看一些js逆向课程,有兴趣的可以b站搜志远一期二期

kirequests

先说一下 kirequests的一些基本用法:


省,



​https://spa2./api/movie/ 




    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多