搜索

分享

QQ空间 QQ好友新浪微博微信

【原】可视化爬虫SPY | 01

Mixlab交叉学科 2020-11-07

展开全文

今天把我去年开发等可视化爬虫SPY整理了下，虽然它还在demo阶段，但我已经在经常使用来爬取一些数据了，用的过程还是比较方便的，区别于其他纯代码的爬虫工具。

SPY用的数据库是mongod，我用的数据库管理工具是

mongobooster。

本篇把SPY的基本使用流程介绍一下。

1、打开程序，界面是下图这样的：

右上图，我把目前的主要功能罗列了下，可以对照下；

一个爬取数据的过程，我分解为：

step1：

浏览目标网站，提取目标网站的网页结构

step2:

编写代码，这边用的是纯javascript，我封装了些简单的接口

step3:

输出爬取结果

2、接下来，我以百度的首页为例子，介绍整个使用流程，地址栏输入百度网址，然后点击刷新（下图红圈）（或回车）

3、打开后，界面如下图，会看到熟悉的chrome浏览器界面，默认应该是开启了chrome的调试工具（见下图）

如果没有自动开启chrome的调试栏，可以，点击菜单栏－－view－－toggle developer tools，开启（下图）。

4、用chrome的inspect功能。如果你学习过爬虫或者写过前端，那你应该很熟悉inspect功能，如果不熟悉可以查找chrome开发者工具的相关资料进行学习。

5、这边我要爬取首页的所有文章标题，发现都存在于一个

class="s-text-content"的div的h2里面。

6、切换到console栏，编写简单的js代码。

var doms=document.querySelectorAll('.s-text-content');
doms.forEach(function(dom,index){
var title=dom.innerText;
console.log(title);
});

回车，结果如下：

由于百度首页是异步加载的，这边我们把页面滑动到最下面，然后再运行下代码。

对于异步加载的页面，可以用spy的定时器功能。这个等回头我再补一篇教程。

7、把代码复制到step2里的输入框，然后运行。

var res=[];
var doms=document.querySelectorAll('.s-text-content');
doms.forEach(function(dom,index){
var title=dom.innerText;
res.push(title)
});
spy.getResult(res)

这边调用了我封装的接口，spy.getResult()，把爬取的结果保存为json文件。

默认调用接口后会自动保存至Downloads路径的Spyfari＋‘数字’路径。

如下图

可以点击下保存按钮，另存为其他路径。

－－－－－－－－－－－－－－－－－－－－－－－

一个完整的爬取流程就是这样。

SPY的下载链接:

https://pan.baidu.com/s/1kUXk1BT

密码: bxaq

暂时只有MAC版本

使用过程有任何问题请跟本号联系。

后续我会把

定时任务；

自动下载图片／文件；

接入mongod数据库；

等内容介绍完整。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： Mixlab交叉学科 > 《待分类》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

Mixlab交叉学科

关注对话

TA的最新馆藏

虚构的虚构的身份，首场#ComfyUI 脱口秀来了。
Gamma 获得了 1200 万美元的 A 轮融资，使用人工智能制作PPT。
DIY一个你的内容创建助手#perplexity-pages的灵感
大规模创意内容是如何被生产的？AIGC竞赛，属于创作者的舞台#Mixlab社区加持
独立网站，适合设计师/创作者的名片
如何DIY一个AI小镇？开源项目

喜欢该文的人也喜欢更多

热门阅读换一换