【建议收藏】教你一个最最最最最最简单的爬虫方法！

Four兄 2019-10-18

展开全文

作者：拉登 Dony

来源：拉小登(ID：ladengchupin)

程序员最难学的，不是 java 或者 c++，而是社交，俗称：撩妹。

在社交这方面，我算是程序员里，比较出类拔萃的了。

比如之前，做了《一个海报生成表格，让我从大爷变成了小哥哥》，我撩到了社群运营的小姐姐。

这已经是上个月的事情了，这个月我又一头扎进了爬虫的技术研究里了。

技术满足的反面，就是孤独空虚。

于是，我决定用爬虫再撩一次妹。。。

结果。。。

我成功了！！！

我把微博营销案例，全部爬虫到一个了 Excel 表格里。

700 多个运营分析报告，一键下载。

网站中的案例，要一个个下载 ↑

表格中的案例，哪个点赞多下载哪个↑

社群运营的妹子们，都快疯掉了！

秋叶 Excel 抖音女主：小美

微博手帐大 V 博主，有姜姜

社群运营老司机：颜敏姐

我跟你讲，如果我早两年会爬虫，现在的同床室友，还指不定是谁呢？！

01 什么是爬虫

爬虫，即网络爬虫。

是指按照一定的规则，自动抓取网络上的数据。

比如前面，自动抓取「社会化营销案例库」的案例。

想象一下，如果是人工浏览页面，来下载这些案例的话，流程是这样的：

❶ 打开案例库页面；

❷ 点击案例，进入详情页；

❸ 点击下载案例 pdf；

❹ 回到案例库页面，点击下一个案例，重复前面的 3 个步骤。

如果想要下载所有的 pdf 案例的话；需要安排一个专人，反复、机械式地下载，显然这个人的价值含量是很低的。

爬虫就是替代这种机械重复、低价值的获取数据动作，用程序或代码自动、批量完成数据抓取。

◆ 爬虫的好处 ◆

简单的总结一下，爬虫的好处主要有两个方面：

❶ 自动抓取，解放人力提升效率。

机械、低价值的工作，用机器来完成是最优方案。

❷ 数据分析，插队获取优质内容。

和人工浏览数据不同，爬虫可以把数据汇总整合成一个数据表，方便我们后续做数据统计、数据分析。

比如「社会营销案例库」中，每个案例都有浏览数、下载数；

想要按照浏览数排序，优先看浏览最多的案例，数据爬取到 Excel 表格中，使用排序功能，轻松浏览。

◆ 爬虫的案例 ◆

凡是数据，皆可爬。

掌握到了爬虫的技能，可以做的事情有很多。

❶ 幕布精选文章爬取。

幕布是一个梳理大纲的好工具，很多大咖用幕布写读书笔记，不用整本通读也能学习到要点。

没时间挨个浏览幕布的精选文章，可以一次爬取所有精选文章，梳理自己的知识大纲。

❷ 曹将的公众号文章爬取。

我很喜欢曹将，拥有我这个年龄欠缺的逻辑、归纳、表达能力，文章篇篇精华。

❸ 公众号文章爬取。

公众号太多，用手机阅读容易分心？

爬取到 Excel 里，先挑阅读最高的开始看。

另外还有，抖音播放数据、公众号阅读、评论数据，B 站弹幕数据、网易云评论数据。

爬虫+数据分析，给网络带来了更多的乐趣。

02 爬虫易，利其器

提到爬虫，大部分会想到编程技术；

python、数据库、beautiful、html 结构等等，让人望而生畏。

其实，基础的爬虫非常的简单，借助一些采集软件，点点按钮就可以轻松的完成。

◆ 常用爬虫软件 ◆

下面几个软件，是我爬取数据时用过的，推荐给大家：

❶ 爬山虎采集器

www.51pashanhu.com

简单易学，通过可视化界面、鼠标点击即可采集数据、向导模式；

用户无需任何技术基础，输入网址，一键提取数据。

这是我接触的第 1 个爬虫软件。

优点：

使用流程简单，上手入门特别好。

缺点：

❶ 导入数量限制。采集下来的数据，非会员只能导出时限制 1000 条。

❷ 导出格式限制。非会员只能导出 txt 文本格式。

❷ 八爪鱼

www.bazhuayu.com

无需再学爬虫编程技术，简单三步就可以轻松抓取网页数据，支持多种格式一键导出，快速导入数据库。

爬山虎无法满足我的需求之后，开始尝试更专业的采集软件，找到了八爪鱼。

优点：

❶ 采集功能更强大，可以自定义采集流程。

❷ 导出格式、数据量没有限制。

缺点：

流程有些复杂，新手入门学起来有些困难。

❸ 后羿采集器（推荐）

www.houyicaiji.com

智能识别数据，小白神器基于人工智能算法。

只需输入网址就能智能识别列表数据、表格数据和分页按钮；

不需要配置任何采集规则，一键采集。

自动识别列表、表格、链接、图片、价格、邮箱等。

这是我现在用的采集软件，可以说是中和了前两个采集器的优缺点，使用体验更好。

优点：

❶ 自动识别页面信息，入门上手简单。

❷ 导出格式、数据量都没有限制。

目前没有发现缺点。

03 爬虫操作过程

注意啦，注意啦，接下来是动手的环节了。

我们以「幕布精选文章」为例，用「后羿采集器」体验一下爬虫的快乐。

采集后的效果如下：

操作方法：

❶ 复制采集的链接。

打开幕布官网，点击「精选」，进入到精选文章页面。

复制精选页面的网址：https:///explore

❷ 后羿采集数据。

打开采集器后，点击【智能模式】中的【开始采集】，新建一个智能采集。

贴入幕布精选的网址，点击【立即创建】。

这个过程中，采集器会自动识别页面中的列表、数据内容，整个过程是 AI 算法自动完成的，等着识别完成。

页面分析识别中 ↑

页面识别完成 ↑

点击【开始采集】-【启动】，开启爬虫的旅程。

采集数据导出。

在数据爬取过程中，你可以点击【停止】结束数据爬取。

或者等待数据爬取完成后，在弹出的对话框里，点击【导出数据】。

导出格式，选择 Excel，然后导出即可。

❹ 使用 HYPERLINK 函数，添加超链接。

打开导出的表格，在 I 列添加 HYPERLINK 公式，添加超链接，一点打开对应的文章。

公式如下：

=HYPERLINK(B2,'点击查看')

到这里，你的第 1 次爬虫之旅就圆满地完成了！

04 总结

爬虫就像 VBA 里的录制宏，把重复的动作录制下来，替代人工重复操作。

今天看到的，只是简单的数据采集，爬虫的话题还有很多，很深入的内容。

比如：

❶ 身份验证。爬取页面需要登录。

❷ 浏览器检验。比如公众号文章，只能在微信里获取阅读数量。

❸ 参数校验（验证码）。页面需要输入验证码。

❹ 请求频率。比如页面访问时间不能低于 10 秒

❺ 数据处理。爬取的数据，需要提取其中的数字、英文等内容。

了解了爬虫的过程之后，你现在最想爬取的数据是什么呢？

你还想跟着戏精拉登老师学习更多？

欢迎你扫码加秋小 E 微信，加入秋叶 Excel 数据处理学习班，让众多大神老师、学员助教带你成为办公高手！

文章来源：公众号【拉小登】(ID:ladengchupin)，如需转载请联系原作者。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： Four兄 > 《python爬虫》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

Four兄

关注对话

TA的最新馆藏

[转] 居间合同违约金数额可依据居间报酬来认定（仲裁机构编辑出版的参考性案例中确定的审判规则）
[转] 发包方在建设工程合同签订及履行过程中的法律风险及防范
[转] 二胡换把的导指、首滑指和尾滑指的正确练习技巧
[转] 【金鹰视点】房地产律师：以房抵工程款的法律风险及控制
[转] 以房抵工程款的合同通常系实践性合同，房子过户前有反悔的风险
[转] 二胡教程第三章《空弦练习》每天必练

喜欢该文的人也喜欢更多

热门阅读换一换