搜索

分享

QQ空间 QQ好友新浪微博微信

Python 基础编写基于浏览器爬虫

zjshzq 2020-02-21

展开全文

文章来源： 重生信息安全

前言

爬虫程序分很多种，有指定区域文字图片内容爬取，有通过某引擎进行爬取大数据，下面简单的介绍下通过搜索引擎来进行关键词爬取数据

功能代码结构

1.主代码

2.配置文件

3.支持库

正文

先来看一下代码

此处必应调用的方式是，如下图：

https://cn.bing.com/search?q=1&qs=n&form=QBLH&sp=-1&pq=1&sc=8-1&sk=&cvid=9F6D9AA507274620BE1FFBABCD3E1A78

这个是需要的参数，也是必要的，通过先搜索随机数之后取该接口以及参数参数值

如果只是爬取这一个页面就不需要这样做了，但是我们爬取的是大数据，所以这个地方是要取下一页的元素

置响应代码，好让代码去自动处理下一页的关系。

继续看：

这个地方找的是我们一个配置文件，在最开始我们都有定义

Self.out ,相当于过滤，不对self.out 内的内容进行搜索，这个地方就相当于在调用这个 config.json 这个配置文件

编写json配置文件：

先总合上面，是不是这一个基本的模块就很清楚了，说的简单点，就是我先定义然后调用搜索接口，然后去调用并判断这个配置文件

继续往下走！

模拟请求头，这个就好比是一个标识，比如模拟手机的谷歌的火狐的等等。

下面就是逻辑判断

上诉总结：

其实很简单，我们把他集合并分解就是--该程序是通过必应搜索去进行搜索关键词，对搜索到的关键词取url 连接，结果并以txt 文本的方式去进行保存，我们所需要的是在 config.json 这个配置文件里面填写想要的爬行的关键词

代码简单阐述：

先定义需要使用的函数，通过函数去进行判断配置文件，并模拟 inter 请求,去进行进行之后，使用函数对其进行判断所爬出的结果，取域名地址，保存到文本进程完结

相关代码：

其实我们只要注意以下几点，就可以完全做到编写简单的爬虫程序：

1：程序框架（制定程序框架，要知道这个程序是做什么的需要什么东西） 2：按需编写（先对其进行定义，根据所定义的去进行编写，每定义一个，编写一个，这样会减少错误率）

结尾

大佬勿喷！来自一个python 菜鸟！该程序仅提供学习参考！！！

程序源代码 : https://share./5gxtVk3

微信公众号文章素材之分割线大全

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： zjshzq > 《网络》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

zjshzq

关注对话

TA的最新馆藏

2024年5月20日价格早报
2024年5月21日医疗晨报
[转] 对付报纸，他们是这么干的
[转] 最全理论工具：100个经典管理工具模型「1890页完整版」
[转] 这6大自媒体平台主要的内容分发渠道有哪些？你都清楚吗？
[转] 微信公众号的10种吸粉方法

喜欢该文的人也喜欢更多

热门阅读换一换