搜索

分享

QQ空间 QQ好友新浪微博微信

Python | requests 正则表达式爬取猫眼电影TOP100

ZhouAndrew 2018-06-08

展开全文

彩推荐

本文转自：咸鱼普拉思(已经获授权)

前言

本文主要讲述使用python爬取猫眼TOP100榜的电影名称，评分，以及电影图片等，爬取的URL是：http:///bard/4。

安装类库

pip install requests

分析目标URL

打开http:///bard/4，观察页面规律。

可以看到页面上链接已经变为http:///board/4?offset=10，可以看的出来第二页链接新增了offset=10这个参数，这时可以看到排名20到30的电影信息，我们手动更改这个参数，就可以看到TOP100的全部电影信息了。

抓取单个页面

将url=http:///board/4，传入get_one_page()函数，可以获取目标地址的源代码。

正则解析

打开浏览器调试页面可以发现我们要抓取的所有信息被

标签包含，所以我们只要把

中所有要抓取的信息都用正则表达式匹配出来就可以了。

表达式如下：

排名：

.*?board-index.*?>(.*?)

图片：

.*?board-index.*?>(.*?).*?src='(.*?)'

电影名称：

.*?board-index.*?>(.*?).*?src='(.*?)'.*?name.*?a.*?>(.*?)

最后解析全部字段解析如下，同时我们还要对解析出来的数据进行结构化处理：

写入文件

写入文件，我们在上面结构化处理后的文件是构建的字典格式，我们可以通过JSON库，序列化输出到本地文件中。

构建分页链接

因为猫眼的偏移量是10,20，，，100，所以在构建的时候可以构建一个生成式传入到mian()函数当中。代码块如下：

脚下留心

请求的时候带上header，减小被服务器识别为爬虫的概率，算是反反爬的一种。

写在最后

1、之前写爬虫的时候往往一个函数涵盖全部的功能，之后维护起来自己都想抽自己，之后看了几个大佬的代码之后也学习到函数式编程的好处，把功能写成一个个函数方便之后维护，别人也能看的懂你在写什么。

2、还有就是多加注释，实习的时候实习的师傅告诉我最好在写代码的时候注释的量能占到总的百分20%，虽然并没有写到那么多，但是还是养成写注释的习惯，方便自己方便他人。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： ZhouAndrew > 《Python》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

ZhouAndrew

关注对话

TA的最新馆藏

搞 IT 运维，不仅要懂 Wireshark 抓包，还要会 Tcpdump 抓包
再见！支持向量机
MLP 一夜被干掉！MIT 加州理工等革命性 KAN 破记录，发现数学定理碾压 DeepMind
MNE系列教程1
Windows 中使用 Linux 的 5 种方法详解
总结！大模型微调（Tuning）的常见方法

喜欢该文的人也喜欢更多

热门阅读换一换