python爬虫

xiongzhang2017 2017-10-27 发布于浙江

展开全文

——————————————-背景介绍———————————————
首先，这次想爬取的网站地址为：http://www./hd/zxts_44606/tsfk/

这里写图片描述

查看网站的源代码后，发现页面数据没有在源代码中，猜测应是js生成的。

检查元素后，刷新Network，可找到表格数据所在的URL：

这里写图片描述

复制这条连接，在浏览器查看后，其内容如下：
这里写图片描述

很好，接下来就是如何根据当前的链接得到下一页的数据信息，点击【下一页】，发现浏览器上方的URL却没有改变，依旧是

这里写图片描述

那么对【下一页】这个地方检查元素试试：

这里写图片描述

可以看到这里的翻页操作是使用【js】进行的。

虽然知道可以用selenium来模拟浏览器来实现点击效果，但是selenium也是出奇地慢，所以就不先使用它，而是尝试如下的方法。
——————————————-解决方法———————————————

google了之后，看到如下的资料：

这里写图片描述

看到这里，恍然大悟，与其在请求页面的时候选用post方式并携带data这里参数，那还不如就自己修改页面的链接：

不过感觉，直接在上面的链接上加上page参数试试，得到下面的链接：

这里写图片描述

哇！竟然成功了！对比原网站数据，可发现这里记录的信息都是和原网站一样的。

看来以后遇到用js翻页的网站，可以试试自己修改其URL，说不定也可以这样成功“弱智而高效”地翻页。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： xiongzhang2017 > 《python》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

xiongzhang2017

关注对话

喜欢该文的人也喜欢更多

热门阅读换一换