第0、1关常见问题及解答

cwb929 2020-05-26

展开全文

第0关

问题1：

课程内容里有这么一部分遇到乱码时用 res.encoding定义编码时，课上说要这么去实现： requests库会对数据的编码类型判断不准确，就会出现一堆乱码，那我们就可以去查看目标数据的编码，然后再用res.encoding把编码定义成和目标数据一致的类型即可。那么这里目标数据的编码怎么去查询呢？

A：打开检查，在html源代码中，如下图

第一关

问题1：

最后的练习，自己在课程的环境里可以修改，但是怎么样在真正的网页上去修改添加一本书的描述呢？添加一个div啥的选了开发者模式感觉双击某一个要修改的区域只能改名字啥的添加不了东西呀？

A：具体问题具体分析，课程上的网页是为了教学而准备的，所以可以进行修改，但一般其它的正常网站，是不能修改的，毕竟服务是别人的，修改之后也是自行能看而已，修改的方式可以将html代码都爬取到一个txt文档，通过添加里面的元素块就可以了～

问题2：

把刚才请求到的HTML源文件复制粘贴，在vscode中保存为后缀为.html 的文档，它就是一个保存在你本地中的网页了。但是我这里发现写入本地的html 只有文本怎么样可以同时储存网页的文本和图片？

A：这里是无法一起爬取的，因为爬虫的本身就是对某一数据的单独提取，有些时候爬取所有本文，在运行html代码时，发现图片是无法显示的，这也是因为图片是属于服务器上的图片，并不是自己本地的电脑图片，所以导致无法显示～

问题3：

在这里，5.0对比4.0版本变化的部分是：（第9、19、29行）给h2元素标注了name属性，< section id='nav'>中的超链接标签(第3、4、5行)以这个name属性为标识，设置了跳转到这个标题的锚点；（第10、20、30行）给书名添加了超链接，可以链接到这本书的豆瓣主页；以及，（第12、22、32行）用<img>标签添加了书的封面图片。

https://localprod./python-manuscript/crawler-html/spider-men5.0.html

这里的< section id='nav'>中的超链接标签是什么？我并没有找到这个东西？