1、爬虫:Web Crawler 是按照一定规则抓取网页信息的程序。 爬虫获取的就是浏览器解析之前的源代码 自动,获取,提取,保存信息。 2、Url:链接 规则:http+:+//+主机名+/ HTTP:超文本传输协议 HTTPS:超文本传输安全协议 3、请求和响应 请求:对什么 做什么 Request Headers 响应:执行结果和数据Response headers 4:状态码 5、爬虫注意事项 基本规则--robots协议 道德准则 法律风险 |
|
来自: 满屋书香 > 《python学习》