【原】接口测试 | urllib篇 18 urllib介绍

开源优测 2021-12-09

展开全文

概述

本文基于Python3分享urllib模块的源码分享，所以不要拿这python2来问我为什么找不到对应的源码。

在python3中urllib由以下几个模块构成：

parse
request
response
robotparser
error

下面对这个几个模块进行一一分享。

parse模块

parse模块定义了统一的接口并实现了URL解析和引用功能。

简单的理解：parse模块可以把url进行拆分或组合，下面我们看下示例：

#-*- coding:utf-8 -*-

__author__ = "苦叶子"

from urllib.parse import urlparse

if __name__ == "__main__":
    print("urllib url切割实例")

    url = "http://username:password@www.baidu.com:80/q=开源优测"

    result = urlparse(url)

    print("看下切割后的整体结果: ")
    print(result)

    print("协议: ", result.scheme)
    print("连接字符串：", result.netloc)
    print("端口号：", result.port)
    print("uri资源：", result.path)
    print("用户名：", result.username)
    print("密码：", result.password)

通过上述实例，我们将学会如何将url中各个属性进行切割出来。

对于parse模块其他的功能，本文就不一一演示了，请参见官网学习。

requset模块

这个模块可以说是urllib最核心的模块了，其定义了系列函数、类用于实现http/https相关协议功能。

下面我们看一个最问简单的应用实例，后续结合实际的API进行深入实例演示：

#-*- coding:utf-8 -*-

__author__ = "苦叶子"

import urllib.request

if __name__ == "__main__":
   print("读取www.首页的html源码")

   response = urllib.request.urlopen("http://www.")

   print("打印下结果")

   print(response.read())

通过运行上述代码，将会在console看到一堆的html源码的输出显示。

request模块有着非常强大的功能，后续专门开辟一篇文章来分享。