大家好,我是辰哥 本文带大家学习网页解析库BeautifulSoup, 并通过python代码举例讲解常用的BeautifulSoup用法 最后实战爬取小说网页:重点在于爬取的网页通过BeautifulSoup进行解析。 在使用BeautifulSoup解析库之前,先简单介绍一下BeautifulSoup库并讲解如何安装BeautifulSoup库。BeautifulSoup的基础概念 BeautifulSoup支持Python标准库中的Html解析器,还支持一些第三方解析器。利用它可以不用编写正则表达式即可方便地实现网页信息的提取。 安装BeautifulSoup BeautifulSoup的安装其实很简单,下面介绍两种不同的安装方式(适用不同的操作系统)。 #方式一:pip安装 pip install BeautifulSoup4
#方式二:wheel安装 #下载对应系统版本的wheel文件:http://www.lfd./~gohlke/pythonlibs pip install beautifulsoup4-4.9.3-py3-none-any.whl
方式一,通过pip install BeautifulSoup4命令就可以直接安装; 方式二,需要通过下载whl文件,再去安装。 其下载链接为:http://www.lfd./~gohlke/pythonlibs。访问链接后下载beautifulsoup4-4.9.3-py3-none-any.whl。 上述内容讲解了获取到一个BeautifulSoup 对象后,一般通过BeautifulSoup类的基本元素来提取html中的内容。下表中列举了BeautifulSoup的基本元素:基本元素见表所示: 基本元素 | 说明 | Tag | 标签,用<>和</>标明开头和结尾 | Name | 标签的名字 | Attributes | 标签的属性 | NavigableString | 标签内非属性字符串 | Comment | 标签内字符串的注释部分 | 通过一个小例子,学习BeautifulSoup 库如何去解析网页并提取数据。首先构造一个html网页数据,再将其解析为BeautifulSoup 对象。完整代码如下: from bs4 import BeautifulSoup test_html = ''' <html> <body> <h4>学号</h4> <ul> <li>2112001</li> <li>2112002</li> <li class='blank'>2112003</li> <li>2112004</li> </ul> <h4>姓名</h4> <ul class='ul' style='color:red'> <li>张三</li> <li>李四</li> <li>王五</li> <li>老六</li> </ul> </body> </html> ''' # 把网页解析为BeautifulSoup对象 soup = BeautifulSoup(test_html, 'html.parser') 首先是导入BeautifulSoup库,然后构造一段html源码,最后解析为BeautifulSoup对象。下面通过几个例子进行讲解提取数据。提取数据 #提取首个h4元素 item = soup.find('h4') print(item) #提取所有的h4元素 items = soup.find_all('h4') print(items)
''' 结果: <h4>学号</h4> [<h4>学号</h4>, <h4>姓名</h4>] '''
区别: (1)find()只提取首个满足要求的数据 (2)find_all()提取出的是所有满足要求的数据 精确定位提取数据 # 查询class为blank的li标签 print(soup.find('li',class_='blank')) # ul标签 print(soup.ul) # 获取ul标签名字 print(soup.ul.name) # ul标签的父标签(上一级标签)的名字 print(soup.ul.parent.name) # ul标签的父标签的父标签的名字 print(soup.ul.parent.parent.name) ''' 结果: <li class='blank'>2112003</li>
<ul> <li>2112001</li> <li>2112002</li> <li class='blank'>2112003</li> <li>2112004</li> </ul>
ul body html '''
BeautifulSoup可以通过标签的class、id等属性去定位网页标签,此外还可以通过父级、子级关系去定位。内容:抓取不同类型小说的书名和链接 思路:爬虫抓取不同类型的小说网页,并通过BeautifulSoup去解析网页源码,提取出数据 链接:http://book./all/id/18.html 在浏览器中访问链接其页面如下: 这里的链接对应的是“奇幻玄幻”类型的小说,点击不同的分类小说,就可以获取到对应的链接。这里以“奇幻玄幻”为例,进行讲解如何去爬取该类别的小说,并通过BeautifulSoup去解析页面。以此类推,只需要更换不同的类型链接,就可以达到抓取不同类型的小说的效果。首先分析一下网页源码: 通过网页源代码可以清楚的知道页面的所有小说都在class为listboxw的div标签里,而每一本小说都在dl标签中,我们需要抓取的小说书名和链接在dl标签下的dd标签中的第一个a标签里面。完整代码如下: from bs4 import BeautifulSoup import requests # 设置代理服务器 headers = { 'User_Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36'} #请求连接 url = 'http://book./all/id/18.html' response = requests.get(url, headers=headers) if response.status_code == 200: # 转化为utf-8格式,不加这条语句,输出爬取的信息为乱码 response.encoding = 'utf8' # 把网页解析为BeautifulSoup对象 soup = BeautifulSoup(response.text, 'html.parser') for element in soup.find_all(['dl', ['dd']]): a = element.find('a') if a.string!=None: print(a.string) print(a.get('href')) 代码整体思路:先requests请求目标链接,获取到网页源码,然后通过BeautifulSoup去解析源码,最后提取出小说书名和小说链接。因为小说书名和小说链接都在a标签中,所以可以通过a.string去提取书名、a.get('href’)提取小说链接,最后输出结果。结果: 智行斗罗 /novel/235.html 历劫我是认真的 /novel/234.html 开局奖励七张人物卡 /novel/233.html 被召唤到异界的丧尸 /novel/232.html ........
本文汇总BeautifulSoup常用的基本语法,并结合Python进行举例演示 最后实战讲解BeautifulSoup在爬虫中的应用。
|