需要安装的模块:requests、readability-lxml
上案例:import requests
from readability import Document
import re
url = 'https://www.guancha.cn/internation/2022_01_14_622209.shtml'
resp = requests.get(url)
resp.encoding='utf-8'
doc = Document(resp.text)
txt = doc.summary().replace('</p>','\n') #doc.summary()为提取的网页正文但包含html控制符,这一步是替换换行符
txt = re.sub(r'</?\w+[^>]*>', '', txt) #这一步是去掉<****>内的内容
print(doc.title())
print(txt) 结果:美国终于开始重视N95和KN95口罩,议员打开一看:中国标准+中国制造
【文/观察者网 王恺雯】在奥密克戎变异毒株的冲击下,欧美新冠疫情迅速恶化,美国单日新增确诊病例接连突破百万。 美媒近日曝出,美国疾控中心(CDC)可能更新防疫指南,建议民众佩戴防护效果更好的N95或KN95口罩。美国总统拜登1月13日表示,下周将宣布如何向美国民众免费提供更高质量的口罩。 本周,数百名美国联邦众议员已提前收到国会医生提供的KN95口罩,但让部分人尴尬甚至恼羞成怒的是,口罩上印着醒目的“MADE IN CHINA”(中国制造)。 本文系观察者网独家稿件,未经授权,不得转载。
|