分享

python readability提取网页正文的正确使用方法

 sywjnew 2022-01-14

需要安装的模块:requests、readability-lxml

上案例:

import requests
from readability import Document
import re

url = 'https://www.guancha.cn/internation/2022_01_14_622209.shtml'
resp = requests.get(url)
resp.encoding='utf-8'
doc = Document(resp.text)
txt = doc.summary().replace('</p>','\n')    #doc.summary()为提取的网页正文但包含html控制符,这一步是替换换行符
txt = re.sub(r'</?\w+[^>]*>', '', txt)      #这一步是去掉<****>内的内容
print(doc.title())
print(txt)

结果:

美国终于开始重视N95和KN95口罩,议员打开一看:中国标准+中国制造


    【文/观察者网 王恺雯】在奥密克戎变异毒株的冲击下,欧美新冠疫情迅速恶化,美国单日新增确诊病例接连突破百万。
    美媒近日曝出,美国疾控中心(CDC)可能更新防疫指南,建议民众佩戴防护效果更好的N95或KN95口罩。美国总统拜登1月13日表示,下周将宣布如何向美国民众免费提供更高质量的口罩。
    本周,数百名美国联邦众议员已提前收到国会医生提供的KN95口罩,但让部分人尴尬甚至恼羞成怒的是,口罩上印着醒目的“MADE IN CHINA”(中国制造)。
本文系观察者网独家稿件,未经授权,不得转载。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多