分享

编码与乱码

 进分法 2023-09-30 发布于广东

有时候文档大部分都是用UTF-8,但同时还包含了Windows-1252编码的字符。

用UnicodeDammit.detwingle()方法可以把这类文档转换成纯UTF-8编码格式。


newDoc = UnicodeDammit.detwingle(doc)

print(newDoc.decode("utf8"))


这个方法只能解决由Windows-1252引起的乱码问题,切在BS4中新增

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多