Py之Beautiful Soup 4.2.0:Beautiful Soup 4.2.0的简介、安装、使用方法详细攻略 Beautiful Soup 4.2.0的简介Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。 Beautiful Soup 4.2.0的安装如果你用的是新版的Debain或ubuntu,那么可以通过系统的软件包管理来安装: Beautiful Soup 4.2.0的使用方法1、将一段文档传入BeautifulSoup 的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄. 然后,Beautiful Soup选择最合适的解析器来解析这段文档,如果手动指定解析器那么Beautiful Soup会选择指定的解析器来解析文档.(参考 解析成XML ). 2、BeautifulSoup包 功能比正则表达式很多,且要简洁明白一些。 Beautiful Soup库对比lxml库 这两个库主要是解析html/xml文档,BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、 Python标准库中的HTML解析器,也支持 lxml 的 XML解析器。 参考文献:Beautiful Soup 4.2.0 文档 beautifulsoup4 4.3.2 Beautiful Soup 4.4.0 文档 |
|