Python爬虫与Web开发库总结

python学习 2018-05-10

展开全文

Python爬虫和Web开发均是与网页相关的知识技能，无论是自己搭建的网站还是爬虫爬去别人的网站，都离不开相应的Python库，以下是常用的Python爬虫与Web开发库。

1.爬虫库

beautifulsoup4、urllib2、lxml和requests是学习Python爬虫必备的库，必须要掌握，当然有的同学说爬网页不是也可以用正则表达式吗，确实可以但是会很不方便,因为bs4和lxml都有便捷的接口,一般我们都是和正则结合使用，如果对速度有要求的话，建议用lmxp,它比bs4 速度要快很多。

2.Scrapy

爬虫的世界里面有没有懒人专用的框架，当然有啦,scrapy就是其中比较有名的，可以快速,高层次的web抓取网页，并从web站点的页面中提取结构化的数据

Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。最爽的就是它是一个框架，任何人都可以根据需求方便的修改，里面有很多类型爬虫的基类，如BaseSpider、sitemap爬虫等

3.Web框架

Django算是Python web框架里重量级的选手，主要是因为它提供了一站式的解决方案,包括缓存、ORM、后台管理、验证和表单等，使得开发复杂的数据库驱动的网站变的很简单,而且有非常齐备的官方文档。

Flask设计的理念跟Django完全相反，它是轻量级Web应用框架的代表。它只保留核心的功能，其他的功能都是可以变动，可以扩展的，你可以更加直接的需求灵活搭配。

Tornado全称叫Tornado Web Server,目前是Facebook开源的一个版本,它和其他主流的框架有一个非常明显的区别：就是非阻塞式服务器,速度非常快。特别对于长轮询，WebSocket等实时要求高的web服务来说是一个福音,基本可以和Node.js一决高下。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： python学习 > 《老男孩python开发培训》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

python学习

关注对话

TA的最新馆藏

10个好用的Python集成开发环境
运维人员到底要不要学习开发
运维老鸟谈职场生活交友经验
决定员工发展命运的34条重要行为规范
大龄IT工程师的出路在哪里
初学者如何学习运维

喜欢该文的人也喜欢更多

热门阅读换一换