共 3 篇文章 |
|
Python爬虫学习系列教程 | 静觅。大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多。学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫感兴趣的童鞋有帮助,如果有机会期待与大家的交流。一、Python入门。目前暂时是这些文章,随着学习的进行,... 阅1962 转9 评0 公众公开 15-05-15 17:55 |
import org.apache.http.parms.add(new BasicNameValuePair("url", "http://weibo.com/ajaxlogin.php?String content = HttpTools.postRequest(client, url, parms);public static String getRequest(HttpClient client, String url) throws ClientProtocolException, IOException {public static String postRequest(HttpClien... 阅4435 转106 评3 公众公开 15-05-14 19:03 |
传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。private CrawlerUrl getNextUrl() throws Throwable { CrawlerUrl nextUrl = null;public List extractUrls(String text, CrawlerUrl crawlerUrl) { Map urlMap = new Ha... 阅38 转自vitoinch 公众公开 15-05-14 18:43 |