问题是对某一网站或所有网站进行抓取,即下载所有网页。怎么实现呢? 先将问题最小化(转化的思想,转化为小规模,可以解决的问题):如果只有一个网页,怎么下载?问题变地很简单,只要用WebClient/WebRequest(甚至OpenFileDialog都可以)打开Url地址,将数据流存入本地存储器的文件(以相应的扩展名作为扩展名)即可。示例代码如下: string BoardStream;//下载内容存入此变量 Uri url = new Uri( “http://www.163.com” );//将下载地址转换为Uri类型 HttpWebRequest requestPage = ( HttpWebRequest )WebRequest.Create( url ); WebResponse response = requestMainPage.GetResponse(); Stream stream = response.GetResponseStream();//获取页面流 if( response.ContentType.ToLower().StartsWith( "text/" ) )//如果获得成功(即为文本格式) { BoardStream = reader.ReadToEnd();//将内容流转换为文本并存入变量BoardStream,即为所需要的数据流 } StreamWriter saveAPage = new StreamWriter( “C:/a.html” , false , System.Text.Encoding.GetEncoding( "gb2312" ) );//实例化写入类,保存路径假设为C:/a.html saveAPage.Write(Rich.Text);//创建写入任务 saveAPage.Flush();//写入文件(即清理缓存流) saveAPage.Close();//关闭写入类的对象 好了,这样便完成了一个网页的下载。最简化问题解决! 好了,下面的问题是,如何获得更多的网页?可以分两步: 1. 2. 循环进行上面两步即可以完成蜘蛛的全部功能了 ^_^ 要得到更多的地址,最好的办法是模拟人使用网页的办法。我们平时怎么浏览整个网站?无非是从主页依次点开各层链接而已。好了,思路出来了: 分析已经下载的主页文本,提取其中所有的Url地址信息,再依次下载得到的Url地址指向的链接即可。 现在网络上有不少Web2.0的网站了,这对解析Url地址有不小的负面作用。在Web2.0出现前,所有的链接都是在HREF后面出现的,而现在却没有了这样的关键字,地址可能出现于任何的关键字之后。怎么办呢? 经过大量分析,笔者发现:其实现在所有的链接还有一个共性,即都包裹在双引号(””)当中,这便对解析提供了极大的方便。笔者将链接分为两类: 1. 2. 好了,我想蜘蛛的所有功能已经实现了吧?嘿嘿^_^ 只是这样一个蜘蛛程序怕是效率万般低下,因为它只有一个线程,光解析下一层的链接都要花上不少时间,怎么办呢?当然是采取更优化的办法:多线程 具体实现见《蜘蛛/爬虫程序的多线程控制》一文(稍后在本Blog推出)。 |
|
来自: NaturalWill > 《待分类1》