具有自动查找Web页面上所有链接的网络浏览器

sumstars 2014-11-19

展开全文

具有自动查找Web页面上所有链接的网络浏览器

1．概述
WEB的应用已经深入到现在社会的方方面面，作为一个软件开发人员或其他技术人员，都有可能遇见在Internet上查询大量的资料和信息的情况，一般来说用的最多的就是WEB的搜索Engine。当我们使用它查出大量的资料链接后，还有可能遇到更多的链接，但要自己去看他们是否是链接，那确实是一件很麻烦的事情。这篇文章就是来讲，如何用Delphi的MSHTML_TLB.pas来开发一个具有自动查找Web页面上所有链接的简单网络浏览器。我是在IE5的环境下写的这个程序，当然它可以向下兼容，如IE4。
2.关于MSHTML_TLB.pas
MSHTML_TLB.pas是Deliphi里面自带的一个类。它的含义是Microsoft HTML对象库。它不能够包含在所有的工程或程序中，原因是它实在是太大了，整个文件的代码共有241,899l行，那么长。大小约有12M。下面我们来看看它是如何加入到程序中的。
1．首先，我们打开Delphi，建立一个新的application。我把form1保存为MainFrm.pas，把application保存为FindLinks.dPR.
2．要想实现IE 的功能我们就必须要使用Microsoft HTML对象库（MSHTML type library.）如何实现呢？如图1， Project->Import Type Library:

然后你会看到关于"Microsoft HTML Object Library (Version 4.0)"的列表，如图2。
接下来可能会遇到一些问题。比如，在列表里面没有出现"Microsoft HTML Object Library (Version 4.0)"。这是为什么呢？那是IE的问题，由于IE版本的不同（我用的是IE5）。我建议最好是先查询你的计算机里面有没有mshtml.tlb这个文件。
在9x里面它是存在与C:\WINDOWS\SYSTEM目录里面，在2000里面它在\WINNT\system32目录里面。如果找到了这个文件，就可以用图2的click on the "Add..." button，然后选择mshtml.tlb，就可以了，如果没有找到它，那说明你没有安装IE或你的IE版本太低，请升级IE。
最后，当我们选择了倒入的库后，会等待一段时间，因为它实在是太长了，不过请千万不要因为是死机了。它会给自动查找提供很多帮助。
3．工程实现。
界面设计如下图：

使用以下组件：
控件命名 TEXT
TLabel lblURL 资料网址
TEdit edtURL http://www.
TButton btnFindLinks 查询连接
TListBox lstbxLinks null

4．程序设计
1．在Form1的interface部分，在uses后面加入，OleCtrls, SHDocVw, and OleServer.这些所应用的类，都是基于我们所要创建的TinternetExplorer的，它是IE的ActiveX的对象。但是这里还有其它的方式（TinternetExplorer）进行，我们采用TwebBrowser 控制在我们的form1。
2．我们在private里面加入如下代码：
FInternetExplorer: TInternetExplorer;
procedure WebBrowserDocumentComplete(Sender: TObject; var pDisp: OleVariant;
var URL: OleVariant);　　
最后用Ctrl-Shift-C完成类的声明。
3．在impelmentation后面加入如下声明：
uses MSHTML_TLB, ComObj;
要使用的类。
4．在form1的OnCreate事件中加入如下：
　　 FInternetExplorer := TInternetExplorer.Create(Self);
FInternetExplorer.OnDocumentComplete := WebBrowserDocumentComplete;
5．最后在form1的TForm1.WebBrowserDocumentComplete里面加入如下代码：
1. procedure TForm1.WebBrowserDocumentComplete(Sender: TObject;
2.　　 var pDisp: OleVariant; var URL: OleVariant);
3. var
4.　 Doc: IHTMLDocument2;
5.　 ElementCollection: IHTMLElementCollection;
6.　 HtmlElement: IHTMLElement;
7.　 I: Integer;
8.　 AnchorString: string;
9. begin
10.　 lstbxLinks.Clear;
11.　 // 在处理网页的时候发现它没有完全下载，将不会进行处理连接
12.　 Doc := FInternetExplorer.Document as IHTMLDocument2;
13.　 if Doc = nil then
14.　　 raise Exception.Create('Couldn''t convert the ' +
15.　　　 'FInternetExplorer.Document to an IHTMLDocument2');
16.　 // 夺取web上的所有元素。
17.　 ElementCollection := Doc.all;
18.　 for I := 0 to ElementCollection.length - 1 do
19.　 begin
20.　　 file://得到当前的元素
21.　　 HtmlElement := ElementCollection.item(I, '') as IHTMLElement;
22.　　 // 查找网页原代码中的LINK标记。
23.　　 // 发现其它的html标记 (例如： TABLE, FONT, etc.)
24.　　 if HTMLElement.tagName = 'A' then
25.　　 begin
26.　　　 // 在详细的link里面抓取innerText，innertext就是标记中<href=后面的东西>例如：

27.　　　 // 我们在web里面看见"西南民族学院"
28.　　　 // <a href="http://www."><b>西南民族学院</b></a>.
29.　　　　　 AnchorString := HtmlElement.innerText;
30.　　　 if AnchorString = '' then
31.　　　　 AnchorString := '(Empty Name)';
32.　　　 AnchorString := AnchorString + ' - ' +
33.　　　　 (HtmlElement as IHTMLAnchorElement).href;
34.　　　 lstbxLinks.Items.Add(AnchorString);
35.　　 end;
36.　 end;
37. end;

　最后我们在button（btnFindLinks）加入Onclick 事件：
1. // 在被浏览的web里面进行查询连接。
2.　 FInternetExplorer.Navigate(edtURL.Text, EmptyParam, EmptyParam,
　 EmptyParam, EmptyParam);
从以上的程序里面我们可以看出它的原理了，实际上是很简单的，看过html原代码的人都知道，使网页产生连接的代码就是：<a href="http://www."><b>西南民族学院</b></a>.
我程序的原理就是通过截取href后面的字符串，并在"""号后面截止。
然后把它保存为另外的字符串。然后通过TwebBrowser显示出来。
最后让我们来编译这个程序，的却，编译它很费时间，因为编译多达241,899l行的MSHTML_TLB.pas，是一件很麻烦的事情。其中还包括多达20多个的warning错误，但请放心这是MSHTML_TLB.pas的问题，与其它程序无关。这样一个小型的查找Web页面上所有链接的简单网络浏览器就出现在我们面前。本程序在IE5.0和Delphi6下编译通过。

点击分享给好友