分享

VBA利用XMLHTTP抓取百度搜索数据结果并给出网页链接

 剩矿空钱 2020-08-12

大家好,我们今日讲解'VBA利用XMLHTTP抓取百度搜索数据结果并给出网页链接',这节内容是'VBA信息获取与处理'教程中第六个专题'VBA中利用XMLHTTP完成网抓数据'的第二节。

第三节 利用XMLHTTP抓取百度搜索数据结果,给出打开链接

在上一讲中我们实现了利用XMLHTTP的方法抓取了搜索关键词的数据,但是我们在网络查询的时候,往往不仅需要总的数据支持,还需要一些具体的数据,比如:查找到了哪些网址,标题是什么?如果我需要进一步的查看往往要需要打开的键联。这种数据如何抓取呢?这讲我就来实现这个问题。

实现的场景:如下图当我们点击右侧的按钮'利用VBA提取搜索关键词的数据,并给出下载的链接'时能够在下面的数据区域给出查询到的结果。

VBA利用XMLHTTP抓取百度搜索数据结果并给出网页链接

其实,这种处理也是工作中经常遇到的,可以对于我们浏览的网页进行适当的保存,在需要的时候再详细的查询。特别是把这些数据保存在EXCEL表格中,更让管理条理清晰。那么如何实现这个场景呢?我们仍是利用XMLHTTP来完成我们的工作。

1 应用XMLHTTP实现数据查询并提取网页链接的思路分析

我们先模拟一下直接在网页上查询数据,当我们输入一个数据点击回车的时候,服务器会反馈回数据在我们的浏览器上,我们需要对网页的源代码进行分析,

VBA利用XMLHTTP抓取百度搜索数据结果并给出网页链接

上面的截图就是我录入'VBA语言专家'点击回车后的在后台看到的源代码,你会发现,所有我们要写入EXCEL表格的信息都出现在了这里。

其中'标题'可以用innerText属性来获得,链接可以用href的属性来获得,真的非常容易,下面我们就要实现把多页查询的结果填到excel表格中,这个时候我们利用发送给服务器时要求头部检查一下查询的时间即可如下代码:.setRequestHeader 'If-Modified-Since', '0'

这样就可以实现我们的要求了。

2 应用XMLHTTP实现数据查询并提取网页链接的代码实现过程

下面我们把上面的思路转换为代码,如下所示:

Sub myNZA() '利用VBA提取搜索关键词的数据,并给出下载的链接

Dim objXMLHTTP As Object

Dim objDOM As Object

Dim objTitle As Object

Sheets('SHEET2').Select

Rows('3:3000').ClearContents

Set objXMLHTTP = CreateObject('MSXML2.XMLHTTP')

Set objDOM = CreateObject('htmlfile')

UU = Range('B1').Value

If UU = '' Then Exit Sub

Range('a2:c2') = Array('序号', '标题', '链接')

k = 2

For i = 0 To 50 Step 10 '五页

strURL = 'https://www.baidu.com/s?'

strURL = strURL & 'wd=' & UU

strURL = strURL & '&pn=' & i

With objXMLHTTP

.Open 'GET', strURL, False

'请求头部在发送HTTP请求时,把浏览器端缓存页面的最后修改时间一起发到服务器去,

'服务器会把这个时间与服务器上实际文件的最后修改时间进行比较

.setRequestHeader 'If-Modified-Since', '0'

.send

'将.responseText内容写入新objDOM对象的body

objDOM.body.innerHTML = .responseText

End With

'<h1> - <h6> 标签可定义标题。<h1> 定义最大的标题。<h6> 定义最小的标题。

For Each objTitle In objDOM.getElementsByTagName('h3')

k = k 1

Cells(k, 1) = k - 2

'元素a表示的是一个link链接

With objTitle.getElementsByTagName('a')(0)

'innerText 标签之间的纯文本信息

Cells(k, 2) = .innerText

'关联

Cells(k, 3) = .href

End With

Next

Next

Set objXMLHTTP = Nothing

Set objDOM = Nothing

Set objTitle = Nothing

End Sub

代码截图:

VBA利用XMLHTTP抓取百度搜索数据结果并给出网页链接
VBA利用XMLHTTP抓取百度搜索数据结果并给出网页链接

代码讲解:

1) Set objXMLHTTP = CreateObject('MSXML2.XMLHTTP')

Set objDOM = CreateObject('htmlfile')

上述代码建立了两个引用,一个是XMLHTTP ,一个是htmlfile ,之后将利用这两个引用完成我们的工作。

2)UU = Range('B1').Value 这是我们要查询的关键数据

3)For i = 0 To 50 Step 10 '五页 这是要查询5次利用i作为查询的页码

4) strURL = 'https://www.baidu.com/s?'

strURL = strURL & 'wd=' & UU

strURL = strURL & '&pn=' & i

上述代码是完成了我们要查询的请求URL。

5) .Open 'GET', strURL, False 使用OPEN 方法

6) .setRequestHeader 'If-Modified-Since', '0' 请求头部把浏览器端缓存页面的最后修改时间一起发到服务器去,服务器会把这个时间与服务器上实际文件的最后修改时间进行比较,以保障我们每次请求到的数据是没有重复的。

7) .send 注意请求头部的提交要在此命令之前完成

8)objDOM.body.innerHTML = .responseText '将.responseText内容写入新objDOM对象的body

9) For Each objTitle In objDOM.getElementsByTagName('h3') 在每个H3标签即标题进行遍历操作。注意<h1> 到 <h6>是标签标题。<h1> 定义最大的标题。<h6> 定义最小的标题。

10)With objTitle.getElementsByTagName('a')(0) 对于每个属性名称为为'a'的元素

11)Cells(k, 2) = .innerText

Cells(k, 3) = .href

提取标签之间的纯文本信息和链接

12)Set objXMLHTTP = Nothing

Set objDOM = Nothing

Set objTitle = Nothing

回收内存。

3 应用XMLHTTP实现数据查询并提取网页链接的实现效果

我们先来看看当我们点击运行按钮后的实现效果:

VBA利用XMLHTTP抓取百度搜索数据结果并给出网页链接

此时我们任意点击一个单元格的链接,就会转跳到下面的页面:

VBA利用XMLHTTP抓取百度搜索数据结果并给出网页链接

从而实现了我们最初的课题要求。

本节知识点回向:如何利用XMLHTTP反馈网页中的关键词的搜索结果和网页的链接?

本讲参考程序文件:006工作表.XLSM

VBA利用XMLHTTP抓取百度搜索数据结果并给出网页链接

VBA是利用Office实现自己小型办公自动化的有效手段,这是我对VBA的应用界定。在取代OFFICE新的办公软件没有到来之前,谁能在数据处理方面做到极致,谁就是王者。其中登峰至极的技能非VBA莫属!学习VBA是个过程,也需要经历一种枯燥的感觉,如太白诗云:众鸟高飞尽,孤云独去闲。相看两不厌,只有敬亭山。

'水善利万物而不争',绵绵密密,微则无声,巨则汹涌。学习亦如此,知道什么是自己所需要的,不要蜷缩在一小块自认为天堂的世界里,待到暮年时再去做自欺欺人的言论。要努力提高自己,用一颗充满生机的心灵,把握现在,这才是进取。越是有意义的事情,困难会越多。愿力决定始终,智慧决定成败。不管遇到什么,都是风景。看淡纷争,看轻得失。茶,满也好,少也好,不要计较;浓也好,淡也好,其中自有值得品的味道。去感悟真实的时间,静下心,多学习,积累福报。而不是天天混日子,也不是天天熬日子。在后疫情更加严峻的存量残杀世界中,为自己的生存进行知识的储备,特别是新知识的储备。学习时微而无声,利用时则巨则汹涌。

我记得20年前自己初学VBA时,那时的资料甚少,只能看源码自己琢磨,真的很难。20年过去了,为了不让学习VBA的朋友重复我之前的经历,我根据自己多年VBA实际利用经验,推出了六部VBA专门教程。

第一套:VBA代码解决方案 是VBA中各个知识点的讲解,覆盖绝大多数的VBA知识点,初学必备;

第二套:VBA数据库解决方案 数据库是数据处理的专业利器,教程中详细介绍了利用ADO连接ACCDB和EXCEL的方法和实例操作,适合中级人员的学习。

第三套:VBA数组与字典解决方案 数组和字典是VBA的精华,字典是VBA代码水平提高的有效手段,值得深入的学习,是初级及中级人员代码精进的手段。

第四套:VBA代码解决方案之视频 是专门面向初学者的视频讲解,可以快速入门,更快的掌握这门技能。

第五套:VBA中类的解读和利用 这是一部高级教程,讲解类的虚无与肉身的度化,类的利用虽然较少,但仔细的学习可以促进自己VBA理论的提高。

第六套教程:《VBA信息获取与处理》是一部高级教程,涉及范围更广,实用性更强,面向中高级人员。教程共二十个专题,包括:跨应用程序信息获得、随机信息的利用、电子邮件的发送、VBA互联网数据抓取、VBA延时操作,剪切板应用、Split函数扩展、工作表信息与其他应用交互,FSO对象的利用、工作表及文件夹信息的获取、图形信息的获取以及定制工作表信息函数等等内容。如需要可以可以WeChat: NZ9668

学习的过程也是修心的过程,修一个平静的心。在代码的世界中,心平静了,心情好了,身体自然而然就好。心静则正,内心里没有那么多邪知邪见,也就没有那么多妄想。利人就是利己。这些教程也是为帮助大家起航,助上我自己之力,我的上述教程是我多的经验的传递,大家可以根据以上资料1,3,2,6,5或者是4,3,2,6,5的顺序逐渐深入的逐渐学习。

VBA利用XMLHTTP抓取百度搜索数据结果并给出网页链接

每一分收获都是成长的记录,怎无凭,正是这种执着,成就了朝霞的灿烂。最后将一阙词送给致力于VBA学习的朋友,让大家感受一下学习过程的枯燥与执着:

浮云掠过,暗语无声,

唯有清风,惊了梦中啼莺。

望星,疏移北斗,

奈将往事雁同行。

阡陌人,昏灯明暗,

忍顾长亭。

多少VBA人,

暗夜中,悄声寻梦,盼却天明。

怎无凭!

分享成果,随喜正能量

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多