fileexists：双管齐下提高效率

张春强2022 2017-08-26

展开全文

今天给大家介绍的是程序函数fileexists(“f”)，它用来检查一个文件是否存在，如果某文件f存在，则输出结果为1，不存在或f为文件夹，则输出结果为0。

比如，我们想检查E盘里有没有“爬虫俱乐部.txt”这个文件：

clear

set more off

cd E:/

set obs 1

gen v = fileexists('爬虫俱乐部.txt')

list v

输出结果为1，说明E盘里有“爬虫俱乐部.txt”这个文件。

我们再来检查E盘里有没有文件“600900_1.dta”：

clear

cd E:/

set more off

set obs 1

gen v = fileexists('600900_1.dta')

list v

输出结果为0 ，说明E盘里没有文件“600900_1.dta”。

我们进行网络爬虫时，如果要抓取的数据量很大，抓取的过程将会花费大量的时间，比方说抓取新浪上市公司公告，一共有将近240万条数据，那么有没有办法提高效率呢？我们可以结合fileexists()函数，使用两个stata同时运行，一个stata用来copy网页源代码，另一个stata进行字符串处理并提取出公告的内容，也就是说一个stata用来copy源代码，另一个stata进行判断，如果对应的源代码抓取了下来，就进行字符串处理并提取出公告的内容。

我们用抓取新浪上市公司公告为例，来讲解如何在爬虫过程中用fileexists()函数使copy网页源代码和字符串处理同时进行。

往期推文《朝花夕拾｜新浪网上市公司公告整理》中介绍过如何抓取新浪上市公司的公告链接，这里我们使用抓取好的两个上市公司的公告链接，分别是600900长江电力和600000浦发银行，并在链接后附加股票代码和编号，用分号隔开，保存为“E:/新浪公告/公告链接.dta”，如下图所示：

我们打开一个stata使用“公告链接.dta”copy这两个上市公司所有公告的网页源代码。

clear

set more off

cap mkdir E:/新浪公告/公告内容

cd E:/新浪公告/公告内容

use E:/新浪公告/公告链接, clear

levelsof v, local(levels)

foreach v in `levels' {

if ustrregexm('`v'','(.+?);') local url = ustrregexs(1)

if ustrregexm('`v'',';(.+?);') local stkcd = ustrregexs(1)

if ustrregexm('`v'',';(\d+)$') local num = ustrregexs(1)

cap copy '`url'' `stkcd'_`num'.txt, replace

while _rc != 0 {

sleep `=10000*uniform()'

cap copy '`url'' `stkcd'_`num'.txt, replace

}

dis '`stkcd'_`num''

}

我们将所有的公告链接放在一个局部宏`levels’中，对所有的公告链接做循环。使用正则表达式'(.+?);'把开头到第一个分号前的网址提取出来放入`url’中，使用';(.+?);'把两个分号中间的股票代码提取出来放入`stkcd’中，使用';(\d+)$'把第二个分号后的数字提取出来放入`num’中。

这里需要注意一点，local后面是不能接if选项的：

所以我们把if提前，相当于

if ustrregexm('`v'','(.+?);') {

local url = ustrregexs(1)

}

我们打开另一个stata来进行字符串处理并提取公告内容，我们用同样的方法将股票代码和编号放在局部宏`stkcd'、`num'中，使文件名一一对应。这个时候就轮到fileexists()函数出场啦！我们用fileexists()函数判断文件是否存在，如果不等于1即不存在，则休息2秒。程序如下：

clear

set more off

cd E:/新浪公告/公告内容

use E:/新浪公告/公告链接, clear

levelsof v, local(levels)

foreach v in `levels' {

if ustrregexm('`v'',';(.+?);') local stkcd = ustrregexs(1)

if ustrregexm('`v'',';(\d+)$') local num = ustrregexs(1)

while fileexists('`stkcd'_`num'.txt') != 1 {

sleep 2000

continue

}

clear

unicode encoding set gb18030

unicode translate `stkcd'_`num'.txt, transutf8

unicode erasebackups, badidea

set obs 1

gen v = fileread('`stkcd'_`num'.txt')

replace v = ustrregexra(v,'[\d\D]+

','')

replace v = ustrregexra(v,'
[\d\D]+','')

save `stkcd'_`num', replace

}

由于

在源代码中是唯一的，我们删除开头到的所有内容，然后删除从
开始到结尾的所有内容。

需要注意，由于公告内容行与行之间存在换行符，而正则表达式“.”不能匹配换行符与回车符，因此，我们使用含义相反的一组元字符\d\D来匹配任意字符（详见推文《元字符“.”真的能够匹配任意单个字符吗？》）。

这样两个stata同时运行就大大提高效率啦！

什么？！没看懂！！不要紧！！戳下面，听爬虫小将的详细讲解，也欢迎大家的批评指正哟！

以上就是今天给大家分享的内容了，说得好就赏个铜板呗！有钱的捧个钱场，有人的捧个人场~。另外，我们开通了苹果手机打赏通道，只要扫描下方的二维码，就可以打赏啦！

应广大粉丝要求，爬虫俱乐部的推文公众号打赏功能可以开发票啦，累计打赏超过1000元我们即可给您开具发票，发票类别为“咨询费”。用心做事，只为做您更贴心的小爬虫。第一批发票已经寄到各位小主的手中，大家快来给小爬虫打赏呀~

文字编辑：王明

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：张春强2022 > 《文件管理》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章

张春强2022

关注对话

TA的最新馆藏

数据资产入表、确权、评估、作价各环节注意事项解析
【文献速递第231期】TOP期刊关于中国信贷的三篇论文
【文献速递第231期】TOP期刊关于中国信贷的三篇论文
城投公司数据资产入表初步解析
城投公司数据资产入表初步解析
论文标题的结构要素与写作顺序

喜欢该文的人也喜欢更多

热门阅读换一换