利用Python去爬了某个资源网,主要是爬最新的资源。经过测试,只要是用相同模板的网站都可以爬。 其实很多网站都差不多,随便写个正则想爬什么都可以。我已经把脚本挂到服务器了,调用接口就可以得到我们爬取的内容。 我把自己的接口发出来,大家如果有需要可以用:(私信小编007获取大量python学习资料)
(希望不是很多人用,不然我9块5的服务器是挺不住的) 代码可以看看,都写有注释,有很多可以拓展的,有时间我也还拓展。 import requests,time,re #一共三个模块,没装的先装 #学习群号码前面548中间377后面875def zyw(): while(True): url='https://www./' #爬的网站URL html=requests.get(url).text #获取网站的首页源代码 re_url=re.findall(' (.*?) .*?'%(tiem,url,src,url,href,title,title) list_r=list_r+res #经过上面的拼接,这里是所有的内容加入一个字符串 f=open('./templates/zyw.html','w') #打开文件 f.write(list_r) #把字符串写入文件 f.close() time.sleep(3600) #这里是每隔1个小时去爬一次,测试时先注释掉 if __name__ == '__main__': zyw() #调用 效果展示: |
|