可以在新浪网盘里面批量获取搜索内容的地址及下载文件

xyzhao 2017-05-31

展开全文

1. [代码][Perl]代码跳至 [1] [全屏预览]

use LWP::UserAgent;
use HTML::TreeBuilder;
use LWP::Simple;
use URI;
use Encode;
@list_url=();
@download_url=();
foreach (1..16)#在新浪微盘里面搜索perl会有16个页面的结果
         {
         my $url = URI->new('http://vdisk.weibo.com/search/');
         my($keyword,$sortby,$page) = ("perl","default",$_);#对perl这个关键词做测试
         $url->query_form
         (
           # All form pairs:
           'keyword'  => $keyword,
           'sortby' => $sortby,
           'page' => $page,
         );
         push @list_url,$url;
         }

my $ua = LWP::UserAgent->new;
#open fh,">aa.txt";
foreach (@list_url)#对我们自己合成的目标url做循环爬取适合的链接
          {
          my $response = $ua->get($_);
          $html=$response->content;
           my $tree = HTML::TreeBuilder->new; # empty tree
           $tree->parse($html) or print "error : parse html ";
           @pdf_name=$tree->find_by_attribute("class","sort_name_intro") or print "error : cannot find pdf_name ";
                  foreach (@pdf_name)
                  {
                     $node=$_->look_down(_tag=>'a');
                     $a=$node->attr('href');
                     $b=encode("cp936", decode("utf-8",$node->attr('title')));
                     $c="$a\t$b";
                     push @download_url,$c;#把目标链接的url及文件名添加到下载列表
                  }
          }

foreach (@download_url)
          {
          @tmp=split;
          $html=get($tmp[0]);
          $html=~/fileDown\.init.*?\"url\":\"(.*?)\",/;#这个是关键，我找了半天才找到该页面的真实url地址
          $a=$1;
          $a=~s/\\//g;
          print $a;
          getstore("$a","$tmp[1]");
          }

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： xyzhao > 《编程》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

可以在新浪网盘里面批量获取搜索内容的地址及下载文件

1. [代码][Perl]代码 跳至 [1] [全屏预览]

1. [代码][Perl]代码跳至 [1] [全屏预览]