分享

代理吸附及验证教程

 phylixal 2014-01-28

在教大家如何找代理前,先要弄明白两个问题:

1.什么是代理吸附工具?
大家可以打开下面几个网址看看
http://www./html_proxy/30fastproxy-1.html
http://info./index/proxyshow.aspx
http://daili./

这些都是含有代理的网页,而且基本上每天都要更新几次,最简单的方法就是把这些代理都复制到一个文件里然后导入到花刺里面进行验证,但是这些网页里的代理大多不是标准的 ip:端口 格式的,很多都是ip和端口在一个表格的两个不同的单元格里面,一个一个复制起来相当的麻烦,要是有某些工具软件能够自动把这些页面里的代理按照标准的格式提取出来存到一个文件里那就方便多了。的确有这种软件,这种软件就叫做代理吸附工具。


2.
都有哪些代理吸附工具?它们的效果怎么样?
常见的代理吸附工具有
APL
GetProxylist
Proxy Leech
Z-Leecher
MagicFilter


其中 APL GetProxyList Proxy Leech只支持在线吸附,即导入要吸附的网址的列表,它们会自动下载列表中的网页并分析,最后将代理以标准格式提取出来
MagicFilter
只支持离线的文件吸附,即需要自己手动把那些含有代理的网页下载下来,添加到MagicFilter,MagicFilter就会分析并提取这些网页文件中的代理
Z-Leecher
支持在线吸附和离线吸附
另外,花刺也带有吸附功能,但是它的吸附功能不强

那么到底是在线吸附好一些还是离线吸附好呢?首先,离线吸附需要一个手工下载网页文件的过程,比在线吸附麻烦,但是,就教育网而言,我个人觉得离线吸附更加适合一些,因为使用那些在线吸附工具的时候,经常在它们自动下载网页的时候会超时,下载不成功,也就无法吸附出代理了。离线吸附虽然需要自己手工下载,但是我们可以用Flashget或者迅雷等下载工具批量下载网页,它们支持断点续传,能够更加有效的把页面下载下来 ,如果是电信或者网通想找代理的话,由于不存在下载页面超时的问题,用在线吸附工具会方便很多

另外,代理的页面的格式各不相同,这些工具并不是都能够把所有的网页上的代理吸附下来,它们都只能吸附部分网页的代理,我做了一个测试,测试的结果见下表,

 

实际代理数量

APL

GetProxyList

Proxy Leech

Z-Leecher

MagicFilter

http://www./

50

50

37

50

41

0

http://www./

100

0

0

0

0

95

http://www./

100

0

0

0

0

83

http://info./

8

8

8

8

8

8

http://proxy./

60

60

60

60

59

60

http://www./proxy/

67

0

11

67

0

67

总共

385

118

126

185

108

313

可见MagicFilter的吸附能力相对较强,但是它却不能够吸附其他软件都能够吸附的代理中国的页面,如果将Z-leecherMagicFilter的结果综合一下就基本上能够吸附绝大多数的页面了,但是实际测试中,Z-leecher的吸附时间很长

好了,不多说了,下面按照图示一步一步的来找代理吧~

首先,当然是准备工具啦~
下载下面的几个工具,点击链接下载

MagicFilter

ProxyThorn(花刺代理验证)

Z-Leecher.part1
Z-Leecher.part2

ProxyJusticer.part01
ProxyJusticer.part02
ProxyJusticer.part03
ProxyJusticer.part04
ProxyJusticer.part05
ProxyJusticer.part06
ProxyJusticer.part07

list.txt(吸附列表,内含教育网能够连的地址60多个)

四个软件都是绿色软件,解压即可运行,分卷压缩的请下载全部压缩包后解压任何一个再运行。另外,请自备Flashget或者迅雷这里以迅雷为例,Flashget的操作基本上一样

1.如图所示,打开迅雷,选择 文件-导入下载列表,将文件类型一栏选择为 全部文件(这点很重要),定位到刚刚下载的list.txt所在目录,选择list.txt 点打开,在选择要下载的url”对话框里直接点 确定

2.接下来,迅雷会询问你存储的位置,点浏览按钮 设定一个下载的代理网页所存放的路径,一定要记住这个路径,点击确定后,会询问你其他人物是否使用相同的设置,点是即可,这时迅雷便会开始下载那六十多个网页,这时如果你觉得很卡的话,可以点击迅雷上面的配置按钮,把连接下面的最多同时进行的任务数设小一点,一般设为二三十就不会很卡了,接下来等待迅雷把那六十几个页面下载完成,最后,很可能会有几个网页下载不下来,可以放弃这样的网页,如果某些网页下载了一半停了,可以暂停后继续下载

3.当网页下载完后,我们就要开始用工具吸附这些网页里的代理地址了,打开magicfilter,点源文件旁的浏览按钮,找到刚刚迅雷里设置的存放下载的代理网页的文件夹,按ctrl+a全选,点打开,然后在magicfilter的输出路径里填上吸附出来的代理列表所要保存的路径,也要记住这个路径,最后点leech proxy按钮,稍后便会弹出成功的提示。这时,进你设置的输出路径的那个文件夹,打开多出来的result_Proxy_IP.txt这个文件,里面就全部都是刚刚从网页里面吸附出来的代理的IP和端口了,magicfilter已经自动进行了去重复的工作,一般情况下能够吸附出来20003000个代理。result_Proxy_IP.txt这个文件就是未经验证的代理列表了,记住这个文件所在的位置。

4.一般情况下,magicfilter吸附出来的代理已经很多了,但是前面已经提到,它不能吸附proxycn网页里的代理,proxycn里的代理很多更新也很快,假如你想追求完美,可以再用Z-leecher来吸附一遍然后综合magicfilter的结果,通常这一步骤可以省略。使用Z-leecher吸附代理的方法如下。

打开Z-leecher,首先切换到Output Files标签。在"Save leeched proxies to"一栏下面填入吸附出来的代理列表所要保存的路径和文件名,记住这个路径,然后切换到“Leech File”标签,在空白处右键 依次选择 add files - leech proxies,在打开的窗口下面的文件类型一栏依然要选择 All files,找到第二步中存放下载下来的代理网页的文件夹,按ctrl+a选中全部文件后点打开,然后,在文件列表上右键,选择"Leech All",Z-leecher就会把自动吸附代理并把吸附的结果保存到前面设置好的文件里,Z-leecher的吸附速度比较慢。最后,打开前面设置的Z-leecher保存吸附结果的文件,全选里面的内容,复制并粘贴到第三步提到的result_Proxy_IP.txt这个文件的末尾,保存result_Proxy_IP.txt这个文件。综合MagicFilterZ-Leecher结果的result_Proxy_IP.txt文件里的代理个数一般都会在3000个以上。

5.接下来,就是利用ProxyJusticer这个工具来进行去重复和按地域进行分类的工作了

首先,打开ProxyJusticer,点击第一个导入代理列表图标,找到前面的result_Proxy_IP.txt这个文件并打开,然后点放大镜那个图标开始批注代理,几秒钟后,会显示批注的结果。留着这个窗口别关了。

6.最后一步,也就是吸附出来的代理的验证工作了,上面找到的那近3000个代理要是全部可用那就好了,但是事实上其中真正可用的大概只占总数的1%2%,那么怎么知道代理可用不可用呢,这就是代理的验证工作了。

在上一步里,我们用ProxyJusticer对吸附出来的代理列表按地域进行了分类。由于教育网无法访问绝大多数的国外网络,所以我们可以仅对大陆代理进行验证,但也不排除外部代理中有能够被教育网访问的代理,我们亦可对全部的三千多个代理进行验证。一般情况下,验证完300个左右的大陆代理需要2分钟左右,验证完全部的3000个左右的代理需要接近一刻钟。我们可以切换到ProxyJusticer对应的全部代理或者大陆代理的标签。ctrl+a全选,复制,粘贴到记事本里然后保存为一个文本文件。同样要记住这个文件保存在哪了

接下来就是验证的过程了,打开花刺代理,点击右边的导入按钮,找到刚刚保存的那个文本文件点打开,便导入了我们要验证的全部代理或大陆代理。这时点击花刺代理右上角的设置按钮,打开参数设置的窗口,先设置 连接和验证超时时间以及并发线程数,建议都设置成最大值,分别是15 30 100.

验证的很关键的一步就是设置 验证资源信息 了。假设你找代理是专门为了访问apple.com的。你可以点击右边的添加验证,验证资源名称随便输个apple.网址要输带http://的完整的网址,特征字符串是个关键了,它会直接影响到你所验证的代理的质量,一般来说,特征字符串都是设置为要验证的网址的源码里面的一个比较靠前的有特色的字符串,比如中文Google里的手气不错,www.hust.edu.cn里面的华中科技大学等等,apple.com我们就选择了它源码里面的Apple, Inc.当然,你以前没查看过要验证的网页的源码的话就不知道这个特征字符串应该填什么了,这时我们一般都勾选资源列表现有的国外网站来验证代理的可用性,比如列表里面Intel

完成后点确定,再点右上角的验证全部就开始漫长的验证过程了,当然如果你选择只验证国内代理的话还是比较快的。验证完成后,会自动按照延迟来排列代理。这时可以选中那些验证失败的代理并删除掉,留下那些验证成功的代理作为下次验证的代理的一部分。

最后,就是代理的使用过程了,选中一个代理,点击右边的 设为IE代理 按钮可以自动将该代理设为IE浏览器的代理,打开浏览器,输入一个国外网站的地址试试看,如果老显示的是错误信息就换一个代理再试,总会有可用的代理的。 其他浏览器在相应的位置填入代理的IP和端口即可,某些杀毒软件如AVG等也是在相应的位置填入代理的IP和端口即可。

总结一下~

找代理总结起来也就四个过程:下载、吸附、分类、验证。如果你只验证国内代理的话,所有时间加起来才10分钟左右,就能找到几十个能用的代理

希望各位热心网友行动起来,找到代理后不要吝啬,在白云网络资源版共享出来,方便大家

linchenlc@NetResource

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多