分享

这个网站绕过了那道墙

 网罗灯下黑 2023-10-13 发布于河南

互联网上有很多符合互联网精神的项目,比如专门收录「知识」的 Z-library,比如专门记录「历史」的 Internet Archive。

前面 Z-lib 项目的功劳不必多说,后面这个互联网档案馆,可能年龄尚短的小伙伴并不了解。

简单说,这个项目唯一的目的就是备份,从 1996 年至今,已经收录了 8430 亿个网页快照。


但在这几年,Internet Archive 却成了国外诸多公司的被告,无他,虽然这个项目会根据网站 robots.txt 文件来规避风险,但因为这个项目够早、够全,难免涉及剪不断理还乱的版权问题。

再者,就是有付费墙的那些网站了,比如大名鼎鼎的「WSJ 日报」。

国内互联网平台大多是免费起家,诞生出的更多是惹人厌的微信扫码登录、手机号验证码登录。

很多小伙伴可能对付费墙这样,由纸媒向互联网转变过程中的产物,没那么了解。

但这些网站,对网页快照其实是又爱又恨的:

爱的是网页快照界的巨头——搜索引擎,对搜索引擎放开爬虫,有助于提升自己在搜索结果里的排名,妥妥的利益相关方。

恨的就是类似 Internet Archive 的第三方网页快照项目,毕竟把内容开放给谷歌,好歹能获取曝光,至于公益项目那就没半毛钱关系了。

平常我们上网冲浪的时侯,总能刷到搬运自国外的资讯,今天 WSJ 日报,明天彭社的,养活了不知道多少靠搬运起家的媒体。

但又因为付费墙的存在,哪怕你会那两手纵云梯之术,估计也只能找到国外网站搬运的二手、三手资讯。

那么今天,就让我们打破这个付费墙。

Archive.today

地址:archive.ph

Archive.today 类似前面的互联网档案馆,也是永久保存备份网页快照的项目,即使原来的网页消失了,也能通过这个网站查看原网页的内容。

比如 2013 年的知乎:

比如 2013 年新浪:

在旧网站快照备份方面,尤其是国内的网站,Archive.today 不如 Internet Archive 收录广,但在付费墙方面又是另一回事了。

比如需要注册订阅的 WSJ 日报。

把链接粘贴过来,就能看到绕过付费墙的文章了。

点进去就是全文啦。

当然,彭社当天的链接也能搞定。

唯一需要注意的是,不管是 WSJ 日报的新闻,还是彭社的新闻,在有付费墙的时侯,域名可能跟着小尾巴,如果 Archive.today 搜不到,把小尾巴去掉就好了。

为什么 Archive.today 能越过付费墙,Internet Archive 就不能越过付费墙呢?

翻了翻 Archive.today 站长的博客,大概意思是 Archive.today 不是泛爬虫,遵循 robots.txt,而是使用备份服务的用户做了代理,像谷歌那样获取了缓存。

换言之,如果网站做了动态的验证,是没办法绕过付费墙的,但对于 WSJ 日报、彭社这种国外的新闻平台,是可以的。

小标签

使用 Archive.today,操作上就是把待备份的域名发给网站,那我们能不能 DIY 一个书签呢?

以前不懂 JS 的话,或许就要放弃了,但现在,可以让 AI 帮你编写书签。

我在用 Archive.today 的过程中,发现这个搜索的URL,是「https:///+待搜索内容」。

喂给 AI 背景后。

把需求扔给 AI。

不仅有代码。

还有解释。

把代码 Copy 过来,收藏起来。

有了这个 JS 小书签,就可以在原网页上直接跳转了。

代码如下:

javascript:(function(){window.location.href='http:///' + encodeURIComponent(window.location.href);})();

结语

好了,今天要分享的就是这么个小玩意,以前刷资讯的时侯,总是被付费墙拦着,有了 Archive.today 在,完美解决。

链接和 JS 小书签都在上面了,有需要的小伙伴,快去试试看吧。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多