分享

如何使用“网站时光机”进行在线调查?

 吕杨鹏 2021-05-27

图片

“网站时光机”是深受调查记者们喜爱的一个在线调查工具,它可以保存不同时间段的网页内容,即使后来原始网页被删除或是被改动,你仍然可以查阅曾经的网页快照。在这篇文章中,“网站时光机”的负责人向我们介绍了它的使用技巧,包括如何批量抓取、比较网页不同版本的差异、查阅网页处境信息和使用 API 等。



互联网档案馆(The Internet Archive)是一个非营利的在线图书馆,它已成立了25周年,使命是“普及所有知识”(universal access to all knowledge)。它最出名的服务是“网站时光机”(Wayback Machine,网址:https://web.),它每天收到的请求数(包括查阅请求和存档请求)超过了10亿次,我目前也在管理着这项服务。


互联网档案馆(The Internet Archive)和它的子项目“网站时光机”(Wayback Machine)是非常重要的调查报道工具。
记者、研究人员、事实核查人员和公众每天都可以通过多种方式访问免费使用“网站时光机”。网上已经有不少文章介绍了这项服务,事实上,在 GIJN 的2020年年度调查工具盘点中,不少记者都将“网站时光机”列为他们最喜欢的工具之一。

以下我就简单介绍一下如何使用“网站时光机”进行调查。

将网址存档

如果你发布的文章引用了另一篇文章,而那篇文章被作者删除了或因为网站本身的问题导致无法访问,你又没有对这篇文章进行存档的话,它可能就再也找不到了——可千万不要让这种事发生在你的身上。

每天都有许多用户通过“网站时光机”的“保存页面”服务存档上亿个网址。任何人都可以提交想要保存的网址,如果你注册了免费账户,还可以要求抓取相关页面中的“外部链接”(outlinks),并通过电子邮件接收抓取情况的报告。

这里有个小技巧:如果你想批量保存网址,可以将这些网址都放在 Google 表格的 A 列,然后通过这里(https:///services/wayback-gsheets/)提交这份 Google 表格,之后这份表格的 B 列、C 列和 D 列将会自动被填上存档状态、存档后的地址还有这个网址之前是否已经被存档过。

还有一个存档网页的方法,是将相关网址发送邮件到 spn@,如果你在邮件主题中写上“capture outlinks”,那么这个网址的外部链接也会被保存。同样的,在抓取完成后,你会收到一封关于保存情况的电子邮件报告。

最后,对于精通技术的人,“网站时光机”也提供了应用程序接口(API),方便你集成到现有的软件工作流中,或者是新开发的应用程序中。例如,总部位于旧金山的技术非营利组织米丹(Meedan)就将“网站时光机”的服务整合到了它的“检查”服务中。米丹是一家通过开发软件来支持新闻业的非营利组织。

比较不同存档版本

你是否曾想比较两个不同网页存档之间的差异——也许是为了看看一个公司或个人是如何改变改变网页上的措辞的?您可以使用“网站时光机”的“查阅改动”(Change)功能来实现这一点。

要使用这项功能,只要在“网页时光机”的搜索框中输入任何已存档的网址,然后选择“查阅改动”就可以看到不同日期和时间的存档版本列表,我们会用不同的颜色等级来表示从一个存档网址到另一个存档的网址的变化程度。

接下来,你可以选择任意两个时间戳版本的网址,它们将会被并排呈现,有差异的文本会被蓝色或黄色突出显示。例如,以下案例就展示了一个英国前首相顾问多米尼克·卡明斯(Dominic Cummings)是如何试图重写历史的。

图片
“网站时光机”的“查阅改动”功能捕捉到了英国前首相顾问多米尼克·卡明斯是如何在他最初的文章(左)上添加秘密内容的(用蓝色标记)。

如果你想学习更多在线调查技术

5月31日(下周一)下午四点,我们邀请了在线调查大师 Paul Myers 举办了一场针对东亚记者的在线调查工作坊,他将会介绍更多“网站时光机”的高级技巧,以及如何透过搜索引擎缓存及其他技术存进行在线调查。

工作坊注册地址:

https://us02web./webinar/register/WN_Olr2heqpSfOpbyalJpGFtQ

图片


全文检索

因为存档网页内的文本还没有被索引,所以“网站时光机”还无法提供全文检索功能,这意味着你需要知道检索页面的具体网址才可以搜到相关页面。但“网站时光机”的工程师正在为特定档案库中的网页进行元数据索引。

使用 API

除了“保存页面”的 API(应用程序接口),“网站时光机”还有一些其他的API,例如查询网址是否已经被存档的 API。你可以在这里(https:///services/wayback-gsheets/)了解更多信息。

像大多数服务一样,“网站时光机”没有对API的使用频率设置正式的上限,但我们可能偶尔会采取节流措施。如果您在使用“网站时光机”时遇到任何问题,都可以发邮件或者在 Twitter 上发私信告诉我们,支持记者的工作是我们的优先事项。

了解存档网页的信息

我们意识到,背景和出处等信息对于更完整地理解相关网页的信息至关重要。因此,我们已经开始为存档网页添加处境横幅(context banner),以帮助用户更好地理解相关存档的信息。在存档网页已经被删除,或是它被一个知名研究机构提及的时候,这个横幅就会很有用。
图片

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多