2.3.5 Filetype:搜索指定类型的文件 Google不但能搜索网页,还能够搜索许多不同类型的文件,包括PDF(Adobe Portable Document Format,Adobe便携文档格式)和Microsoft Office文档。filetype操作符可以帮助你搜索这些文件。更为特别的是,filetype也可以查找以特定文件扩展名结尾的网页。文件扩展名是URL的一部分,它位于文件名的最后一个句号之后,参数列表的开头的问号之前。一般来讲,文件扩展名表示了能够用何种类型的程序来打开文件,因此可以通过Google的filetype操作符搜索特定的文件扩展名来寻找特定类型的文件。表2.1列出了Google所搜索的主要几种文件类型,来源于www.google.com/help/faq_filetypes.html#what。 表2.1 Google搜索的主要文件类型
表2.1并没有列出Google能够搜索的所有文件类型。根据http://,目前已知有几千种文件扩展名。Google在它的数据库当中对所有的文件扩展名都有相应的例子!这意味着Google能够抓取任意一种扩展名的页面,但是同样需要明白的是,Google可能无法搜索那些目前还未知的文件类型。虽然表2.1列出了Google搜索的最主要的几种文件类型,但是你还可能想知道在几千多种文件扩展名之中,哪些在网络中是最为常见的。表2.2列出了可以在网络中搜索到的排名前25的文件扩展名,表中按该种文件类型的搜索结果数排名。 表2.2 前25种文件扩展名,来源于Google
自扩展名查询伊始,三年间的改变已经相当之巨。你看Google反馈的结果数有如此之多!查询结果的进步让人瞠目结舌。如果你对某些扩展名不熟悉,请访问www.,这是一个了解文件扩展名详细信息的一个相当好的网站,在这里,你可以了解到扩展名是什么,以及它们可以与何种程序关联。 提示 ext操作符可以用来替代filetype。filetye:xls查询与ext:xls等价。 Google会把它搜索到的每个文档都转换为HTML或者文本文件以方便在线查看。你可以从图2.11中看到一个Google搜索到并转换过的文件。
当你点击Google已经转换过的文档的链接时,会在页面顶部显示一个标题,提示你正在浏览该页面的HTML版。Google当然也提供了原文件的链接。如果你认为这看起来像是页面的缓存视图,那么你说对了。这是原始页面的缓存版本,同时也是转换后的HTML版。 虽然这些功能都很好,但是Google并不是完美的。请记住下面的几句话: Google并不总是提供页面转换版本的链接。 Google并不总能正确地识别出文件类型,即便对最常见的文件类型而言也是如此。 当Google抓取到一个以特定文件扩展名结尾的内容为空的文件时,Google仍会给出一个有效的文件以及把这个文件转换后的链接。即便一个空白的Word文档的HTML版本也是空白的,Google也会这么做。 当OR操作符和filetype操作符混用时,就会产生问题了。例如查询filetype:doc返回3900万条结果。查询filetype:pdf将返回25500万条结果。查询(filetype:doc | filetype:pdf)能返回33500万条结果,这相当接近于两个单独查询的结果数之和。但是,当你把前一个查询改为类似于(filetype:doc | filetype:pdf) (doc | pdf)时,Google将会找到44100万条结果:得到的结果甚至比原来的更少的限制查询的结果更多。我们发现对这个操作符使用布尔逻辑时,经常有问题,所以当你发现事情不对时,应该考虑是不是这种问题。 这个操作符可以和其他操作符及搜索关键字混合使用。 Google搜索背景知识 Google Hacking小提示 我们无法简单地来证明:真正的黑客总是活跃在灰色地带。filetype操作符给那些真正的Google黑客开辟了另一片有趣的天地。考虑查询filetype:xls -xls。这个查询不应该返回结果,因为所有的XLS文件的URL中都包含XLS,对吗?错。在本书写作之时,这个查询确实给出了7000多条结果,别的不说,至少这些结果都是相当有趣的。 【责任编辑:云霞 TEL:(010)68476606】
|
|