分享

2.3.5 Filetype:搜索指定类型的文件

 且看且珍惜 2014-05-09

2.3.5  Filetype:搜索指定类型的文件

Google不但能搜索网页,还能够搜索许多不同类型的文件,包括PDF(Adobe Portable Document Format,Adobe便携文档格式)和Microsoft Office文档。filetype操作符可以帮助你搜索这些文件。更为特别的是,filetype也可以查找以特定文件扩展名结尾的网页。文件扩展名是URL的一部分,它位于文件名的最后一个句号之后,参数列表的开头的问号之前。一般来讲,文件扩展名表示了能够用何种类型的程序来打开文件,因此可以通过Google的filetype操作符搜索特定的文件扩展名来寻找特定类型的文件。表2.1列出了Google所搜索的主要几种文件类型,来源于www.google.com/help/faq_filetypes.html#what

表2.1 Google搜索的主要文件类型

文件类型

文件扩展名

Adobe Portable Document Format

Pdf

Adobe PostScript

Ps

Lotus 1-2-3

wk1, wk2, wk3, wk4, wk5, wki, wks, wku

Lotus WordPro

Lwp

MacWrite

Mw

Microsoft Excel

Xls

Microsoft PowerPoint

Ppt

Microsoft Word

Doc

Microsoft Works

wks, wps, wdb

Microsoft Write

Wri

Rich Text Format

Rtf

Shockwave Flash

Swf

Adobe PostScript

ans, txt

表2.1并没有列出Google能够搜索的所有文件类型。根据http://,目前已知有几千种文件扩展名。Google在它的数据库当中对所有的文件扩展名都有相应的例子!这意味着Google能够抓取任意一种扩展名的页面,但是同样需要明白的是,Google可能无法搜索那些目前还未知的文件类型。虽然表2.1列出了Google搜索的最主要的几种文件类型,但是你还可能想知道在几千多种文件扩展名之中,哪些在网络中是最为常见的。表2.2列出了可以在网络中搜索到的排名前25的文件扩展名,表中按该种文件类型的搜索结果数排名。

表2.2 前25种文件扩展名,来源于Google

2004

2007

扩展名

搜索结果数目(大约)

扩展名

搜索结果数目(大约)

HTML

18,100,000

HTML

4,960,000,000

HTM

16,700,000

HTM

1,730,000,000

PHP

16,600,000

PHP

1,050000,000

ASP

15,700,000

ASP

831,000,000

CGI

11,600,000

CFM

481,000,000

PDF

10,900,000

ASPX

442,000,000

CFM

9,880,000

SHTML

310,000,000

SHTML

8,690,000

PDF

260,000,000

JSP

7,350,000

JSP

240,000,000

ASPX

6,020,000

CGI

83,000,000

PL

5,890,000

DO

63,400,000

PHP3

4,420,000

PL

54,500,000

DLL

3,050,000

XML

53,100,000

PHTML

2,770,000

DOC

42,000,000

FCGI

2,550,000

SWF

40,000,000

SWF

2,290,000

PHTML

38,800,000

DOC

2,100,000

PHP3

38,100,000

TXT

1,720,000

FCGI

30,300,000

PHP4

1,460,000

TXT

30,100,000

EXE

1,410,000

STM

29,900,000

MV

1,110,000

FILE

18,400,000

XLS

969,000

EXE

17,000,000

JHTML

968,000

JHTML

16,300,000

SHTM

883,000

XLS

16,100,000

BML

859,000

PPT

13,000,000

自扩展名查询伊始,三年间的改变已经相当之巨。你看Google反馈的结果数有如此之多!查询结果的进步让人瞠目结舌。如果你对某些扩展名不熟悉,请访问www.,这是一个了解文件扩展名详细信息的一个相当好的网站,在这里,你可以了解到扩展名是什么,以及它们可以与何种程序关联。

提示

ext操作符可以用来替代filetype。filetye:xls查询与ext:xls等价。

Google会把它搜索到的每个文档都转换为HTML或者文本文件以方便在线查看。你可以从图2.11中看到一个Google搜索到并转换过的文件。

 
(点击查看大图)图2.11 在搜索页面中的文件转换
注意到第一个结果在文档的标题前列出了[DOC]字样,并且也指出了文件格式为Microsoft Word。这表示Google把这个文件识别为一个Microsoft Word文档。除此之外,Google也提供了一个查看HTML版的链接,点击这个链接之后,你会看到该文件的HTML形式,如图2.12所示。
 
图2.12 一个由Google转换过的Word文档

当你点击Google已经转换过的文档的链接时,会在页面顶部显示一个标题,提示你正在浏览该页面的HTML版。Google当然也提供了原文件的链接。如果你认为这看起来像是页面的缓存视图,那么你说对了。这是原始页面的缓存版本,同时也是转换后的HTML版。

虽然这些功能都很好,但是Google并不是完美的。请记住下面的几句话:

Google并不总是提供页面转换版本的链接。

Google并不总能正确地识别出文件类型,即便对最常见的文件类型而言也是如此。

当Google抓取到一个以特定文件扩展名结尾的内容为空的文件时,Google仍会给出一个有效的文件以及把这个文件转换后的链接。即便一个空白的Word文档的HTML版本也是空白的,Google也会这么做。

当OR操作符和filetype操作符混用时,就会产生问题了。例如查询filetype:doc返回3900万条结果。查询filetype:pdf将返回25500万条结果。查询(filetype:doc | filetype:pdf)能返回33500万条结果,这相当接近于两个单独查询的结果数之和。但是,当你把前一个查询改为类似于(filetype:doc | filetype:pdf) (doc | pdf)时,Google将会找到44100万条结果:得到的结果甚至比原来的更少的限制查询的结果更多。我们发现对这个操作符使用布尔逻辑时,经常有问题,所以当你发现事情不对时,应该考虑是不是这种问题。

这个操作符可以和其他操作符及搜索关键字混合使用。

Google搜索背景知识

Google Hacking小提示

我们无法简单地来证明:真正的黑客总是活跃在灰色地带。filetype操作符给那些真正的Google黑客开辟了另一片有趣的天地。考虑查询filetype:xls -xls。这个查询不应该返回结果,因为所有的XLS文件的URL中都包含XLS,对吗?错。在本书写作之时,这个查询确实给出了7000多条结果,别的不说,至少这些结果都是相当有趣的。

【责任编辑:云霞 TEL:(010)68476606】

回书目   上一节   下一节

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多