分享

桌面搜索软件的PDF全文检索性能-月亮实验室

 china100 2010-04-16

2009年2月24日

    由于我电脑里有几千份pdf文献和电子书,所以总想着通过最省事的方法快速找到自己需要的文件。但是文件数量太大,即使分类再好,在如此海量的文件中一篇 所需的文献比大海捞针还难。可自从有了桌面搜索(Desktop Search)以来,放牛娃才被从文件的海洋中解放出来。为了找到最适合自己桌面搜索引擎,我亲自尝试过了很多主流桌面搜索引擎,比如Google desktop,百度硬盘搜索,Windows search以及Copernic desktop search。还尝试了一些非主流的搜索工具,比如Minidx文件管理系统以及Windows自带的索引服务。经过长时间的试用和比较,有了以下一些体 会。

    我对桌面搜索的需求很简单,即能快速准确的对pdf文件进行全文搜索。比较发现各个桌面搜索软件对英文pdf文件的搜索均表现良好。但是对于中文pdf文 件Google desktop仍然会出现乱码的情况,Copernic desktop search索引中中文pdf几乎全是乱码,而百度硬盘搜索和基于foxit pdf ifilter的桌面搜索对中文pdf完美支持。

表 中是各个桌面搜索引擎的性能指标。

Google desktop 5.8

百度硬盘搜索2.7

Windows search 4.0

Copernic desktop search

Minidx 文件管理系统

Windows索引服务

内存消耗

约15M

约15M

约40M

约40M

5M

5M

索引速度

★★★

★★★★

★★★★★

★★★★

★★

★★★★

检索速度

★★★★

★★★★★

★★★

★★

★★

★★★★

全文搜索

前10000个分词

前5000个分词

全文(foxit pdf ifilter)

全文(可设置搜索深度)

全文搜索(foxit pdf ifilter)

全文搜索 (foxit pdf ifilter

预览

有预览(快)

快照(最快)

预 览(速度慢)

加亮预览(快速)

加亮预览(较慢)

中文pdf 文件

支持(偶尔有乱码)

非常好

非常好

乱码

非常好

非常好

综合评价

★★★★

★★★★★

★★★

★★★

★★★

★★★★

    可以看出,各个桌面搜索引擎各有优劣,选择谁,关键在于你的需求。或者可以通过一些方法打造一个自己喜欢的山寨桌面搜索引擎。

    如果硬盘中主要是英文pdf文件,而且电脑有1G以上的内存,那么Copernic desktop search是最好的选择,尤其对于几百页的英文电子书更是适用。Copernic desktop search最大优点是可以设置搜索深度,这样就可以实现真正的全文搜索引擎,而且其在预览中加亮关键词,而且保持pdf原文件的格式,看起来很舒服。缺 点是消耗系统资源太多,不支持中文。如果喜欢Copernic desktop search风格索引,但是又想搜索管理中文pdf文件,那该怎么办呢?我推荐使用Minidx文件管理系统,其功能类似Foxit Library,但是它基于微软iFilter抽取文本,因此和Windows search类似,如果需要检索pdf文件,首先需要安装pdf ifilter,推荐foxit pdf ifilter。Minidx的优点在于不仅可以进行全文搜索,而且可以建立书架,对资料进行管理。因为采用foxit pdf ifilter所以对于中英文均能完美支持。但是当pdf文件很大的时候,搜索速度比较慢。

    如果硬盘中英文文献均比较多,而且文件不大,那么百度硬盘搜索是最好选择。百度硬盘搜索速度快,占用内存小,中英文完美支持,其快照功能也特招人喜欢。 除了不能设置搜索深度外,几乎没有缺点,是所比较桌面搜索中的佼佼者,可惜百度现在似乎不重视这个产品了,已经快两年没有更新了。

    在所有桌面搜索软件中,Windows search 4.0的索引速度非常快,是最快的,这可能得益于foxit pdf ifilter。因为过去采用adobe pdf ifilter 读取pdf文件。Foxit pdf ifilter抽取pdf文件的速度是adobe的5倍多。同时Windows search 4.0 因为采用Foxit pdf ifilter,所以对中文的支持和百度一样出色。缺点是系统消耗太大。不过我们可以用Windows索引服务来替代Windows search。

    如果不想安装什么软件,又想快速的对硬盘中pdf文件进行全文检索和管理,有没有办法呢?当然有了!以 Windows XP为例,将系统自带的搜索功能稍加改造即可。
具体步骤是:
    1.下载安装foxit pdf ifilter作为pdf全文搜索的过滤器,它的优点是读取pdf准确,而且速度极高,几乎不占系统资源,微软已经正式采用foxit pdf ifilter了,其能力可见一斑。
    2.在“安装/删除Windows组件”中安装索引服务。然后按照以下方法设置:
    (1)“我的电脑”—右键—“管理”—…“索引服务”—新建编目(为了存放索引文件,最好选择一个固定盘,例如:如果pdf文件主要存放在D盘,那么将编 目选在E盘一个目录中,而且E盘不让索引。这样做可以避免循环更新索引,也可以减少磁盘的读取)
    (2)新建目录(所要索引的数据文件夹或者盘符);
    (3)设置搜索选项:“索引服务”—右键—“属性”—选择“生成摘要”; “索引服务”—右键—“属性”—选择“所有任务”—“调整性能(可以根据实际情况进行选择,以我个人为例,我搜索的频率比较高,因此我将索引速度选择最 低,而将查询速率选择最高,这样索引过程可以不影响搜索。)”。
这样等待索引完成后,即可随时检索pdf全文检索了。速度奇快,和Windows search相差无几,但仅仅占用约5M左右的系统内存。

    对于Google desktop 5.8,整体性能还算优异,5.8版本算是Google桌面搜索的一次蜕变,系统消耗明显降低,预览功能也是非常实用,美中不足是对于中文pdf的支持仍 然有些问题。
如果特中意Google desktop,那么我想了一个办法可以让解决其中文pdf乱码问题,那就是用foxit pdf ifilter来替换Google自己的pdf读取器,方法是先安装Google desktop,然后删除其安装目录下的pdftodoc那个文件;再下载IFiltershop 开发的Google desktop Plugin(IFiltershopGdsPlugin_Beta.exe), IFiltershopGdsPlugin的作用是可以让Google desktop采用微软的ifilter来抽取文件。再安装IFiltershopGdsPlugin时,会提醒填写需要用ifilter抽取的文件后 缀,只要填写“pdf”即可。这样Google desktop就可以快速的索引中英文pdf文件了。(如果无法下载到IFiltershopGdsPlugin_Beta.exe 可以在中留言索取)
    综合比较,百度硬盘搜索全面,适应范围广,适合常驻电脑中。为了管理文件方便,可以开启window索引服务,或者采用Minidx文件管理系统。 2010年1月17日更新,最新版Google desktop 5.9已经发布了,经过我详细测试,发现新版本进一步减少了内存,同时可以锁定搜索,更好的保护隐私。最重要的是极大的改善了对pdf文件的索引,出现乱 码的几率非常小了。不特别声明时,本站所有文章均为原创文章,转载请注:转自月亮实验

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多