我的收书、读书、管书经验谈

hoper023 2007-04-11

展开全文

本文说的“书”，指的是可以在电脑上阅读的电子书，不是出版社出版的实体书。而且为了避免过多争论，本文虽然题目叫“经验谈”，但是对书的收藏标准、读书方法、图书分类等见仁见智的问题都没有涉及，只是介绍我在收书、读书、看书过程中曾经使用过的软件，其实应该叫“软件使用（或选择）经验谈”才对。如果您看到软件就头昏（人格保证我在此绝对没有任何贬义的意思），或者对电子书没有兴趣，请不必再浪费时间往下看。
本文所说的电子书，不仅包括EXE、CHM等“打包”格式，也包括HTML、TXT、PDF等“散装”格式。请不要和我争论什么格式的文件才叫电子书，我没有这种兴趣（没错，这句话就是专门说给某几位人士听的）。
本文谈到的所有软件均可用google搜索，当然下载的时候要注意版权。软件名称后面带星号的都是我的原创作品，可以直接到我的网站（http://stronghorse.yeah.net）下载。纯免费。
对所有软件的功能描述以我在本文中提到的版本为准。不排除以后软件功能会有改进，或出现功能更强大的其它软件，不过我毕竟没有见到。
身为软件开发人员，我很清楚花哨的界面需要付出什么样的代价，因此我在评价软件的时候，将功能、可靠性、使用方便性等放在前面，对界面是否漂亮、是否允许换肤等从不考虑，所以我介绍的某些软件可能与目前的潮流有些偏差。
如果您有更好的经验或软件，欢迎交流，我相信有交流才有提高。

目录
1. 前言
2. 收书
   2.1 网页下载
   2.2 文件下载
3. 藏书
   3.1 解压
   3.2 反编译
   3.3 整理
   3.4 压缩
4. 读书
4.1 读书软件
4.2 读书环境
5. 管书
   5.1 全文检索
   5.2 文件夹分类
6. 结论

1. 前言

在讨论如何收书、看书之前，先要明确一个问题：书是用来干什么的？对这个问题的回答不同，自然就会有不同的步骤，使用不同的软件。

我的回答是：书第一是拿来看的，第二是拿来用的，绝对不是拿来摆好看的。因此

对我来说，不支持书签的电子书或读书软件都没有什么意义，我的记忆力还没有好到能够记住每一本书我看到哪里了。
书是否好用，在我看来就是能否在需要的时候快速查找到我想要的内容。毕竟电子书已经“告别铅与火，迎来光与电”，有N多搜索软件可以作为辅助工具，但是目前还没有能够在EXE、CHM等打包格式电子书中进行批量查找的工具，因此为了达到“拿来用”的目的，我绝对不会收藏这些格式的电子书，书一到手就反编译再压缩成zip包。由此又带来对读书软件的第二个要求：能够直接读取压缩文件中的内容，HTML必须保持所有链接关系，支持加密zip/rar就更好。

下面描述的藏书、读书、管书过程，都是围绕这种看、用的目的展开。如果您不能认同我的观点，欢迎交流，我相信每个人都应该有最适合自己的目的和手段；如果连自己想要的是什么都搞不清楚，也可以先看看，说不定能有点启发。

2. 收书

这里说的“收书”，指的是如何将网络上的电子书，下载到本地硬盘。

在我看来，收书的对象可以分为两种：网页和文件。

所谓网页，指的是书的内容分成若干HTML页，然后有一个HTML页作为目录页，需要把全部HTML页面下载下来，才能获得书籍的完整内容。基本上所有在线阅读的电子书都是这种格式。

所谓文件，指的是电子书内容已经被打包成了一个文件，可能是zip/rar文件，也可能是exe、chm、pdf等，只要下载一个（分卷压缩文件可能是多个）文件，即可获得书籍内容。

这两种对象的下载工具可能不同，参见我写的短文《网络下载工具的分类》。

2.1 网页下载

批量下载HTML文件的软件有专门的分类名称，专业点的叫“离线浏览器”，因为原本只能在线浏览的内容，下载完后就可以在本地离线浏览了；通俗点就叫“搬网站工具”，因为使用这类工具，可以将您想搬的网站整个搬到您的硬盘上，只要您的时间、硬盘、带宽都足够。

离线浏览器推荐使用MetaProducts Offline Explorer （以下简称MOE），理由如下：

稳定，能够长期自动坚持工作。毕竟搬大型网站是一项很艰苦的工作，马虎点的工具很难撑住。
能够解析JavaScrip代码，从中发现动态生成的链接。
能够设定过滤条件，包括include、exclude条件。我个人认为这是MOE最好用的地方，但是在我接触过的一些人中，这也是他们最不愿意用这个软件的原因：不是人人都知道该怎么设置过滤条件的。大概也正是因为这个原因，某些专搬特定网站（如专门下载新浪读书频道）的软件才会受到欢迎。
能够将HTML中的链接地址，自动更改为相对地址。这个应该是离线浏览器的基本功能。
速度。MOE的作者为了研究如何用最快的速度下载文件，还专门开发了其它周边产品。

不过MOE也不是万能，有时候为了避免麻烦，也可以先用HtmlOrder*生成一个索引页，再用MOE下载；或者干脆将目录页上的链接全部拖到FlashGet里下载。

如果只是对某个网页感兴趣，我通常直接用IE保存全部，再用TextForever的“HTML整理”功能去掉无聊的广告链接等，然后用IE另存为mht格式。如果对TextForever的整理结果不放心，在另存为mht前也可以用FrontPage、Dreamweaver或UltraEdit32检查、编辑一下网页。FrontPage的特点是容易上手，不过有些网页的显示可能会乱，兼容性不如Dreamweaver。UltraEdit32则用来快速查看、编辑HTML、css、js等源代码，和某些人惯用的EditPlus差不多，不过因为EditPlus不支持十六进制编辑，所以我从来不装。

2.2 文件下载

文件下载工具很多，多半都属于断点续传类。下面用表格的形式加以说明。

名称	版本	说明
FlashGet	1.70	这个还用说吗？我最欣赏的是批量下载和站点管理功能。新版已经去掉了广告链接，纯免费，用起来更放心了。
FlashFxp	3.1.10	优秀的FTP客户端，主要是速度。
FtpList*	1.14	这个其实不是下载工具，不过在从某些龟速FTP下载时，可以先用它列出目录，从中抽取自己需要的部分，再交给FlashGet下载，要比直接用FTP客户端可靠一些。用它也可以列本地磁盘目录，虽然在某些机器上显示中文可能出现乱码，但是存盘后用记事本打开就正常了。
HtmlOrder*	1.10	这个也不是下载工具，而是MOE、FlashGet辅助工具：根据文件名前缀、后缀及中间的数字范围，自动产生HTML，包含所需的全部链接(前缀+数字+后缀)。与FlashGet的“添加成批任务”差不多，不过FlashGet只有一个参数，这个允许同时使用两个参数。生成的结果可以直接用MOE下载，也可以拖到FlashGet里下载。
NoteIcon*	1.20	这个同样不是下载工具，但是提供类似FlashGet的下载悬浮窗，某些含有特殊字符的链接直接批量拖到FlashGet里可能识别错误，可以先拖到NoteIcon里，然后再批量复制/粘贴到FlashGet。
IE	6.0	偶尔也有直接下载的时候吧？对于只有一个页面的网页，我一般先用IE保存“网页，全部”，再整理、编辑，然后用IE另存为mht文件。

3. 藏书

为了让书能够“拿来用”，我的藏书过程可以划分为解压、反编译、整理、压缩几个阶段。

3.1 解压

如果下载到的是压缩包，第一步当然是解压。

名称	版本	说明
BatchUnRar*	1.02	批量RAR解压工具。某些论坛上的分卷RAR会被重新命名为200512310423834.rar、200512311289544.rar之类的名字，用它可以直接解，不需要手工改文件名。对加密RAR能够记忆密码，相同的密码只需要输入一次就够了。
Zip2Dir*	1.31	批量zip解压工具，能够对输出的目录结构进行控制，对加密zip能够记忆密码，相同的密码只需要输入一次就够了。我多半用它来解压漫画，而且都是从资源管理器的右键菜单启动。
WinRAR	3.42	这个不用说了吧？
WinZip	8.0	现在真的很少用了。

3.2 反编译

反编译的目的，是将不能编辑、查找的打包电子书，包括EXE、CHM、EBX等，解包成原始的HTML、文本等格式。对反编译技术有兴趣的可以参阅我写的《常见电子书格式及其反编译思路》、《用JavaScript获取网页中的js、css、Flash等文件》，在我的网站上都有全文。

名称	版本	说明
UnEBook*	1.01	可能是目前最好的CHM、HLP、EBX批量反编译软件之一，纯免费。由于曾经连续下载到几个暗含木马的CHM文件，现在在用UnEBook反编译前，我绝不在本机上打开任何下载到的CHM文件。
miniKillEBook*	1.05	KillEBook的缩水版，对付基于IE内核的电子书还可以。
CtrlN*	1.04	IECracker的脱水＋减料版，对付基于IE内核电子书。
KillEBook		这个与各位无关。
IECracker		同上。
unEbookWorkshop	1.42	批量反编译EbookWorkshop电子书的专用工具。
Acrobat Professional	7.03	忘记那些杂七杂八的PDF2Word、PDF2Txt吧，这个才是将PDF转换成Word、txt的王道。7.0升级到7.02后打开PDF速度快了许多。
VMware Workstation	4.0.5	大名鼎鼎的虚拟机软件，可以在Windows 2000/XP下构筑一台虚拟计算机，安装其它版本的操作系统。对于从网上下载的EXE电子书，在虚拟机里打开、反编译可能会更安全些。

对于目前不能反编译的电子书，如用Desktop Author制作的EXE电子书，我一般看完就删，有必要保留的就根据内容用google查找原始素材网页，毕竟现在绝大多数电子书素材都来自网上。

3.3 整理

我收藏的电子书多半打算在电脑上看，因此保持原始的素材格式（HTML、TXT）就好，不过HTML中可能会有一些无聊的广告链接，或让我看了心烦的css设置，因此在收藏前，我都会删掉或替换掉不想要的内容。一般使用TextForever*的“文本替换”、“整理HTML”、“正则表达式”功能足矣。

而对于TXT文件，整理过程可能还包括文件合并、重新排版等工作。可能的步骤包括：
HTML转TXT->编码转换（繁体转简体）->段落合并->文本替换（或用正则表达式替换）。

有些书我也会在手机上看，整理过程要多一个打成TCR包的环节，可能的步骤包括：
HTML转TXT->编码转换（繁体转简体）->文件合并->打包成TCR。

以前我曾经在不同步骤使用过不同的工具，但是慢慢地就只用TextForever*——我所需要的全部书籍整理功能都已经集成在这个软件中了，而且支持批量处理、参数记忆。未来如果还会出现目前未知的整理技术，我相信也会被集成到TextForever中，只要这种技术真的对我有用。

3.4 压缩

素材文件整理完后，当然不可能就这么一堆放在那里，我都是每本书打包成一个zip文件。由于我都用MyReader*看书，看的时候也没有必要解压。

压缩普通电子书的时候我推荐用Winzip，压缩漫画的时候我只用Zip2Dir*，并且勾选“只打包不压缩”选项。

我不将我收藏的电子书打包成任何其它电子书格式（如EXE、CHM格式）的原因，我想我在本文前言和《常见电子书格式及其反编译思路》一文中已经说清了。而我收藏的所有书籍都只打包成zip格式，绝对不打包成rar格式（除非是不得已）的原因也非常简单：zip文件有目录表（Table of Contents，TOC），随机访问速度很快，而rar文件没有这种优势。至于漫画，都是jpg文件，压缩也压缩不到哪里去，还不如只打包不压缩，ComicsViewer*访问起来还快点。

4. 读书

4.1 读书软件

在电脑上阅读HTML、TXT格式的电子书，我以前曾经用过好几个读书软件，现在我只用MyReader*。虽然它还远远称不上完美（我手上就有长长一串改进计划），但是已经足够让我删掉其它读书软件了。另外MyReader*可以与Findstr*联动，实现文本搜索功能，包括zip/rar中的搜索。

对于漫画、影集等纯图片书，我都用ComicsViewer*看，支持加密zip/rar、支持书签，还允许加注释。

由于业务关系，很多外文资料我只能看PDF版的，这些东西我认为用Acrobat Professional阅读，要比用Adobe Reader方便，专业版就是专业版，不论是复制/粘贴，还是转存成Word格式都强多了。

在手机上读书，我只用MicroReader，有兴趣的可以参阅我写的《几个J2ME读书软件的比较与猜想》。

4.2 读书环境

在我看来，读书不是有了书、有了读书的软件就可以读的，尤其是对于长期阅读来说，环境是否合适不仅直接影响到阅读时的心情和效果，对阅读者的身体健康也有长期影响，不可不慎。遗憾的是，能够把读书环境的重要性上升到如此高度的人实在不多，下面说的东西其实我早就和不少人说过，但是能够引起共鸣的人实在没有几个，不过我还是忍不住要说，我是不是正在变成唐僧呢？担心ing...

在PC上读书，我认为好的读书环境应该包括以下几个方面：

合适的灯光，以保证显示器周围的光亮，不致于与显示器本身的光亮差太多，并且避免明显的斜射光源。这个比较容易解决，就算是葛朗台再世，我想对目前节能灯的花费应该也能容忍。
买一台您买得起的最好的显示器。我见过太多人在采购PC时，把显示器当作压缩预算的对象。在俺看来，这些人根本不把自己当人看，他们给自己的标价还不够那区区几百块钱：CPU慢点、硬盘小点将来都可以慢慢换，可是眼睛如果坏了，您打算上哪个柜台去换？
如果由于种种原因，您现在只能用普通CRT显示器（用液晶的可以忽略本条建议），那么即使显示器厂家已经承诺显示器符合十七八个国家的标准，俺还是建议您再花几十（15"）到100多（17"）元（中关村实际单块不含税采购价），买一个真正起作用的视保屏挂在显示器前面。我周围的人初听到这个建议时都不以为然，不过在实际试过我买的视保屏效果后，过半数的人都跟着去采购了一块。那么什么样的视保屏才算有效呢？我认为最起码需要满足以下两点：
1、必须是真正含铅的铅玻璃，金属丝网的绝对不能考虑，树脂的材料则实在难于确认。
2、必须带防炫光涂层。这个比较好鉴别：把带涂层一面对着您垂直放置，如果在视保屏上只能隐约看到您的尊容，马马虎虎就算合格了；如果能当镜子用，建议您还是趁早别买。某些品牌的涂层斜对着光能够看到兰紫色的金属质感反光（正对光看不到），可以当作是鉴别正品的标志之一。
别看只有两个小小的要求，能够满足的已经越来越少了，俺最后一次买的时候，花了两个周末走遍中关村，才在一个小摊位上找到满意的视保屏，假货率都快赶上潘家园了。
如果您已经换了液晶，建议不要用缺省的最高分辨率。以我的17"液晶为例，缺省最高分辨率是1280*1024，相当于19"CRT的分辨率，但是它的尺寸确确实实到不了19"，所以使用1280*1024的时候，文字看起来未免有点费劲，我还是设置为1024*768，看起来爽多了。
在装好显卡驱动后，将显示器的刷新速率调合适了。尤其是是CRT显示器，65Hz的缺省刷新率简直就是视力杀手。这个一般老手都知道，新手只会抱怨一看显示器就头晕眼花。
不论您买的是CRT还是液晶，在灯光调好后，将显示器的亮度、对比度调到您能够忍受的最低限。这个不仅能够避免太强光刺激造成视觉疲劳，而且能够延长显示器寿命：将来如果因为老化出现亮度、对比度下降，还可以调回去；如果一开始就看惯了出厂时设置的最大亮度、对比度，老化后就没法调了。注意这个调整要适当，别一听我说能省钱就死命往下调，调太暗对视力也不好。
除了硬件外，俺还习惯在软件方面做两个设置，这都是我经过长期人体疲劳试验得出的结论：
1、将Windows窗口背景色设置为对话框前景色，即灰色。
2、在IE的Internet选项的“常规”页，点“辅助功能”按钮，选择“不使用网页中的颜色”，然后确认退出。以后网页上的所有背景色都是Windows窗口背景色，即前面设置的灰色。不仅保护视力，而且能够突出内容。
基本上到目前为止，我接触到的人中能够理解以上两点的人没有几个，不过能够理解的人，都不是路人甲之类的角色，起码能够理解“五色令人盲”的哲学意义。
有人习惯在眼睛发干时点两滴眼药水，我更习惯含一颗鱼肝油胶囊：不仅比眼药水便宜（北京价），而且感觉更健康一些。
上小学时老师有没有告诉你要每天坚持做眼保健操？听老师的话吧，至少我到目前为止还在每天坚持做。

以上建议的效果如何呢？在您身上效果如何我不敢说，不过对我来说，每年365天，每天看屏幕的时间平均近10小时，已经持续10年以上了（家里的刚换成液晶近一年，在公司一直用CRT），但是到现在为止我还没有戴眼镜：左眼能够看到视力表最下面一行，右眼能看倒数第2、3行，这还是小时候斜坐着看电视造成的影响。

在手机上看书时的环境设置，我在《几个J2ME读书软件的比较与猜想》中已经说过，有兴趣的可以去看看。

5. 管书

电子书收多了，如何有效管理、有效使用自然就成了一个问题。

在软件界，相关的管理系统原先叫“文档管理”，后来叫“内容管理”，最近似乎“知识管理”这个词更时髦一些。由于业务关系，我不仅参与过企业级知识管理系统的研发、部署，而且我的同事中还有专人对知识管理系统进行研究，包括大名鼎鼎的Documentum、Interwoven、IBM等公司的产品。这些产品当然功能强大，不过软件报价动辄上百万，服务器一报一大堆，就算经过一再瘦身的开发版，也要服务器级PC才跑得动，所以相信除了象我等偶尔利用工作之便搭搭顺风车外，不会有几个常人消受得起。

专门针对个人的PC版电子书管理软件我也用过几个，甚至还自己写过。所有这些软件虽然在规模上与Documentum等企业级产品没法比，但是在原理上都是一样的：将需要管理的数据分为结构化数据和非结构化数据两个部分分别存储，然后建立相关索引，再提供检索、管理等功能。结构化数据包括文件的编目信息，如书名、作者、出版社、分类号、内容摘要、关键字、目录等，非结构化数据就是书籍文件本身。这种管理方式其实是从传统图书馆学来的：书籍按书库、书架存放，然后建立书籍卡片供人检索。

在我对企业级、个人级的知识管理软件都有所了解，并且用它们实际管理过一段时间自己的电子书后，我终于悟了：对我这样的超级大懒人来说，所有基于编目的管理都是胡说八道，只有全文检索才是真的。原因很简单：十本、二十本书的时候，我可能还会敲一敲编目；一百、二百本的时候，基本上就要不想了；到上千本的时候，根本就是在自虐：毕竟我不是以敲编目为业的文档管理员。而全文检索是不需要建编目的。

5.1 全文检索

在对本地文件进行全文检索方面，我也用过几个工具，包括Google等公司的产品，但是这些工具用了没多久就被我放弃了：这些工具虽然都说是针对个人桌面系统的，但是在原理上还是基于海量检索算法，因此要先对文件建立索引，然后才能基于索引进行检索。虽然建立索引这个过程是自动的，不需要我自己敲什么，但是一来索引需要消耗磁盘空间，二来要随时保持最新索引也不是件容易的事情，对系统性能总会造成影响，所以连Windows本身的索引功能都被我关了，这些软件的索引就更加不能容忍。

好在不需要建立索引的全文检索工具也不是没有，不过除了PDF外，其他能够被检索的文件多半都是文本格式，这也就是为什么我在前面说了半天要把电子书进行反编译，只保留文本或HTML的原因。

名称	版本	说明
FindStr*	4.69	可以在指定的文件夹（包括文件夹中的普通文件、压缩文件）中查找字符串，支持多关键字，碰到加密zip/rar时能够自动记忆密码，能够与MyReader*等软件联动，查看搜索结果很方便。
WinRAR	3.42	可以在指定的文件夹（包括文件夹中的普通文件、压缩文件）中查找字符串，不过感觉功能比FindStr弱，尤其是对加密zip/rar的支持。
UltraEdit32	10.10a	查找文本信息的速度超快，支持正则表达式，但是不支持在压缩文件中查找。
Adobe Reader Acrobat Professional	7.03	不论是Reader还是Professional，现在都可以对指定文件夹下的PDF进行全文检索，当然只能检索带文本信息的PDF，对纯图像的PDF没招。

5.2 文件夹分类

即使有了全文检索工具，也不可能把所有文件往硬盘里一扔就不管。如果按照合理的分类准则建立文件夹，将文件分类后再放入文件夹保存，不仅自己找起来会快一些，就是用工具检索，也可以缩小检索范围，缩短检索时间。

曾经有人建议用国家标准的图书分类来管理自己的图书，我的意见是：除非您自己就是专业的图书馆管理员，不然还是不要给自己出难题了，如此复杂的东东不是业余人士玩得动的。自己规定一个能搞懂的文件夹结构就好，没有必要大而全，但是拿到一本书后，自己一定要知道该放到哪个文件夹。

下表给出我自己的部分目录结构（二级以下从略），供各位参考。这个结构不一定是最合理的，但一定是我自己最熟悉的。另外分类可能显得有点粗，我的经验是：如果分得太细，有时候反而不知道该归哪类。

一级文件夹	二级文件夹
动漫游戏
儿童文学
科幻科普	科幻小说、科普专著
历史军事	西方历史军事、东方历史军事
时尚生活	爱好收藏、传统文化、机械交通、建筑美术、旅游风光、美食文化、摄影艺术、时文选读、书画艺术、数码影音、体育健身、性福生活、医疗健康、阴阳命理、语言学习
外国文学	名家名著、英文原作
武侠作品	名家名著、侠骨柔情、网络武侠
言情浪漫
幽默笑话
侦探小说
政经法哲	经济管理、论理法律、政治哲学、宗教哲学
中国文学	古典文学（传说演义、经史子集、散文笔记、诗词戏曲、香艳春宫、刑兵工礼）、现代文学