分享

关于使用计算机分析红楼梦作者的问题

 汉青的马甲 2014-12-25

关于使用计算机分析红楼梦作者的问题

    使用计算机对红楼梦进行统计分析,这些年来很多人都在做,但是结论大相径庭。有人说前80回跟后40回确系出于一人之手,有人说不对,二者差别很大,不可能出于同一人之手。
    较早进行工作的有美国的陈炳藻教授,1980年,他利用计算机对《红楼梦》前八十回和后四十回的用字进行了测定,并从数理统计学的观点出发,探讨《红楼梦》前后用字的相关程度。他将《红楼梦》一百二十回本按顺序编成三组,每组四十回。并将《儿女英雄传》作为第四组进行比较研究,从每组中任取八万字,分别挑出名词、动词、形容词、副词、虚词这五种词,运用数理语言学,通过计算机程序对这些词进行编排、统计、比较和处理,进而找出各组相关程度。结果发现《红楼梦》前八十回与后四十回所用的词汇正相关程度达78.57%,而《红楼梦》与《儿女英雄传》所用词的正相关程度是32.14%。由此推断得出前八十回与后四十回的作者均为曹雪芹一人的结论。
    1987年,复旦大学数学系副教授李贤平的工作引人注目。他在美国威斯康星大学的计算机前工作了数百小时,绘制了三百多张图纸,运用计算机技术中的模式识别法和统计学家使用的探索性数据分析法,对《红楼梦》进行统计分析、风格分析。他把《红楼梦》一百二十回本作为一个整体,以47个虚字为识别特征,对它们在书中各回的出现频率进行统计分析,输入计算机后将使用频率绘成图纸,根据图纸反映出的表明不同创作风格的星云状和阶梯状图形,提出了又一次震惊红学界的《红楼梦》成书过程新观点,证明了《红楼梦》各回写作风格具有不同的类别,各部分实际上是由不同作者在不同时期里完成的。李贤平认为:“《红楼梦》前八十回是曹雪芹据《石头记》增删而成,其中插入他早年著的《金瓶梅》式小说《风月宝鉴》,并增写了具有深刻内涵的许多内容。《红楼梦》后四十回是曹家亲友在曹雪芹全书尚未完成就突然去世之后,搜集整理原稿并加工补写而成。程伟元将全稿以活字版印刷刊行。高鹗校勘异文补遗订讹”。他的这一看法否定了被红学界一直视为曹雪芹作前八十回,高鹗续后四十回的定论。
    对于陈、李等人的结论,很多人提出了不同看法。例如华东师范大学陈大康教授,他也把《红楼梦》120回分成三组,每组40回,并统计了其中所含词、字、句等88个项目。他发现,这些词在前两组出现的规律相同,而与后40回却不一致;关于用字特点和句式规律,前两组也是惊人的吻合,而后40回则迥异。由此推断:后40回非曹雪芹所作(但含有少量残稿)。
    其他意见的文章我看了三篇。
    一篇是韦博成的《红楼梦前80回与后40回某些文风差异的统计分析》他选择5个情景指标,即花卉、树木、饮食、医药与诗词,统计出它们在前80回与后40回中出现的频数。对每一个情景指标,进行等价性检验,以便比较前80回与后40回在关注程度方面的差异。他的结论是:“《红楼梦》前80回与后40回在某些文风上确实存在非常显著的差异。”我个人认为他的这种分析受文本内容变化的影响很大,不足为据,这跟选用若干虚词的统计不能相比。
    另一篇是施建军的《关于以红楼梦120回为样本进行聚类分析的可信度问题研究》。此文稍有深度。他主要强调李质平的方法不可靠,而不可靠的根据是统计方法不能百分之百正确,不能给出区别不同作者的数据标准。但他自己也统计了《儿女英雄传》,也说跟红楼梦差别明显。作为对比,他还统计了鲁迅跟瞿秋白的两组文字,也发现了确有较大差别。他还强调,即便是同一作者,不同时期、不同内容,风格也不同。总之他虽然也承认有客观的特征差别,还是倾向不可靠。
    我个人认为,一个人的行文习惯,起码在一个时期内是会保持某些特点的。这就跟笔迹类似,是一个人的不自觉的“图章”。尽管有些书法家号称能写多种字体,但精明的笔迹专家还是能找出不同字体之间的雷同处。这就像纸币上的暗记,常人无法看到,必须依靠某种特殊技术。对于文本分析来说,电脑无疑是一种理想的统计分析利器,关键在于选择具有区别意义的特征。如上述选择情景特征,就不行,因为情景依赖所述内容,很难作为独立特征。我认为,选择某些虚词是一个比较好的办法。另一个方法是比较高频词语。2009年,我迷上了做输入法的词库,学会了整理文本的正则表达式,使用过几种文字统计工具,加上我从前学过的foxpro数据库,我发现我也可以进行简单的文本统计了,于是就试统计了一下红楼梦。我分别统计了:"的、我、很、怪、了、可、呢、是、一、之、个、们、这、吗、者"等15个字在各块中出现的次数。这些字是我随便选的。但也稍有考虑。我的结论是:“前80回与后40回是有差异,但是不能据此断定不是出于一人之手。”正如上述施先生说的,我也不能规定一个绝对的判断标准,只能大约估计。我只是一时好奇玩玩罢了,不是学术研究。但是我倾向于全书是一人做作,起码底本是一人所做。这是从阅读感觉来说的。我的一个教语文的老朋友也是这个观点。当然,对于我们普通读者来说,阅读不精不细,感觉更靠不住。
   
    2014年12月13日

附我2009年时写的一篇文稿,这篇文稿当年只在某老年人论坛上发过,没有人感兴趣。

不小心做了一下红楼梦的用字统计

  据《中国科学院院报》尹小林2007年的一篇文章说,"经统计,《红楼梦》全书总字数729636个(不含标点),用字4426个,使用频率最高的10个字顺序是:了、不、一、来、人、道、我、是、说、他。如果将全书分为三部分进行统计,其结果是:前40回,总字数为228915字,用字量3661个;中40回,总字数为266572字,用字量3655个;后40回,总字数为234149字,用字量3139个。前40回和中间40回,用字量相差甚小,差率约为1.6‰,后40回与前40回相比,差率约为166‰,差率达100多倍。"据此,有人认为,从用字习惯上说,后四十回不是曹雪芹作。
  我因为想研究加加输入法的词库,没想到,词库没弄懂,却统计了一下红楼梦的用字。因为怕统计时间长(实际根本没问题,14万多字一块的内容,机器运行时间不到一秒钟),我选择了三块各14万多字的内容:第一块,大约从第一回到第二十四回,143992字;第二块,大致从第二十四回到第四十四回,共146803字;第三块,大致从第八十一回到一百零一回,共147539字。因为是按每块5000行选的,字数稍有差别,不影响精度。注意到第一、二块在八十回前,第三块在八十一回后。分别统计了:"的、我、很、怪、了、可、呢、是、一、之、个、们、这、吗、者"等15个字在各块中出现的次数。这些字是我随便选的。稍有考虑,不细说明。
  我是用foxpro数据库的方法。因为我不会其他高级语言。但是我发现速度也很快。如果不算事先看书研究命令,以及实验试错的时间,单纯操作,用不了几分钟。
  统计的详细数据不想打字了,太麻烦。总之,多数字差异不大,差异大的有:很、是,分别增加约一倍和四分之一;可、之,分别减少四分之一和一半。从这方面看,前80回与后40回是有差异,但是不能据此断定不是出于一人之手。另外需要说明的是,我是以网上的简体电子书为蓝本,不知可靠性如何。
    本来还可以作更精确的统计,但是我是"乘兴而来,兴尽而返。"不想再深究了。得出什么结论并不重要,因为这方面自有专家在研究,我不过是打发无聊罢了,顺便练习一下脑筋,避免老年痴呆症过早到来。
    今天是世界大学生在哈开幕的日子。我外孙将参加花样滑冰的演出,共祝和谐,可惜不是在开幕式上,是在什么开赛式上。一会儿看看开幕式。奥运开幕式我都没好好看,大冬会因为在家乡举行,而且有我和外孙的奉献,所以可以看了。
              2009-2-18

0

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多