今年3月25日,美国计算机协会(ACM)宣布,来自麻省理工学院的教授Michael Stonebraker获得2014年度“图灵奖”(第N年宣布N-1年得主),投石冲破水中天,一些与数据处理相关的微信群中喷发一股图灵奖议论热,有位教授在微信中赞叹“说数据库界一共四位传奇大师,太伟大了“,接着有几位教授提议在今年的教学PPT中,加上相关科普,激励年轻的数据库人。朋友们鼓励我来一篇非传记的、活泼一点的人物故事。
没有诺贝尔, 我们有图灵. 诺贝尔没有机会登上时间机器向前穿越,未能预见到计算机科学对人类之重,于是计算机界没有诺奖。 没有诺奖,计算机科学也要发展,计算机人也要过日子,计算机界的Top贡献也需要Top奖,在需要一个能与诺贝尔相比较的人物作图腾的时候,天公抖擞,不拘一格,降下了图灵。 图灵多才多艺、也多故事、多传说:小时的神童,青年时的马拉松健将(有过名次);善于长跑的图灵,在科学上一趟冲刺,跑在了计算机之前,全世界还没人见过计算机的时候 ,他构筑了“理想计算机”,阐明了通用计算机的可行性,其前瞻性和深刻性,至今影响着计算复杂性理论;有人赞他是计算机科学之父、人工智能之父…., 在二战胜利70周年之时,人们更怀念和他的团队在破译情报方面贡献。 看多了穿越小说的图灵迷问:他为什么有那么多超乎常人的见识?莫非他是从先进的平行宇宙中穿越而来? 数据库界的图灵奖得主. 由图灵冠名的概念有 “图灵机”和“图灵测试”,最有名的是“图灵奖”。 从1966年到2014年,49届,共62名得主,按国籍分,美国学者最多,欧洲学者偶见之,华人学者目仅有2000年图灵奖得主姚期智(现在清华大学)。 62名得主分布在几十个小领域,排在前六的领域有:编译原理、程序设计语言,计算复杂性理论,人工智能,密码学,以及数据库(4名)。在某种意义上,可大致认为,前三个领域与计算机科学本身更密切一些,后三个领域与军民应用更密切一些。
一看就知是聪明人. 下图是数据库界的四位得主。本来,以貌取人是根据不足的,但这四位得主,都有一股学者范(“范儿”是一种感觉,很难严格定义),几位学者,虽近髦耋,眉宇中有一股英气,目光坚定自信,相信在年轻时,叫人一看,就知是聪明人。
按获奖时间排序 ,本文先介绍最早的一位。续篇再介绍后面的三位,争取在篇末都议论一下得主们给我们的启迪。
实践出真知—网状数据库,时势造英雄-巴赫曼. 今年90岁的查理士·巴赫曼 (Charles William Bachman),在49岁时候(1973年)获得了的图灵奖,是数据库界的第一枚图灵奖。
生逢其时,有文无库. 上世纪60年代,计算机系统还是有文(文件系统)无库(数据库)。数据处理比较艰难,那是一个正需要英雄,就出了英雄的时代;当世界正呼唤数据处理新技术时,年富力强(30多岁)的巴赫曼来了。 他从基层干起,曾在穿孔卡片机上开发程序,在第一线获得了丰富经验,后到通用电气公司,作程序设计部门经理,体验过文件系统处理数据的蹉跎、繁琐和低效,催生了他的数据库梦。
一代很爽的数据库. 他主持设计与开发了最早的网状数据库管理系统IDS(Integrated Data Store),在不惑之年(1964年)正式推出IDS。以今天的目光看,IDS是建立在虚拟内存系统上(实际在磁盘上),如果当时有如今的闪存盘SSD,不用改代码,就会爽的发飙 ;不过那时的人要求低,认为IDS已经很爽了。 所以,他被称为网状数据库之父。
格式化 VS 非格式化 , 磁盘 VS 磁带. 数据库带来的观念是革命性的。此前,计算机以文件为最小处理单位,处理非结构化的、粒度较大的数据;而数据库中是格式化的、粒度较小的数据(记录或字段)。 有格式和无格式数据的在查、插、删、改的速度方面有天渊之别,作为科普,只好用磁盘与磁带的差别来比喻: 非格式化数据中,查询某一数据项,有如在磁带上搜寻某首歌曲,从头搜索到尾,平均每次搜索磁带长度的一半;而在磁盘或光盘上,从目录(索引)找到那首歌曲的开始扇区,磁头在三维空间中跨界运动,磁带是线性带子固定的磁头,磁盘是极坐标的平面,三维的臂,直达目标,快多了。 对插、删、改操作,由于数据库缩小了处理粒度,提高处理效率,更是令文件系统望尘莫及。 网状数据库概念不太容易科普,当年。笔者讲网状数据库课程时,在黑板上画若干记录方块,若干指针链接,大方小方大小方,虚线实现虚实线,两个学时讲完;真的不像关系数据库那样容易科普。 记忆大师们说,要想记忆好,检索快,就要设法把知识点连成网状,建立联想,这就是网状数据库的思想,就这样简单,当然,从思想到设计,再到实现,就需要图灵奖得主的水平了。
报告也能占高地 IDS的成功,使巴赫曼有资格成为DBTG的核心人物之一,DBTG即数据库任务组,隶属于CODASYL(美国数据系统语言委员)。 为了数据库之梦,巴赫曼试图占领美国国家标准这一学术和技术高地,积极推动了DBTG报告。 由于各种原因,这个报告,最后没有成为美国国家标准,DBTG任务组坚忍不拔,相继推出一系列版本,如1971,1973、1978、1981年和1984年的修改版本。 尽管DBTG不是国家标准,也不是具体的数据库产品,而只是一个方案,但它提出的观念深入人心,所提出的三级模式,以及把数据库语言分成数据定义语言DDL和数据操纵语言DML的思路, 影响了几代数据库人和数据库产品,如IDMS、PRIME DBMS、DMSl70、DMSⅡ和DMS 1100,甚至,如今的关系数据库中,也能隐约见到它的影子。 这些成果确立了数据库的观念,在IT发展历程中,人们常常见到,被新技术“宠坏“了的用户,再也不愿回到旧技术的怀抱,在这个意义上,有人笼统地说,巴赫曼是(没有定语)数据库之父。
一点思考:需要多少论文才能得到图灵奖? 下面有个清单,列出了巴赫曼的重要论文16篇,因为他是1973年的的图灵奖,只列出了1962-1983中的一部分,平均每年不到1篇。 也许多年前 ,计算机界对论文级别,杂志级别的观念与现在不同;单从从数量上看,好像我们现在的杰青、优青、千人、百人快赶上或已经超过了巴赫曼,但是,能做出像IDS这样的货真价实、人用人爱的系统吗?能提出像《DBTG报告》这样改变观念、深入人心,能在数据库发展的几十年历程中留下影子的的“报告“吗? 也许,这种观念的不同,是图灵奖得主心中的那份灵犀。
(下篇:数据库界四位图灵奖得主之二,正在整理)
参考文献 巴赫曼1962-1983的部分论文.
相关博文
需要多少论文才能得到图灵奖 – 数据库界的四位图灵奖得主(1) 解决科学问题才是硬道理-—数据库界的的四位图灵奖得主(2)(4.19 发) 说明 原拟名《梅花香自苦寒来,关系库从磨难出》,以突出E.F.Codd经历的困难, 近日连开两个973项目交流会,换场期间,有朋友建议把最后的小标题升为大标题,以突出其贡献,也合今天973 基调;此外,第一次在北京机场发博文,匆忙之中,如有错漏,请及时提醒)。
功过从何数 1981年,58岁的E.F.Cood 获得图灵奖,这是数据库界的第二枚(也是久违了的)图灵奖。从1970年提出关系数据库到获奖,奋斗十一年,终成正果。如今,斯人已驾鹤西去,回望其成功之路,不禁想起了电视剧《西游记》取经成功后的插曲《青青菩提树》: "几多朝朝暮暮,漫漫云烟无数,..... 历经坎坷终无悔,未教年华虚度..... 面对大千世界, 功过从何数? ...... 好,现在就来数一数。 网上传统传记太多,这里想写一篇不很传统的、轻松一点的描述,须从数据库的型与值说起. 数据库的型与值 模型和模特儿在英语中是同一个单词model,其实,译音又译意的“模特儿”既通俗、又朴素,也最直白地说清楚了高雅的“模型”在数据库中的的含义,模型就是骨架。且看图: 上图中,左边的模特, 抽象一点,不过八两铁丝,一些手艺;披上了衣服后,加上想象,就有了的美感、就产生了价值或数值;用计算机专业的行话,左边是“型”,右边是“值”。 其实,模特不必升级为活生生的美女靓男,那不过增加了若干不必要的语义,商业的,心理的,展示的,诱惑的,等等,目的是 买家买家快掏钱,而过分的“型”,可能干扰对“值”的评价, 下图中 ,左上是一个层次库模型。左下是其对应的库值。它是上文提到的网状数据库模型的特例,只不过比网状模型上多了一条限制----每个节点至多一个父节点。 右边是关系模型,我们凡人,熟视无睹,看千遍,也不一定能看出是图灵奖的素材。 · 关系数据库的传奇 笔者有个奇怪的(穿越的)感觉,旋律优美的歌曲《传奇》适合用来赞颂E.F.Codd对关系模型的衷情和忠诚,试看下面的分段演绎: 《传奇》:“只因为在人群中多看了你一眼,再也没能忘掉你的容颜,…..”, 在E.F.Codd考查二维表格之前,成千上万人早就观察过,可人们都熟视无睹,擦肩而过; 唯有E.F. Codd,在1970年的某一天,在人群中多看了它几眼, 奇迹发生,“来电了”! 于是他投入心血,把对表格的那份情有独钟,发表在《Communication of the ACM》,其标题为 “A Relational Model of Data for Large Shared Data Banks”。 此文在在集合论的严格数学基础上,建立了关系数据库模型;知识框架不能成为模型,接下来一发而不可收,有一系列文章发表。通常: 数学模型 = 一个集合+一组符号+一组规律(如交换律、结合律)+ 一组性质(定理) 如群环域是从现实对象中抽象出来的代数系统(数学模型的一类)。关系模型,关系代数也是数学模型。 那几年,关系模型成了E .F. Codd 心中的那个“她”。今天,人们还可以追踪他和”她”的故事: 为了她的数学美,他用范式理论为她浓妆, 因为她憔悴,他用12条准则为她粉黛…… 《传奇》: “宁愿用这一生等你发现,…,今生的爱情故事不会再改变。” 接下来,E.F.Codd的路上,少有鲜花,多有荆棘。 1983年,笔者到美国学习数据库,导师为鼓励我们克服困难和坚持学术观点,说, E.F Codd 也曾遭遇到压力山大,以至于影响健康,还进过医院;又说,要学习他不怕困难,坚持自己认为正确的学术观点,最后冲出重围,…., 但语焉不详,可能是有一些难言的细节。由于人们不太愿意多写尴尬事,现在网上仅仅能查到一些蛛丝马迹。例如下列的”但书”: …..但是,有人认为,关系模型…..是理想化模型,…..不现实…,担心性能难以接受; 有人视其为(当时正在进行中的)网状数据库规范化工作的严重威胁…. 日子艰难了,就觉得时间慢,但E.F.Codd坚持着, 就像《传奇》唱的“宁愿用这一生等你发现,…,今生的爱情故事不会再改变….”。 又是五个春来秋去,终于迎来转机。 明争取代暗斗 1974年ACM牵头组织了一次有思想交锋的研讨会。 正方:E.F.Codd及其支持者; 反方:Bachman及其支持者; Bachman何许人也?就是上篇博文主人公,数据库界第一个(当时唯一的)图灵奖获得者。轻量级对重量级,E.F.Codd能坚持得住吗?悬念... 幸好,E.F.Codd足够坚强,坚持下来了。这次的辩论改善了作为新生事物的关系数据库的生存环境,推动了关系数据库的发展。 花香墙外,嘴仗结束,新技术的美妙吸引了新的IT人;虽然,知识有产权,但本质上,知识是人类共创共享的(当然,在一定法规下)。 世界上不乏有眼光,有胆略的人,拉里.埃利森及其团队就是典型,他们认定关系数据库的前景,在1977年建立一个新的小的公司,实现了第一用商用关系型数据库管理系统,后来发展成为Oracle。 当墙外花香日益浓厚,大赚其钱的时候,IBM才发现自己有点亏,才承认关系数据库的确好,急起直追研发DB2等等。 以后的事实表明,关系数据库易学易用,基础坚实,理论丰厚,用户不需知道存储结构细节(用今天关于“透明”的时髦术语,有结构透明性),终于让网状数据库和层次数据库(保留了在历史地位)退出了历史舞台,RDB登堂入室,成为现代数据库产品的主流。 亲历过对比,才有发言权 在关系数据库还没占绝对优势的岁月里,笔者参加过几个网状数据库和层次数据库的应用项目开发,几年的编程生涯,熬夜多,得意少,磋磨多,顺风少;因为最终应用是给非计算机专业人员用的,写了很详细的说明书,最终用户也不是很轻松; 后来那些程序,都移植到关系数据库了,相关人员用后,高兴得要唱“解放区的天”。 生不逢时还是官僚主义? E.F.Codd是IBM的人,做的是IBM的成果,IBM 启动了关系数据库验证项目System R, 但没有优先的支持,一直到1980年System R才作为一个产品正式推向市场。有人分析System R产品化缓慢的三个原因: IBM重视信誉和质量,为尽量减少故障,所以慢(精工出细活); IBM的官僚主义,错失了一次发展机会。(到处有官僚主义,官僚主义有时也成为检讨中的替罪羊); IBM当时正改进层次数据库产品,如果把层次数据库IMS比喻为周瑜,把关系数据库比喻为诸葛亮,所以有点像(与传统 略有不同)“既生亮,何生瑜?” 所以关系库在IBM内生不逢时。 数学美进入了数据库 E.F.Codd的理论 给数据库领域带来了数学美; 例如,用于函数依赖推演的Armstrong 推理竟然是Sound(可靠)且完备(complete)的!, 不少数学系的博士生在寻找博士后岗位时,选择了数据库。 又例如,用于设计一个好模式的规范化理论,从一阶范式到三阶范式,很快变成了程序,在实践中收到欢迎;而且,还有 4阶、5阶,…,N阶范式,吸引人的魅力在于,不知还有多少可探的宝藏,不知将有多少博士和副教授在这里成长! 一大批数学人才转业到数据库理论方向,一时间,关系数据库理论人才济济,风生水起,成果累累.... “过度追求数学美”不是Codd惹的祸。但是,过度追求数学美的坏习惯也趁机进入了数据库领域(或计算机领域),有人研究了规范化理论的5NF、6NF,据说还有(毫无用处的)7NF、8NF、9NF ! 在私下议论时,同行们还批评过若干过度追求数学美的例子(不适合上网)。 计算机科学为计算而生,为计算而发展,是实践性很强的学科。 E.F.Codd的数学工底很好,但他十分强调实践,强调应用;(可能在1974年那场ACM组织的大辩论中,他也受益于反方强调应用的观点)。 综观他的生涯,可以确定,“过度追求数学美”不是Codd惹的祸。 解决科学问题才是硬道理。上世纪70年代,关系数据库将生未生,数据处理领域遇到了下列科学问题: (1) 网状数据库后的下一代数据库是什么,数据库向何处去? E.F.Codd回答:下一代将是关系数据库模型,并用集合论的语言给了坚实的基础和眼睛的描述; (2) 如果用关系数据库,什么是好的关系数据库模式?怎样设计一个好模式? E.F.Cod及其跟随者给出了规范和理论和一系列设计好模式的算法: (3)怎样使关系数据库管理系统多、快、好、省? E.F.Cod给出了十二条准则,及若干研究。一大批追随者办公司,提方案、作设计、写程序,实现了关系数据库系统。 三个科学问题的提出和解决,当然不是E.F.Codd一人的功劳,但他是斗士、是先锋,在其中起了关键作用;图灵奖给他,正当其人,实至名归。 上篇博文问,多少论文才得得到图灵奖,Bachman的例子说明,图灵奖与论文篇数没关系,或没多大关系; 而E.F.Codd的例子说明,想得图灵奖,提出科学问题、凝练科学问题、解决科学问题才是硬道理。 想借用牡丹之歌 如果某一天,我和我的朋友们,有机会到E.F.Codd 墓前吊唁,怀念数据库界的这位前辈大师,我想在《牡丹之歌》中抽样地选出几句, 写在花圈上: 有人说你富贵, 哪知道你曾历尽贫寒…… 春风吹来的时候, 你把美丽带给人间……. 相关博文
需要多少论文才能得到图灵奖 – 数据库界的四位图灵奖得主(1) 人物类:我所认识的Adlman 系列 共6篇 他凭什么得了图灵奖,侧应钱学森之问,计算机病毒的教父,DNA计算; 科普类: 趣味数据挖掘系列 被打和北大,烤鸭,数据血统论,博客均击量,干预规则,分房与分类,宴会上的聚类, 灯谜、外星殖民、K-平均聚类与蛋鸡悖论, 愚公移山和进化计算,基因表达式编程GEP,数据挖掘与哲学; |
|