分享

数据库界的四位图灵奖得主(1-2)

 闲之寻味 2015-04-20
今年3月25日,美国计算机协会(ACM)宣布,来自麻省理工学院的教授Michael Stonebraker获得2014年度“图灵奖”(第N年宣布N-1年得主),投石冲破水中天,一些与数据处理相关的微信群中喷发一股图灵奖议论热,有位教授在微信中赞叹“说数据库界一共四位传奇大师,太伟大了“,接着有几位教授提议在今年的教学PPT中,加上相关科普,激励年轻的数据库人。朋友们鼓励我来一篇非传记的、活泼一点的人物故事。  

  

  没有诺贝尔, 我们有图灵.  诺贝尔没有机会登上时间机器向前穿越,未能预见到计算机科学对人类之重,于是计算机界没有诺奖。

  没有诺奖,计算机科学也要发展,计算机人也要过日子,计算机界的Top贡献也需要Top奖,在需要一个能与诺贝尔相比较的人物作图腾的时候,天公抖擞,不拘一格,降下了图灵。

  图灵多才多艺、也多故事、多传说:小时的神童,青年时的马拉松健将(有过名次);善于长跑的图灵,在科学上一趟冲刺,跑在了计算机之前,全世界还没人见过计算机的时候 ,他构筑了“理想计算机”,阐明了通用计算机的可行性,其前瞻性和深刻性,至今影响着计算复杂性理论;有人赞他是计算机科学之父、人工智能之父….,

  在二战胜利70周年之时,人们更怀念和他的团队在破译情报方面贡献。

  看多了穿越小说的图灵迷问:他为什么有那么多超乎常人的见识?莫非他是从先进的平行宇宙中穿越而来?


  数据库界的图灵奖得主.  由图灵冠名的概念有 “图灵机”和“图灵测试”,最有名的是“图灵奖”。

  从1966年到2014年,49届,共62名得主,按国籍分,美国学者最多,欧洲学者偶见之,华人学者目仅有2000年图灵奖得主姚期智(现在清华大学)。

  62名得主分布在几十个小领域,排在前六的领域有:编译原理、程序设计语言,计算复杂性理论,人工智能,密码学,以及数据库(4名)。在某种意义上,可大致认为,前三个领域与计算机科学本身更密切一些,后三个领域与军民应用更密切一些。

   

  一看就知是聪明人. 下图是数据库界的四位得主。本来,以貌取人是根据不足的,但这四位得主,都有一股学者范(“范”是一种感觉,很难严格定义),几位学者,虽近髦耋,眉宇中有一股英气,目光坚定自信,相信在年轻时,叫人一看,就知是聪明人。

  



  按获奖时间排序 ,本文先介绍最早的一位。续篇再介绍后面的三位,争取在篇末都议论一下得主们给我们的启迪。

  

  

   实践出真知—网状数据库,时势造英雄-巴赫曼.

   今年90岁的查理士·巴赫曼 (Charles William Bachman),在49岁时候(1973年)获得了的图灵奖,是数据库界的第一枚图灵奖。



  

  生逢其时,有文无库. 上世纪60年代,计算机系统还是有文(文件系统)无库(数据库)。数据处理比较艰难,那是一个正需要英雄,就出了英雄的时代;当世界正呼唤数据处理新技术时,年富力强(30多岁)的巴赫曼来了。

  他从基层干起,曾在穿孔卡片机上开发程序,在第一线获得了丰富经验,后到通用电气公司,作程序设计部门经理,体验过文件系统处理数据的蹉跎、繁琐和低效,催生了他的数据库梦。

  

  一代很爽的数据库. 他主持设计与开发了最早的网状数据库管理系统IDS(Integrated Data Store),在不惑之年(1964年)正式推出IDS。以今天的目光看,IDS是建立在虚拟内存系统上(实际在磁盘上),如果当时有如今的闪存盘SSD,不用改代码,就会爽的发飙 ;不过那时的人要求低,认为IDS已经很爽了。

  所以,他被称为网状数据库之父。

    

  格式化 VS 非格式化 , 磁盘 VS 磁带. 数据库带来的观念是革命性的。此前,计算机以文件为最小处理单位,处理非结构化的、粒度较大的数据;而数据库中是格式化的、粒度较小的数据(记录或字段)。

  有格式和无格式数据的在查、插、删、改的速度方面有天渊之别,作为科普,只好用磁盘与磁带的差别来比喻:

  非格式化数据中,查询某一数据项,有如在磁带上搜寻某首歌曲,从头搜索到尾,平均每次搜索磁带长度的一半;而在磁盘或光盘上,从目录(索引)找到那首歌曲的开始扇区,磁头在三维空间中跨界运动,磁带是线性带子固定的磁头,磁盘是极坐标的平面,三维的臂,直达目标,快多了


  对插、删、改操作,由于数据库缩小了处理粒度,提高处理效率,更是令文件系统望尘莫及。

   网状数据库概念不太容易科普,当年。笔者讲网状数据库课程时,在黑板上画若干记录方块,若干指针链接,大方小方大小方,虚线实现虚实线,两个学时讲完;真的不像关系数据库那样容易科普。

   记忆大师们说,要想记忆好,检索快,就要设法把知识点连成网状,建立联想,这就是网状数据库的思想,就这样简单,当然,从思想到设计,再到实现,就需要图灵奖得主的水平了。

  

    报告也能占高地  IDS的成功,使巴赫曼有资格成为DBTG的核心人物之一,DBTG即数据库任务组,隶属于CODASYL(美国数据系统语言委员)。

  为了数据库之梦,巴赫曼试图占领美国国家标准这一学术和技术高地,积极推动了DBTG报告。

  由于各种原因,这个报告,最后没有成为美国国家标准,DBTG任务组坚忍不拔,相继推出一系列版本,如1971,1973、1978、1981年和1984年的修改版本。

   尽管DBTG不是国家标准,也不是具体的数据库产品,而只是一个方案,但它提出的观念深入人心,所提出的三级模式,以及把数据库语言分成数据定义语言DDL和数据操纵语言DML的思路, 影响了几代数据库人和数据库产品,如IDMS、PRIME DBMS、DMSl70、DMSⅡ和DMS 1100,甚至,如今的关系数据库中,也能隐约见到它的影子。

    这些成果确立了数据库的观念,在IT发展历程中,人们常常见到,被新技术“宠坏“了的用户,再也不愿回到旧技术的怀抱,在这个意义上,有人笼统地说,巴赫曼是(没有定语)数据库之父。

   

    一点思考:需要多少论文才能得到图灵奖?   下面有个清单,列出了巴赫曼的重要论文16篇,因为他是1973年的的图灵奖,只列出了1962-1983中的一部分,平均每年不到1篇。

  也许多年前 ,计算机界对论文级别,杂志级别的观念与现在不同;单从从数量上看,好像我们现在的杰青、优青、千人、百人快赶上或已经超过了巴赫曼,但是,能做出像IDS这样的货真价实、人用人爱的系统吗?能提出像《DBTG报告》这样改变观念、深入人心,能在数据库发展的几十年历程中留下影子的的“报告“吗?

    也许,这种观念的不同,是图灵奖得主心中的那份灵犀。

 

 (下篇:数据库界四位图灵奖得主之二,正在整理)


 参考文献 巴赫曼1962-1983的部分论文.

  1. "Precedence Diagrams: The Key to Production Planning, Scheduling and Control." In: ProCo Features. Supplement No 24, August 24. 1962..

  2. "Integrated Data Store." in: DPMA Quarterly, January 1965.

  3. "Software for Random Access Processing." in: Datamation April 1965.

  4. "Data Structure Diagrams." in: DataBase: A Quarterly Newsletter of SIGBDP. vol. 1, no. 2, Summer 1969.

  5. "Architecture Definition Technique: Its Objectives, Theory, Process, Facilities, and Practice." coauthored with J. Bouvard. in: Data Description, Access and Control: Proceedings of the 1972 ACM-SIGFIDET Workshop, November 29-December 1, 1972.

  6. "The Evolution of Storage Structures." In: Communications of the ACM vol. 15, no. 7, July 1972.

  7. "Set Concept for Data Structure." In: Encyclopedia of Computer Science, 1972-1973.

  8. "The Programmer as Navigator." In: Communications of the ACM vol. 16, no. 11, November 1973.

  9. 1974."Implementation Techniques for Data Structure Sets." In: Data Base Management Systems

  10. "Why Restrict the Modeling Capability of Codasyl Data Structure Sets?" In: National Computer Conference vol. 46, 1977.

  11. "Commentary on the CODASYL Systems Committee's Interim Report on Distributed Database Technology." National Computer Conference vol. 47, 1978.

  12. "DDP Will Be Infinitely Affected, So Managers Beware!" in: DM, March 1978.

  13. "The Impact of Structured Data Throughout Computer-Based Information Systems." In: Information Processing 80, 1980.

  14. "The Role Data Model Approach to Data Structures." In; International Conference on Data Bases, March 24, 1980.

  15. "Toward a More Complete Reference Model of Computer-Based Information Systems." Co-authored with Ronald G. Ross. In: Computers and Standards 1, 1982.

  16. "The Structuring Capabilities of the Molecular Data Model." In; Entity-Relationship Approach to Software Engineering. C. G. Davis, S. Jajodia, and R. T. Yeh. eds. June 1983.

相关博文 

 需要多少论文才能得到图灵奖 – 数据库界的四位图灵奖得主(1)

  解决科学问题才是硬道理-—数据库界的的四位图灵奖得主(2)(4.19 发)

说明 原拟名《梅花香自苦寒来,关系库从磨难出》,以突出E.F.Codd经历的困难, 近日连开两个973项目交流会,换场期间,有朋友建议把最后的小标题升为大标题,以突出其贡献,也合今天973 基调;此外,第一次在北京机场发博文,匆忙之中,如有错漏,请及时提醒)    


   功过从何数 1981年,58岁的E.F.Cood 获得图灵奖,这是数据库界的第二枚(也是久违了的)图灵奖。从1970年提出关系数据库到获奖,奋斗十一年,终成正果。如今,斯人已驾鹤西去,回望其成功之路,不禁想起了电视剧《西游记》取经成功后的插曲《青青菩提树》:

      "几多朝朝暮暮,漫漫云烟无数,.....

                 历经坎坷终无悔,未教年华虚度.....          

                           面对大千世界, 功过从何数? ......

 好,现在就来数一数。

  

  网上传统传记太多,这里想写一篇不很传统的、轻松一点的描述,须从数据库的型与值说起.  

  数据库的型与值  模型和模特儿在英语中是同一个单词model,其实,译音又译意的“模特儿”既通俗、又朴素,也最直白地说清楚了高雅的“模型”在数据库中的的含义,模型就是骨架。且看图:

  上图中,左边的模特, 抽象一点,不过八两铁丝,一些手艺;披上了衣服后,加上想象,就有了的美感、就产生了价值或数值;用计算机专业的行话,左边是“型”,右边是“值”。

  其实,模特不必升级为活生生的美女靓男,那不过增加了若干不必要的语义,商业的,心理的,展示的,诱惑的,等等,目的是 买家买家快掏钱,而过分的“型”,可能干扰对“值”的评价,

  

  下图中 ,左上是一个层次库模型。左下是其对应的库值。它是上文提到的网状数据库模型的特例,只不过比网状模型上多了一条限制----每个节点至多一个父节点。

  右边是关系模型,我们凡人,熟视无睹,看千遍,也不一定能看出是图灵奖的素材。  ·


  关系数据库的传奇 笔者有个奇怪的(穿越的)感觉,旋律优美的歌曲《传奇》适合用来赞颂E.F.Codd对关系模型的衷情和忠诚,试看下面的分段演绎:  

  《传奇》:“只因为在人群中多看了你一眼,再也没能忘掉你的容颜,…..”

  在E.F.Codd考查二维表格之前,成千上万人早就观察过,可人们都熟视无睹,擦肩而过;

  唯有E.F. Codd,在1970年的某一天,在人群中多看了它几眼,  奇迹发生,“来电了”!

   于是他投入心血,把对表格的那份情有独钟,发表在《Communication of the ACM》,其标题为  “A Relational Model of Data for Large Shared Data Banks”。

  此文在在集合论的严格数学基础上,建立了关系数据库模型;知识框架不能成为模型,接下来一发而不可收,有一系列文章发表。通常:

      数学模型 = 一个集合+一组符号+一组规律(如交换律、结合律)+ 一组性质(定理)

如群环域是从现实对象中抽象出来的代数系统(数学模型的一类)。关系模型,关系代数也是数学模型。

   那几年,关系模型成了E .F. Codd 心中的那个“她”。今天,人们还可以追踪他和”她”的故事:

  为了她的数学美,他用范式理论为她浓妆,

  因为她憔悴,他用12条准则为她粉黛……

  

  《传奇》: “宁愿用这一生等你发现,…,今生的爱情故事不会再改变。”

  接下来,E.F.Codd的路上,少有鲜花,多有荆棘。

  1983年,笔者到美国学习数据库,导师为鼓励我们克服困难和坚持学术观点,说, E.F Codd 也曾遭遇到压力山大,以至于影响健康,还进过医院;又说,要学习他不怕困难,坚持自己认为正确的学术观点,最后冲出重围,….,

  但语焉不详,可能是有一些难言的细节。由于人们不太愿意多写尴尬事,现在网上仅仅能查到一些蛛丝马迹。例如下列的”但书”:  

  …..但是,有人认为,关系模型…..是理想化模型,…..不现实…,担心性能难以接受;

  有人视其为(当时正在进行中的)网状数据库规范化工作的严重威胁….  

  日子艰难了,就觉得时间慢,但E.F.Codd坚持着, 就像《传奇》唱的“宁愿用这一生等你发现,…,今生的爱情故事不会再改变….”。

  又是五个春来秋去,终于迎来转机。

  

  明争取代暗斗  1974年ACM牵头组织了一次有思想交锋的研讨会。

  正方E.F.Codd及其支持者

  反方Bachman及其支持者

   Bachman何许人也?就是上篇博文主人公,数据库界第一个(当时唯一的)图灵奖获得者。轻量级对重量级,E.F.Codd能坚持得住吗?悬念...

  幸好,E.F.Codd足够坚强,坚持下来了。这次的辩论改善了作为新生事物的关系数据库的生存环境,推动了关系数据库的发展。   


  花香墙外,嘴仗结束,新技术的美妙吸引了新的IT人;虽然,知识有产权,但本质上,知识是人类共创共享的(当然,在一定法规下)。

  世界上不乏有眼光,有胆略的人,拉里.埃利森及其团队就是典型,他们认定关系数据库的前景,在1977年建立一个新的小的公司,实现了第一用商用关系型数据库管理系统,后来发展成为Oracle。

  当墙外花香日益浓厚,大赚其钱的时候,IBM才发现自己有点亏,才承认关系数据库的确好,急起直追研发DB2等等。

  以后的事实表明,关系数据库易学易用,基础坚实,理论丰厚,用户不需知道存储结构细节(用今天关于“透明”的时髦术语,有结构透明性),终于让网状数据库和层次数据库(保留了在历史地位)退出了历史舞台,RDB登堂入室,成为现代数据库产品的主流。

 

   亲历过对比,才有发言权  在关系数据库还没占绝对优势的岁月里,笔者参加过几个网状数据库和层次数据库的应用项目开发,几年的编程生涯,熬夜,得意少,磋磨多,顺风少;因为最终应用是给非计算机专业人员用的,写了很详细的说明书,最终用户也不是很轻松;

   后来那些程序,都移植到关系数据库了,相关人员用后,高兴得要唱“解放区的天”。 

  

  生不逢时还是官僚主义?  E.F.Codd是IBM的人,做的是IBM的成果,IBM 启动了关系数据库验证项目System R, 但没有优先的支持,一直到1980年System R才作为一个产品正式推向市场。有人分析System R产品化缓慢的三个原因:

  • IBM重视信誉和质量,为尽量减少故障,所以慢(精工出细活);

  • IBM的官僚主义,错失了一次发展机会。(到处有官僚主义,官僚主义有时也成为检讨中的替罪羊);

  • IBM当时正改进层次数据库产品,如果把层次数据库IMS比喻为周瑜,把关系数据库比喻为诸葛亮,所以有点像(与传统 略有不同)“既生亮,何生瑜?” 所以关系库在IBM内生不逢时。  

  数学美进入了数据库 E.F.Codd的理论 给数据库领域带来了数学美;

  例如,用于函数依赖推演的Armstrong 推理竟然是Sound(可靠)且完备(complete)的!, 不少数学系的博士生在寻找博士后岗位时,选择了数据库。

  又例如,用于设计一个好模式的规范化理论,从一阶范式到三阶范式,很快变成了程序,在实践中收到欢迎;而且,还有 4阶、5阶,…,N阶范式,吸引人的魅力在于,不知还有多少可探的宝藏,不知将有多少博士和副教授在这里成长!

  一大批数学人才转业到数据库理论方向,一时间,关系数据库理论人才济济,风生水起,成果累累....

  

  “过度追求数学美”不是Codd惹的祸。但是,过度追求数学美的坏习惯也趁机进入了数据库领域(或计算机领域),有人研究了规范化理论的5NF、6NF,据说还有(毫无用处的)7NF、8NF、9NF !

  在私下议论时,同行们还批评过若干过度追求数学美的例子(不适合上网)。

  计算机科学为计算而生,为计算而发展,是实践性很强的学科。

   E.F.Codd的数学工底很好,但他十分强调实践,强调应用;(可能在1974年那场ACM组织的大辩论中,他也受益于反方强调应用的观点)。

   综观他的生涯,可以确定,“过度追求数学美”不是Codd惹的祸。

  

  解决科学问题才是硬道理。上世纪70年代,关系数据库将生未生,数据处理领域遇到了下列科学问题:

    (1) 网状数据库后的下一代数据库是什么,数据库向何处去?

          E.F.Codd回答:下一代将是关系数据库模型,并用集合论的语言给了坚实的基础和眼睛的描述;

    (2) 如果用关系数据库,什么是好的关系数据库模式?怎样设计一个好模式?

         E.F.Cod及其跟随者给出了规范和理论和一系列设计好模式的算法:

   (3)怎样使关系数据库管理系统多、快、好、省?

        E.F.Cod给出了十二条准则,及若干研究。一大批追随者办公司,提方案、作设计、写程序,实现了关系数据库系统。


   三个科学问题的提出和解决,当然不是E.F.Codd一人的功劳,但他是斗士、是先锋,在其中起了关键作用;图灵奖给他,正当其人,实至名归。


   上篇博文问,多少论文才得得到图灵奖,Bachman的例子说明,图灵奖与论文篇数没关系,或没多大关系;

  而E.F.Codd的例子说明,想得图灵奖,提出科学问题、凝练科学问题、解决科学问题才是硬道理。


   想借用牡丹之歌 如果某一天,我和我的朋友们,有机会到E.F.Codd 墓前吊唁,怀念数据库界的这位前辈大师,我想在《牡丹之歌》中抽样地选出几句, 写在花圈上:

        有人说你富贵,

               哪知道你曾历尽贫寒

                           春风吹来的时候,

                                  你把美丽带给人间.


相关博文 

 需要多少论文才能得到图灵奖 – 数据库界的四位图灵奖得主(1)

 解决科学问题才是硬道理-—数据库界的的四位图灵奖得主(2)


其他相关博文

  人物类我所认识的Adlman 系列 共6篇 他凭什么得了图灵奖,侧应钱学森之问,计算机病毒的教父,DNA计算

  科普类趣味数据挖掘系列 被打和北大,烤鸭,数据血统论,博客均击量,干预规则,分房与分类,宴会上的聚类, 灯谜、外星殖民、K-平均聚类与蛋鸡悖论, 愚公移山和进化计算,基因表达式编程GEP,数据挖掘与哲学; 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多