遗传密码的破译

无事不登三宝殿 2019-05-06

展开全文

1.研究背景

在孟德尔遗传规律于1900年被再次证实之后，许多科学家投入到遗传问题的研究上来，试图揭示基因的本质和作用原理。

1941年比德尔（G.Beadle）和塔特姆（E.Tatum）的工作则强有力地证明了基因突变引起了酶的改变，而且每一种基因一定控制着一种特定酶的合成，从而提出了一个基因一种酶的假说。人们逐步地认识到基因和蛋白质的关系。

“中心法则”提出后更为明确地指出了遗传信息传递的方向，总体上来说是从DNA→RNA→蛋白质。那DNA和蛋白质之间究竟是什么关系？或者说DNA是如何决定蛋白质？这个有趣而深奥的问题在五十年代末就开始引起了一批研究者的极大兴趣。

1944年，理论物理学家薛定谔发表的《什么是生命》一书中就大胆地预言，染色体是由一些同分异构的单体分子连续所组成。这种连续体的精确性组成了遗传密码。他认为同分异构单体可能作为一般民用的莫尔斯电码的两个符号：“· ”“—”，通过排列组合来储存遗传信息。

那什么是莫尔斯电码呢？我们来看下面的资料：

莫尔斯电码，是由美国画家和电报发明人莫尔斯于1838年发明的一套有“点”和“划”构成的系统，通过“点”和“划”间隔的不同排列顺序来表达不同的英文字母、数字和标点符号。1844年在美国国会的财政支持下，莫尔斯开设了从马里兰州的巴尔地摩到美国首都华盛顿的第一条使用“莫尔斯码”通信的电报线路，1851年，在欧洲国家有关方面的支持下，莫尔斯码经过简化，以后就一直成为国际通用标准通信电码。电报的发明、莫尔斯码的使用改变了人类社会的面貌。随着社会的进步、科学的发展，有更先进的通信方式在等待着我们使用，但电报“莫尔斯”码通信在业余无线电中占有重要的地位。国际电信联盟制定的“无线电规则”中明确指出：任何人请求领取使用业余电台设备执照，都应该证明其能够准确地用手发和用耳接收“莫尔斯”电码信号组成的电文。虽然今天计算机技术给自动或半自动收发电报创造了条件，但每一位真正的爱好者仍必须并且也可以通过自我训练掌握人工收发报技术。莫尔斯电码本身并无机密可言，它仅仅只是一种工具。

· ：短音念作“滴（di）”

—：长音念作“答（da）”

字码：

A：·— B：—··· C：—·—· D：—·· E：· F：··—·

G：— —· H：···· I：·· J：·— — — K：—·— L：·—··

M：— — N：—· O：— — — P：·— —· Q：— — ·— R：·—·

S：··· T：— U：··— V：···— W：·— — X：—··—

Y：—·— — Z：— —·· ？：··— —·· /：—··—· —：—····—

数码（长码）：

1：·— — — — 2.··— — — 3：···— — 4.····— 5：·····

6：— ···· 7：— — ··· 8：— — — ·· 9：— — — —· 0：— — — — —

通过莫尔斯电码大致体验了“翻译”的过程，无论从电文译成英文还是从英文译成电文都离不开莫尔斯密码表，而我们知道后来被确认的蛋白质的合成过程中也正是有类似这样的密码子。

而当时遗传物质的化学本质是尚未明确的，十年后DNA双螺旋模型才得以建立，在这样的背景下能将遗传信息设想成一种电码式的遗传密码形式，实在是一种超越时代的远见卓识。到1953年双螺旋模型的建立，给予科学家们以很大的激励。破译遗传密码也就成了势在必行的工作。

要破译一个未知的密码，一般的思路就是比较编码的信息，即密码和相应的译文。对于遗传密码来说最简单的破译方法应是将DNA顺序或mRNA顺序和多肽相比较。但和一般破译密码不同的是，遗传信息的译文——蛋白质的顺序是已知的，未知的都是密码。1954年Sanger用纸层析分析了胰岛素的结构后，对蛋白质的氨基酸序列了解得越来越多。但是直到1965年前后经历了十年时间，多位科学家的执著研究才破译了密码，其中最为重要的几项工作其思路之新颖、方法之精巧都闪烁着科学的智慧之光。

2.遗传密码的试拼与阅读方式的探索

1954年科普作家伽莫夫G.Gamor对破译密码首先提出了挑战。他以著有《奇异王国的汤姆金斯》等优秀的科学幻想作品而著称，具有丰富的想象力，但他不是一位实验科学家，所以只能从理论上来尝试密码的解读。当年，他在《自然Nature》杂志首次发表了遗传密码的理论研究的文章，指出“氨基酸正好按DNA的螺旋结构进入各自的洞穴”。他设想：

若一种碱基与一种氨基酸对应的话，那么只可能产生4种氨基酸，而已知天然的氨基酸约有20种，因此不可由一个碱基编码一种氨基酸。

若2个碱基编码一种氨基酸的话，4种碱基共有42=16种不同的排列组合，也不足以编码20种氨基酸。

因此他认为3个碱基编码一种氨基酸的就可以解决问题。虽然4个碱基组成三联密码，经排列组合可产生43=64种不同形式，要比20种氨基酸大两倍多。

但若是四联密码，就会产生44=256种排列组合。

相比之下只有三联体（triplet）较为符合20种氨基酸。

伽莫夫是用数学的排列组合的方法在理论上作出推测的，后来的实验证实这一推测是完全正确的。

接下来，人们不禁又要问在三联体中的每个碱基作为信息只读一次还是重复阅读呢？以重叠和非重叠方式阅读DNA序列会有什么不同呢？

伽莫夫也许是考虑到效率的问题，认为一个碱基可能被重复读多次，也就是说遗传密码的阅读是完全重叠的，因此氨基酸数目和核苷酸数目存在着一对一的关系。这一假定非常简洁地解释了核苷酸间距和多肽链上邻接氨基酸的间距（0.36 nm）之间显示了明显的相关性。

若真如此，重叠密码对多肽链上氨基酸的序列就形成了一种限制。例如，具有完全重叠密码的密码子ATC，后面接着的密码子一定是TC开头，那么相应的氨基酸的顺序也会受到限制。再者若是重叠密码，那么任何一个碱基的突变都会影响到相连的3个重叠密码子，即三个氨基酸都会发生改变，但事实并非如此。

1957年Brenner.S发表了一篇令人兴奋的理论文章，他通过蛋白质的氨基酸顺序分析，发现不存在氨基酸的邻位限制作用，从而否定了遗传密码重叠阅读的可能性。同时人们也发现在镰刀型细胞贫血的例子中，血红蛋白中仅有一个氨基酸发生改变。说明伽莫夫的后一推论是错误的。这就是智者千虑，必有一失。很多著名的科学家也有过类似的失误。在资料较少的情况下，对未知的真理作出推断，难免会发生偏差，但瑕不掩瑜，人们对他们的那种敏锐、大胆、睿智和创新的精神，巧妙的构思仍敬佩不已。

3. 遗传密码子的破译

（1）Paul Zamecnik等人证实细胞中蛋白质合成的场所。他们把放射性标记的氨基酸注射到大鼠体内，经过一段时间后收获其肝脏，进行蔗糖梯度沉淀并分析各种细胞成份中的放射性蛋白质。

如果注射后经数小时（或数天）收获肝脏，所有细胞成份中都带有放射性标记的蛋白质;

如果注射后几分钟内即收获肝脏，那么，放射性标记只存在于含有核糖体颗粒的细胞质成份中。

（2）1957年克里克Crick等为了解释这个问题提出了一个设想。首先认为如AAA，GGG，CCC，TTT这四个三联体，分别由相同的碱基构成，解读的起始位置有可能发生差错，因此可能是“无义”密码子。这样余下的只有60个密码子。接着他们又设想，例如ATT和GCA若分别编码氨基酸a和b，若这两个密码子连续排列成ATTGCAATT……在起读时若发生错位就会产生TTG，TGC，CAA和AAT等顺序就是错读，这些错读的重叠密码也是无意义的，也就是说一个顺序有3种读法，其中只有一种是有意义的，而其余的两种都是无义密码，这样（60×1/3=20）有义密码子只有20个，似乎是很圆满地解释了氨基酸数目和密码子总数之间的矛盾，但后来的实验证明，此设想也是重蹈Gemor的覆辙。

直到1961年克里克Crick和Brenner.S等设计了一个实验，有力地证实了三联密码的真实性。他们用T4噬菌体染色体上的一个基因通过用原黄素处理，可以使DNA脱落或插入单个碱基，插入叫“加字”突变，脱落叫“减字”突变，无论加字和减字都可以引起移码突变。Crick小组用这种方法获得一系列的T4噬菌体“加字”和“减字”突变，再进行杂交来获得加入或减少一个、两个、三个的不同碱基数的系列突变。

通过这样的方法他们发现加入或减少一个和两个碱基都会引起噬菌体突变，无法产生正常功能的蛋白，而加入或减少3个碱基时却可以合成正常功能的蛋白质，为什么会这样呢？我们结合课本P74上的有关句子中插入英语字母对语句产生的变化来理解，进行类比分析。

克里克用实验的结果证明每个密码的确是由3个碱基组成的。克里克对遗传密码提出了4个特点：a 3个碱基一组，编码一个氨基酸。b 密码是不重叠的。c 碱基的顺序是从固定起点解读的。d 密码是简并的，即某个特定的氨基酸可以由几个碱基三联体来编码。否定了他们以前的解释，即64种密码子中只有20种编码，其余的44种都是无意的这一推测。从他们的实验结果来看，如果以前的解释是正确的话，那么任何移码突变都将是无义突变，那么T4噬菌体突变体的那个区域应当很小，但其实不然，发生移码仍可翻译，只不过肽链的顺序发生很大的改变，而不是产生很短的肽链。

(3)那如何找出64种密码子到底对应哪种氨基酸呢？在美国国立卫生研究院（NIH）从事研究工作的青年科学家尼伦伯格M.W.Nirenberg在读到第一篇发现mRNA的报道之后，就决定计划建立一种无细胞反应系统，来揭开遗传密码之谜。

他们的方法和思路与克里克的完全不同，他们采用的体外合成蛋白质的技术

a去模板：用DNA酶处理细胞抽提物，使DNA降解，除去原有的细胞模板。在抽提物含有核糖体、ATP及各种氨基酸，除mRNA以外，是一个完整的翻译系统。由于DNA被降解，所以不再转录新的mRNA，即使原来残留的mRNA因其半衰期很短，也很快会降解掉。

b 加入polyU：Nirenberg成功地破坏了翻译系统中的内源mRNA，这样从理论上来说若加入任何外源mRNA就可以按新的信息合成蛋白。他们采用了多核苷酸磷酸化酶，仅以尿苷二磷酸为底物，人工合成polyU。当他们把人工合成的polyU加入这种无细胞系统中代替天然的mRNA时，惊喜地发现果真合成了单一的多肽，即多聚苯丙氨酸，它的氨基酸残基全是苯丙氨酸，这一结果不仅证实了无细胞系统的成功，同时还表明UUU是苯丙氨酸的密码子。

这是第一个遗传密码子被破译。尼伦伯格的实验巧妙之处在于利用无细胞系统进行体外合成蛋白质，他这富有创新的实验方法为他带来了重大的成功！尼伦伯格也用同样的方法分别加入polyA、polyC和polyG结果相应地获得了多聚赖氨酸、多聚脯氨酸和多聚甘氨酸。Nirenberg利用无细胞系统体外合成蛋白质不仅顺利地破译了4个密码子，同时了证实了Crick等原先认为AAA，UUU，GGG，CCC是无义密码子的推测是错误的。

c 按比例加入２种核苷混合的多聚物

由于当时还未分离RNA pol酶，无法按设计的模板来合成RNA，但除了UUU,CCC,AAA,GGG以外，还必须破译其它的密码，Nirenberg又想出了一种新的方法，就是按一定的碱基比例来合成RNA。比如在底物中加5份的UDP和1份的GDP，碱基比为U：G＝5：1，它们能组成的三1联体不外乎8种：UUU，UUG，UGU，GUU，GGG，GGU，GUG，UGG。U和G将随机地加入到三联体中，这样按比例各个位于上进入U和G 的概率不同，如UUU：UGG＝（5´5´5）：（5´1´1）＝25：1；同理UUU：UUG＝5：1，根据这样的推测，在无细胞系统中以这种比例合成的mRNA产生的氨基酸的比例也应是相应的，这样可以推测出密码子的组成。如氨基酸测定结果：

苯丙氨酸（UUU）：半胱氨酸（UGU）＝ 5：1

苯丙氨酸（UUU）：缬氨酸（GUU）＝ 5：5

苯丙氨酸（UUU）：甘氨酸（GUU）＝24：1

苯丙氨酸的密码子是已知的，由3个U组成那么半胱氨酸一定是由2个U，1个G组成；缬氨酸同样如此；甘氨酸应是由一个U两个G组成。S.Ochoa及其合作者获悉Nirenberg用polyU大获成功之后，利用身边保存着多种多聚核苷酸也开展了破译密码的研究，采用的方法也是加入不同比例的混合多核苷酸两组展开了激烈的竞争，经过两个组一年多的努力，结果搞清了各种氨基酸的碱基组成，但是并不知其序列。Nirenberg于1964年又采用三联体结合实验，一举破译了所有密码，取得了重大的突破。

d 三联体结合实验

从上面的实验结果不难看出，按比例合成RNA的方法不能解决最关键的序列问题，此时擅长RNA合成的G.Khorana就担负起直接合成有序多核苷酸的难题，1964年正当Khorara刚刚奋力完成了第一批排列的核糖多核苷酸时，Nirenberg又有新的突破，使破译密码的艰难工作迅速达到了光辉的顶点，这种新的突破就是建立了三联体结合的新方法。这个方法的思路是建立在两项基础上的：Ⅰ tRNA和氨基酸及三联体的结合是特异的；Ⅱ 上述结合的复合体大分子是不能通过硝酸纤维滤膜的微孔，而tRNA- 氨基酸的复合体是可以通过的。

Nirenberg采用了一把钥匙开一把锁的思路，进行破译密码。他们首先发现当简单的特定的核苷酸加入到E.coli的核糖体上时，它们并不促使蛋白质的合成，而引起了特定的tRNA及其携带的氨基酸结合到核糖体上，形成大的复合体。因此他们每次在无细胞系统中仅加一种已知序列的三联体RNA（如ACA），同时在氨基酸中只用14C标记一种氨基酸（如Ser），若ACA进入核糖体后，与其结合tRNA上携带的不是所标记的Ser，那么tRNASer和其携带的Ser就会从NC上透过，所以通过测定透过NC的tRNA-aa 复合体是否带有标记，如带有标记就可以确定输入的三联体ACA不是Ser的密码子；那么就可重新输入另外的三联体RNA，一直到tRNA所带有的标记的氨基酸不透过NC，说明此三联体RNA正好是标记氨基酸的密码子.虽然所有64个三核苷酸(密码子)都可按设想的序列合成，但并不是全部密码子均能以这种方法决定因为有一些三核苷酸序列与核糖体结合并不象UUU或GUU等那样有效，以致不能确定它们是否能为特异的氨基酸编码。

(4)1965年Khorara以不同的思路和方法也巧妙地破译了全部的密码，他发挥了自己合成RNA的特长，用已知碱基组成两个、三个或四个碱基合成重复顺序的mRNA，在体外翻译系统中加入同位素标记的氨基酸，然后分析所合成多肽的氨基酸顺序，再进行比较分析。Khorara采用了有机合成一条短的单链DNA重复顺序，然后用DNA pol1合成其互补链，然后用RNA pol及不同的底物合成两条重复的RNA共聚物，作为翻译的mRNA，加入到体外表达系统中，根据合成的肽链（以同位素标记）的相应顺序来推测各氨基酸的密码子。如表所示，当重复顺序为（UC）n时，组成的重复RNA无论怎么阅读，只可能是UCU－CUC，翻译的多肽也是由丝氨酸和亮氨酸之间排列的顺序，但尚不能确定这两种氨基酸的相应密码子。当重复顺序为（UUC）n时，无论怎么阅读，都只产生三种多聚氨基酸，即poly Ser、poly Leu和polyPhe，和第一次比较，只有一个密码子UCU相同，但同样都有Ser和Leu，所以仍不能确定。再看第三行重复顺序（UUAC）n，无论怎么读法，只会是四个密码子的循环：UUA－CUU－ACU－UAC，但合成的肽链中氨基酸三种，－Leu－Leu－Thr－Tyr。将密码子和氨基酸与第二次作对照，彼此共有密码子CUU和Leu，所以可以确定CUU是Leu的密码子。那么第二栏中既然CUU已知是亮氨酸，毫无疑问UCU是丝氨酸。第一栏中原来UCU－CUC难以确定哪一个是Ser，哪一个是Leu，现已确定UCU是Ser，那么余下的CUC定是亮氨酸了。Khorara就用这种方法将所有的61种遗传密码都破译了。这项实验还同时证实了三联密码的正确性，以及简并性的存在。

(5)终止密码子的破译

1962 年 Benzer 和他的学生 S.Champe 对 T4 r Ⅱ突变的研究时发现野生型的 T4rⅡ这段有两个顺反子 rⅡA 和 rⅡB，共同转录一个多顺反子 mRNA，但翻译成两个分开的蛋白 A 和 B。当发生缺失突变时，其中有一个突变型为rl589，证明是缺失所造成，缺失的区域含 rⅡA 基因右边的大部分，和 rⅡB左边的小部分。互补实验表明 rl589 的产物是一条多肽，但无蛋白 A 的活性，但有 B 蛋白的活性。Benzer 认为，这种缺失可能使 mRNA 失去了 A 蛋白合成“终止”和“B”蛋白合成“起始”的密码子，因此翻译时沿着一条mRNA 阅读下去，产生了一条长的肽链。1964 年 Brenner 及其同事获得了 T4 噬菌体编码头部蛋白基因的琥珀突变（amber），并进行了精细作图，并分离研究了各种突变型的多肽。突变型的肽链比野生型的要短，因此可以推测琥珀突变可能产生终止密码子，使肽的合成在中途停止下来；由于突变位点越靠近基因的左端，所产生的肽链越短，越靠近右端越接近野生型，据此可以推测翻译的过程是从 mRNA的 5’端向 3’阅读。肽链的合成是从 N 端向 C 端延伸。由于头部蛋白 80％是由新合成的蛋白质组成。因此他们将各种突变型及野生型 T4 噬菌体侵染 E.coli 后 10 分钟，把 14C 标记的氨基酸加到培养基中，过一段时间，从感染的 E.coli 中抽提蛋白，头部蛋白可以通过 14C标记来加以鉴别。他们的实验方法不是对各种突变型的产物测序，而是先将野生型的头部蛋白用胰蛋白酶和糜蛋白酶来处理，消化后所产生的极复杂的混合物中，通过电泳能分离、鉴定出 8 个各有特征的头部蛋白片段，分别是 Cys,T7C(His), C12b(Tyr), T6(Trp), T2a(Pro), T2(Trp), C2(Tyr)和 C5(His)片段。然后再测出各 T4 头部蛋白突变型产物含有几个以上的肽段来排序。表示排序的结果和精细作图的序列相一致，不仅表明了基因和蛋白质的共线性关系，同时证明突变型头部蛋白基因内有无义突变的存在，其位置应在各种突变产物的末端。直到 1965 年 Weigert,M.和 Ggaren,A 由碱性磷酸酶基因中色氨酸位点的氨基酸的置换证明 E.coli 中无义密码子的碱基组成揭示了琥珀和赭石（ochre）突变基因分别是终止密码子 UAG 和 UAA。当时 64 个密码中的 61个已破译，只留下了 UAA、UAG 和 UGA 有待确定。Garen 等为了鉴定无义密码子采用了和 Brenner 相似的策略。他们从 E.coli 的碱性磷酸酯酶基因(pho A)中的一个无义突变品系中分离了大量的回复突变株，然后来探察每一个无义突变中在多肽中相当于已回复的无义密码子位置上的氨基酸究竟是什么氨基酸。可以看出无义密码子是从该基因的色氨酸位点的密码子产生的。在回复突变中，无义密码子变成了 Trp、Ser、Tyr、Leu、Glu、Gln和 Lys 的相应密码子。仅有 Trp 的 UGG 变成 UAG，然后在此基础上回复突变成 7 种氨基酸，因此 Trp 产生的无义突变的密码子就是 UAG。最后 1967 年Brennr 和 Crick 证明 UGA 是第三个无义密码子。根据无义突变的三种昵称，三个终止密码子 UAA 叫赭石（ochre）密码子（相应于赭石突变）；UAG 叫琥珀密码子（相应于琥珀突变）；UGA 叫蛋白石（opal）密码子（相应于蛋白石突变

我们注意整个破译过程中科学家思维的变化，薛定谔是以富有远见卓识的大胆的想象来预测遗传密码的形式的，伽莫夫通过数学的排列组合的计算来推测密码子是由三个碱基组成的，同时他也预测了密码的阅读方式，尽管智者千虑，必有一失，但巧妙的构思依然显示了其睿智和创新。克里克则是巧妙地设计实验，利用原黄素处理噬菌体，使DNA脱落或插入单个碱基的方法从实验上证明了伽莫夫的三联体密码子的推测，由理论走向实验，为密码子的破译迈出重要的一步。而尼伦伯格的实验则更富有创新性，他建立巧妙的无细胞系统进行体外蛋白质合成，成功地破译了第一个密码子，随后的方法不断创新最终破译了所有的密码子。他的贡献不仅仅在于对遗传密码的破译，更重要的也在对生物研究方法上开启了新的思维方式。

归结起来，我们看到，敏锐、大胆、睿智和创新是科学家的重要素养，也正如尼伦伯格在1968年获得诺贝尔生理学或医学奖时说过：一个善于捕捉细节的人才是能领略事物真谛的人。