分享

转录组测序问题集锦

 wangprince2017 2018-07-17

转录组测序问题集锦

转录组是某个物种或者特定细胞类型产生的所有转录本的集合,

转录组测序(RNA-seq) 是最近发展起来的利用深度测序技术进行转录分析的方法,可以对全转录组进行系统的研究。
Roche GS FLX Titanium
Illumina Solexa GA IIxAB SOLID 4均可以对转录组进行测序,

Roche GS FLX TitaniumIllumina Solexa GA IIxAB SOLID 4相比,拥有更长的读长和较小的数据量,适用于表达量较高基因的RNA全长测序。但是对低表达丰度的基因,可能需要多次测序才能得到足够的数据,成本比较高 ,而Illumina Solexa GA IIxAB SOLID 4数据读取量大,能够得到较高的覆盖率,可以较好的降低成本。若是位置基因组序列的物种,则Roche GS FLX Titanium测序更有优势,其较长的读长便于拼接,获得更好的转录本数据。
  
转录组测序可以供研究者在转录本结构研究(基因边界鉴定、可变剪切研究等),转录本变异研究(如基因融合、编码区 SNP研究),非编码区域功能研究Non-coding RNA研究、miRNA前体研究等),基因表达水平研究以及全新转录本发现等方面进行深入研究。

1.研究转录组的方法有哪些?

答:目前研究转录组的方法主要三种,基于杂交技术的cDNA芯片和寡聚核苷酸芯片,

基于sanger测序法的SAGE (serial analysis of gene expression)LongSAGE

MPSS(massively parallel signature sequencing),基于第二代测序技术的转录组测序,又称为RNA-Seq

2.转录组测序比其他研究方法有哪些优势?

答:转录组测序具有以下优势

1)可以直接测定每个转录本片段序列、单核苷酸分辨率的准确度,同时不存在传统微阵列杂交的荧光模拟信号带来的交叉反应和背景噪音问题;

2灵敏度高,可以检测细胞中少至几个拷贝的稀有转录本;

3)可以对任意物种进行全基因组分析,无需预先设计特异性探针,

因此无需了解物种基因信息,能够直接对任何物种进行转录组分析,同时能够检测未知基因,发现新的转录本,并准确地识别可变剪切位点及cSNPUTR区域。

4检测范围广,高于6个数量级的动态检测范围,能够同时鉴定和定量稀有转录本和正常转录本。

3.转录组测序有什么样的样品要求?

答:(1) 样品纯度要求: OD值应在1.82.2之间;电泳检测28S:18S至少大于1.8
2)样品浓度: total RNA浓度不低于400 ng/μg
3total RNA样品请置于-20℃保存;请提供total RNA样品具体浓度、体积、制备时间、溶剂名称及物种来源。请同时附上QC数据,包括电泳胶图、分光光度或Nanodrop仪器检测数据。
4)样品请置于1.5 ml管中,管上注明样品名称、浓度以及制备时间,管口使用Parafilm封口。

建议使用干冰运输,并且尽量选用较快的邮递方式,以降低运输过程中样品降解的可能性。

4.mRNA的纯化分离方法?

答:进行mRNA研究中,首先需要对样本进行总RNA抽提,抽提得到的RNA除含有mRNA外,还含有rRNAtRNA,为防止这两类RNA对转录组研究的影响,因此我们需要对mRNA进行分离纯化。

真核细胞的mRNA分子最显著的结构特征是具有5’端帽子结构(m7G)和3’端的Poly(A)尾巴。

绝大多数哺乳类动物细胞mRNA3’端存在20-30个腺苷酸组成的PolyA)尾,通常用PolyA+)表示。这种结构为真核mRNA的提取,提供了极为方便的选择性标志,寡聚(dT)纤维素或寡聚(U)琼脂糖亲合层析分离纯化mRNA的理论基础就在于此。

mRNA的分离方法较多,其中以寡聚(dT-纤维素柱层析法最为有效,已成为常规方法。

此法利用mRNA 3’末端含有PolyA+)的特点,在RNA流经寡聚(dT)纤维素柱时,在高盐缓冲液的作用下,mRNA被特异地结合在柱上,当逐渐降低盐的浓度时或在低盐溶液和蒸馏水的情况下,

mRNA被洗脱,经过两次寡聚(dT)纤维柱后,即可得到较高纯度的mRNA

5.使用Solexa进行转录组测序时,样本RNA如何进行片段化处理? cDNA插入片段长度的选择?

答:Solexa转录组测序文库构建时采用专用的打断BufferRNA样本进行片段化处理,这种方法充分利用RNA对二价阳离子的敏感性,具有稳定性好的优点,通过这种方法打断能得到更加均匀的覆盖率。

mRNA-seq可以既可以采用单端测序(single read) 还可以采用双端测序( paired end),对于单端测序来说片段长度150-200bp是理想的长度范围,对于双端测序来说片段长度推荐300-500bp,由于两端加入了Solexa的锚定序列和引物序列,样品准备完成后所获得的产物长度比插入的cDNA长度要长。

6.文库准备过程中,反转录引物的选择?

答:在进行cDNA合成过程中,经常用到的有两种引物:oligo dT引物随机引物
RNA反转录过程中使用oligo dT引物进行扩增可以保证扩增产物包括mRNA3'末端,减少rRNA的干扰,但是采用oligo dT 引物扩增有一个问题,就是扩增片段的长度偏短和扩增产物所包含的信息量偏向3’端的问题,之所以有长度偏短,一方面与RNA完整性有关,但最重要的限制在于逆转录酶的延伸能力。 用oligo dT 引物扩增出来的片段长度短,虽然都有mRNA3'端,但是序列信息多位于3'-UTR附近,若扩增序列太短,则有用信息很少,不利于序列的识别和分析。
使用Random primer扩增,虽然扩增偏短长度也很短, 但是由于它的逆转录并不一定在mRNA的末端起始,而是在随机位置起始,所以它的扩增片段带有更多CDS的信息,但是如果是用总RNA逆转录的话,有可能会受到rRNA的干扰。
采用Solexa进行转录组测序,测序文库准备过程中,由于实验之前已经采用oligo dT微磁珠进行纯化,而且mRNA已经进行了片段化处理后才进行反转录,因此反转录只能采用随机引物进行cDNA的合成,如果采用oligo dT进行扩增,只能得到mRNA3'端序列,无法得到完整的mRNA序列。

7.Solexa进行转录组测序,测序文库的制备方法及质控标准?

答:首先会样本进行质量检测,检测合格后,对样本进行测序前处理,构建测序文库,构建步骤为:

1)首先利用oligo dT微珠纯化mRNA

2)将纯化得到的mRNA进行片段化处理;

3)利用逆转录酶反转录合成cDNA第一链;

4)以cDNA第一链为模板合成双链cDNA

5)对双链cDNA进行末端修复并在3’末端加’A”

6)在DNA片段的两端连接上特定的测序接头;

7)割胶纯化连接好的cDNA片段(一般回收200-500bp之间的片段);

8)利用高保真聚合酶扩增测序文库;

9)检测测序文库。对于测序文库,需要进行质量控制,一般通过 Aligent Technologies 2100分析仪和电泳观察两种方法检测测序文库的大小,纯度及浓度。

8.转录组测序结果的影响因素?

答:RNA的降解严重影响测序的质量,RNA降解后,加入poly-A后无法捕获纯化mRNA,因此,随机引物反转录无法得到全部的cDNA,导致测序结果出现明显的3‘-5’-偏向。

文库中的poly-A多聚物的存在会对测序信号产生干扰,影响测序结果的准确性;

同时由于转录组中转录本的丰度不一致,实验前需要对样本进行均一化处理,否则高丰度的表达基因会掩盖低丰度表达基因,导致寻找新基因失败或者是获得大量无意义的重复序列。

9.转录组测序需要多大的测序量才能得到有意义的结果?

答:转录组测序前,需要对物种转录组的大小进行评估,评估方法如下:
1)对于有reference genome的物种,可以分析基因组信息,统计编码基因的个数,及其碱基数,

从而估计物种转录组的大小,另外可以查询相关或相近物种转录组研究的文献,作为参考。
2)对于无reference genome的物种则只能参考相近物种的转录组大小。
由于转录组需要进行表达量的分析,因此在转录组测序中不推荐覆盖度,在进行不同基因和不同实验间的基因表达差异分析时,人们提出了RPMRPKM的概念。

 RPMReads Per Million reads)即每百万reads中来自于某基因的reads数,考虑了测序深度对读段计数的影响。

RPKMReads Per Kilo bases per Million reads)是每百万reads中来自于某基因每千碱基长度的reads数。

因此,在确定转录组的测序量时,最好以产生的读长数目做依据,参照转录组大小,估计需要的读长数目,来确定转录组需要的测序量。

10.如何处理转录组测序中存在的系统噪音和偏差?

答:虽然深度测序技术的准确性较以前的技术有了很大提高,但仍然存在错误和噪声。比如内含子区内有一些不连续的reads,很可能由系统噪声造成,如样品污染、测序错误和不恰当的read定位策略等。

另外,外显子区域内的read信号分布有时也很不均匀。有文献报道,序列组成尤其是GC含量、RNA二级结构等也有可能是导致read不均匀分布的原因。这些噪声和分布偏好将影响新基因的识别和对剪接异构体形式和表达水平推断。
合理地建模RNA-seq数据中的系统噪声和偏好是解决上述问题最有效的办法。

基本的思路可以是:

首先根据实验原理寻找可能产生系统噪音或偏差的因素,并尽可能将这些因素转化成可量化的特征,如序列特征、二级结构等;

然后,将用实验数据对这些特征做统计分析,构造和训练模型,用模型来对数据进行校正。

需要注意的是,某些偏好是由当前的测序技术和分析方法共同造成的,难以完全消除。

在这种情况下,后续处理和解释时需要充分意识到这种偏好可能对生物学结论带来的影响,必要时通过补充其他实验来验证和修正通过高通量测序得到的生物结论。

纵观转录组研究

如今人们进行转录组分析大多是在第二代测序平台上进行RNA-seq,将样品中的RNA反转录为cDNA,构建测序文库,再进行测序分析。随着RNA-seq技术的逐渐普及,自然也出现了许多RNA-seq分析工具,面对如此多的选择您是否已经眼花缭乱了呢?本文就为您从头至尾进行了一番梳理。

人们在开始着手转录组分析研究时就会发现,不同细胞类型(如皮肤细胞和肾脏细胞)之间的区别只是基因表达的不同。所有细胞所含的DNA都是一样的,是这些DNA生产出的蛋白质决定了细胞的类型和行为。负责传达蛋白质合成指令的是RNA,而科学家们也早就意识到,RNA检测能够为他们揭示不同组织、发育阶段和疾病中特征性的基因表达差异。

RNA-Seq vs微阵列芯片

就在几年前,要获得细胞转录水平的全景图研究“转录组”还只有唯一的选择:DNA芯片。而随着第二代测序技术NGS的迅猛发展,NGS的价格也越来越亲民,大大转变了RNA研究领域的技术应用格局。

如今,人们进行转录组分析大多是在第二代测序平台上进行RNA-seq,将样品中的RNA(如总RNA、信使RNA或者非编码RNA等)反转录为cDNA,构建测序文库,再进行测序分析。

英国剑桥Wellcome Trust基因组科学院欧洲生物信息研究所的研究组带头人John Marioni说,RNA-seq技术比DNA芯片更具优势,能够对没有参考基因组或无DNA芯片产品的物种直接进行研究。芯片制造商们通常只针对果蝇、线虫、小鼠和大鼠等实验室经典模式生物生产芯片。目前有许多物种还没有参考基因组或者DNA芯片,更何况如果研究者不能提供所要检测的部分序列就无法构建相应芯片。

“如果您想要研究的是位于进化阶梯底层的生物,就没法用芯片来做,例如海绵或其他海洋软体动物等,”Marioni说。

相比之下,RNA-seq技术就不存在这样的限制,这种技术可以直接读取样本中的任何cDNA,而不论研究人员是否了解自己所检测的DNA

Marioni是一名开发RNA-seq数据分析工具的统计学家和计算机生物学家,自2008年以来就一直应用这一技术。今年他作为共同作者在Genome Res杂志上发表了一篇文章,通过RNA-seq分析了16种哺乳动物的遗传学差异和突变(包括11种非人类灵长动物),其中7种生物“此前几乎没有任何基因组数据。”

Marioni的目标是开发出实用工具,将RNA-seq原始数据转变为生物学结论。“我们得到了灵长类动物转录本的量,并且希望开发一种计算机模型,能够以输入数据就得出生物学推论。并由此判断我们分析的实验结果是偶发性事件还是有意义的数据,”Marioni解释道。

此外,与DNA芯片相比RNA-seq还具有更多优势,它提供的动态范围比芯片更宽,可以轻松检测到低丰度的转录本。DNA芯片是在荧光强度的基础上报告表达的相对值,而由于RNA-seq能够一边读取一边对转录本进行计数,它能够直接测出转录本的丰度。总的来说,RNA-seq不仅能够揭示转录本结构和剪切事件,还能够识别融合基因、等位基因特异性突变等等。

随着RNA-seq技术的逐渐普及,自然也出现了许多RNA-seq分析工具,而这些工具也逐步进入市场。不论是在前期的样品制备阶段还是实验末期的生物信息学分析阶段,您都能找到适合自己需要的工具。

RNA-Seq样品制备

Illumina产品市场主管Jeremy Preston介绍道,RNA-seq与其他二代测序技术的差异主要在于RNA。“你不能直接对RNA进行测序,必须先将其转换为DNA。这是RNA-seq区别与其他测序方法的关键阶段。”一旦得到了cDNA,剩下的就和其他测序一样了,Preston说,完全可以直接套用测序仪自带的文库制备方案。

例如Illuminas TruSeq RNA Sample Preparation Kits试剂盒就能从总RNA生成测序文库。该试剂盒可以一次“indexing”(即条码)多至24个样本,这意味着HiSeq 2000的每次运行能够处理多达384个样本(每个通道lane容纳24个样本,共有16个通道)。Preston介绍道,现在正在研发新的indexing试剂,将会使每个通道容量增加到96个样本。

在典型表达图谱研究中,研究人员对每个样本进行转录组分析得到的读序约在一千万到两千万之间,这就意味着在一次满负荷HiSeq运行中(即三十亿读序)能够至少同时对100个样本进行分析,Preston说。如果要进行深入分析,例如鉴别新转录本或者罕见非编码转录本,每个样品可能需要五千万到一亿的读序,而每个Illumina通道仍足以容纳两个样本,“但这已经算是极端情况的研究了,”他说。

Illumina公司于2011年收购了Epicentre Biotechnologies,并由此大大扩充了RNA-seq产品线。其中就包括Ribo-Zero ribosomal RNA removal kits,该产品能够从样品中去除无关的高丰度转录本来增强灵敏度。此外,Illumina还提供能在一天内完成RNA-Seq文库制备的“无缝衔接,点对点”ScriptSeq Complete Kits

其他测序仪供应商也同样有多种RNA-Seq试剂盒供应。Life Technologies公司的Ion Total RNA-Seq Kit v2含有构建代表性cDNA文库所需的一切,更能保留链信息,用于在Ion PGM测序仪上进行链特异性的RNA测序。据罗氏公司的市场经理Clotilde Teiling介绍,他们并没有为454 GS FLXGS Junior系统提供专门的RNA-seq试剂盒,不过罗氏的cDNA合成系统试剂盒能够用于从RNA合成cDNA来制备文库。

此外,您还可以选择安捷伦公司的SureSelect RNA Capture kit等第三方工具,来进行您的RNA-Seq实验。

NGS测序硬件

幸运的是,市面上的测序平台大多支持RNA-seqIlluminaRoche/454Life Technologies等大型测序仪供应商都使其产品硬件兼容RNA-seq应用。著名服务供应商,位于美国休斯敦的SeqWright公司就拥有Roche/454454 TitaniumGS-FLX+平台、IlluminaHiSeq 2000MiSeq™平台以及Life Technologies公司的SOLiD 45500xlIon Torrent PGM™平台。该公司的用户可以选择在上述任意一种平台上进行他们的RNA-seq研究。

“每个平台都有各自的优劣,”SeqWright公司的Adam Pond解释道。“对于那种包括多种混合样本的大型项目,我们会选择在Illumina HiSeq上进行。而将Ion Torrent用于细菌转录组研究能够以最优价格获得最多数据。不过的确每个平台都能够进行RNA-seq。”

Marioni在工作中使用的是Illumina Genome Analyzer IIx。“我很自然就会想用这种技术来采集RNA-seq数据,”他说。这可能是因为该技术得到的读序非常多,能使其用户更深入的对转录组进行分析。实际上,Teiling也建议那些只想简单检测转录本量的454用户使用Illumina测序仪或者甚至采用DNA芯片,因为后者“仍然是衡量mRNA水平的一种好选择。”

不过,她也提到在454s GS FLX平台上进行RNA-seq仍然有相当的用户基础,尤其是当研究者们希望利用非模式生物的转录组数据来进行初步基因组装配时。这是因为,尽管454读序数量较少但其读长能够达到700bp,能够轻松与参考基因组进行比对(如果存在参考基因组),也能方便地在样品之间相互比对。Teiling说,其生成的“isotigs”(RNA重叠群contigs)可以用于检测转录本结构和等位基因差异,识别新的剪切突变、基因多态性和融合基因等事件。

2011年的一项研究中,454(包括Teiling)的研究人员就与康奈尔大学合作在GS FLX Titanium平台上对驯化和野性的银狐(这种哺乳动物的基因组DNA序列未知)进行了相互比较,随后又与家养犬基因组进行了比对。在研究过程中,他们 “识别了三万多个高度可信的银狐特异性SNP,以及与狗直系同源的14,000个银狐基因,并且发现在前额叶中驯化和野性银狐的基因表达存在重要差异。”

数据分析

目前,测序当然并不是难事,重点在于有效的数据分析。而RNA-seq这一新兴技术在这一方面还面临着一些障碍,Marioni说。其中之一就是数据分析并不容易,仅将读序与参考基因组相比对这一步,就需要“至少六十种算法,”他说。而多种多样或免费或商业化的数据分析工具更让人眼花缭乱,

总的来说,RNA-seq的数据分析与其他测序分析并不相同。基因组DNA测序的目的主要是组装基因组或者检测基因突变,而RNA-seq的目标往往是检测转录本的量。RNA-seq数据分析首先要将读序与参考序列比对,而这里就存在两种不同途径,与参考基因组比对或者与转录组比对。由于前者包含了剪切点信息,那么分析软件就必须要能够进行处理。

Marioni推荐的是分析RNA-seq数据的BOWTIEBWA软件,以及一些类似的公开又免费的command-line工具,对计算机内行的研究者们可以将这些软件捆绑成为“pipelines”。当然,您也可以使用测序仪自带软件进行分析,或者干脆把分析工作外包给线上数据分析平台(如DNAnexus)或者SeqWright等服务供应商。

这类分析所得的结果通常是列出在实验中表达水平发生改变的基因,而从这张清单中得出怎样的结论,要选择哪些基因进行后续研究,就完全取决于用户了。“许多转化医学研究人员需要根据这些信息来决定后续实验,以便把研究的重心放在与所研究表型紧密相关的通路和生物标志上,”Ingenuity Systems公司的iReport™科学带头人Megan Laurance说,他们开发了iReport软件。

iReport是一个以网络为基础的分析软件,能够帮助研究人员识别其RNA-seq数据背后的相关生物学通路。Ingenuity Systems公司的知识库包含了来自生物医学文献和相关数据库的近五百万研究结果,而iReport软件就是在此基础上建立起来的,能够有效帮助用户识别关键基因和生物学过程。

“我们iReport的目标是为研究者们提供快速简单的数据分析工具,帮助用户了解RNA-seq数据中所包含的生物学信息,”Laurance说,花$495就可以得到一份这样的报告。

参考文献

[1] Perry, GH, et al., Comparative RNA sequencing reveals substantial genetic variation in endangered primates, Genome Res, 22:602-10, 2012.

[2] Kukekova, et al., Sequence comparison of prefrontal cortical brain transcriptome from a tame and an aggressive silver fox (Vulpes vulpes), BMC Genomics, 12:482, 2011.

参考来源:http://www./newsf/2012-9/201297113503835.htm

 

 

 

 

 

转录组测序概述及实验分析流程

一、 转录组测序概述

转录组是特定物种、组织或细胞类型转录的所有RNA(转录本)的集合,包括mRNA非编码RNA(Non-coding RNA 非编码RNA又包括:tRNArRNAsnoRNAmicroRNApiRNAlncRNA等。通过比较转录组或基因表达谱的研究以揭示生物学现象或疾病发生的分子机制是高通量组学研究的一个常用策略。利用高通量测序技术研究转录组在全面快速得到基因表达谱变化的同时,还可以通过测定的序列信息精确地分析转录本的cSNP(编码序列单核苷酸多态性)、可变剪接等序列及结构变异,另外对于检测低丰度转录本和发现新转录本具有其独特的优势。

二、 转录组测序技术优势

1.直接得到核酸序列信息,除了得到基因表达量的差异,更可以检测RNA的结构和结构变异。

2.开放性的转录组分析:无需参考基因组信息,无需设计探针,不但能检测已知基因还能够发现新的转录本。

3. 在测序覆盖率足够大时能够检测到细胞中的低丰度转录本。

4.随着测序深度的增加可以获得更广的动态检测范围,能够同时鉴定和定量高丰度转录本和低丰度转录本。

三、 转录组测序实验技术路线

转录组测序概述及实验分析流程

四、 转录组测序数据分析技术路线

转录组测序概述及实验分析流程

利用转录组测序如何研究选择性剪接规律?

1.利用转录组测序如何研究选择性剪接规律?

答:在真核生物中,选择性剪接现象普遍存在。基因转录形成的mRNA前体(pre-mRNA)在剪接过程中因去掉不同的内含子区域或保留不同的外显子区域,可形成不同的剪接异构体.

根据RNA-seq原理,只要测序深度足够深,就能检测到所有转录本的全部序列,包括来自剪接接合区的序列。利用考虑到接合区的reads定位方法,就有可能系统地研究某一组织或某一条件下的基因选择性剪接事件。
   Tophat
等软件定位剪接接合区reads的策略能标定出剪接事件中的两个剪接位点:供体位点和受体位点. 通过比较供体位点和受体位点的组合,就能识别选择性剪接事件。进一步,通过对供体和受体位点的reads计数,结合外显子其他区域的reads数据,还能定量地计算选择性剪接事件之间的比例。
  
对于每一个剪接异构体,RNA-seq数据能在一定程度上推断其表达水平。比如,可以根据已知外显子组成和各外显子长度对剪接异构体建立数学模型,在测序reads在转录本上均匀分布的假设下,利用各外显子上的reads数和接合区reads数求解异构体的表达值。软件IsoInfercufflinks都采用了这种思路来实现剪接异构体的表达推断。

利用转录组测序如何研究选择性剪接规律?

可变剪接与蛋白质组多样性及其调节机制

前言

可变剪接是指从一个mRNA前体中通过不同的剪接方式(选择不同的剪接位点组合)产生不同的mRNA剪接异构体的过程。可变剪接是调节基因表达和产生蛋白质组多样性的重要机制。剪接过程受多种顺式作用序列和反式作用因子相互作用调节。包括SRhnRNP家族蛋白在内的多种剪接因子参与这一调节过程。转录机器(machine)也参与可变剪接的调节。本文将讨论:.可变剪接与蛋白质组多样性 二. 可变剪接的调节机制。

第一部分 可变剪接与蛋白质组多样性5

据预测,人类基因组可能有约35,000个基因,果蝇约14,000个,而简单的模式生物线虫约19,000个基因。生物的复杂性与其基因组基因数量似乎存在明显差异。原因在蛋白质组。基因重排,RNA编辑,和可变剪接等机制可以从一个基因产生多种蛋白,从而使蛋白质组中蛋白质的数量超过基因组中基因的数量。其中,从影响的基因数量和生物种类范围来看,可变剪接是扩大蛋白质多样性的最重要的机制14

一、可变剪接的频率。5,6

1. 5%1977Walter Gilbert提出可变剪接概念,1980Baltimore在小鼠IgM基因发现第一个可变剪接产生膜型、分泌型IgM,至2001年,用经典分子生物学实验的方法研究,一共仅发现了数百种有可变剪接的基因。并推测在高级真核细胞生物约5%的基因有可变剪接。

2. 35%60%高通量的基因组测序和EST测序,使得生物信息学的方法研究可变剪接成为可能。

EST来源于完全加工的mRNA, 它们提供了一个广泛的mRNA多样性的样品库。这种多样性可以用计算机分析。最近两年,多个研究小组通过不同的生物信息学的方法,从整个人基因组的水平进行分析,结果一致显示约35%60%的人基因有可变剪接形式。

而且,由于对大多数基因来说,每个基因只测了很少几EST甚至没有ESTEST不是全长的mRNA,多位于mRNA5’和3’端;EST来源于有限的组织和发育阶段;很有可能存在有更多的可变剪接而在现在的EST库中没有显示。因此实际可变剪接的频率可能比预测的更高。这还有待于建立新的高通量的分子生物学方法,如生物芯片的方法,以进一步实验验证。

二、单个基因可变剪接产生的多样性5

一个基因可以通过如下几种方式产生多个转录体,如不同的转录起始位点,可变剪接,选择不同的加尾信号位点,RNA编辑等。可变剪接包括3种类型:

1.内含子的保留;

2.可变外显子的保留或切除;

3. 3’和5’剪接位点的转移(shift)导致外显子的增长或缩短。可变剪接对蛋白质结构的影响也是多样性的,如多肽链中一个到数百个氨基酸的增加或减少;某功能域的有无;如果可变剪接使读码框架改变,则可能无法有效翻译,mRNA被监视系统降解。

单独一个基因通过可变剪接产生的十几种剪接异构体的现象很常见。

有些基因甚至能够产生成千上万种剪接异构体。

最突出的例子是果蝇(Drosophila melanogaster ) 的Dscam 基因,可以通过可变剪接产生38,000多种mRNA异构体。Dscam 基因编码一个神经元轴突定向受体,它细胞外有一个由10个免疫球蛋白重复序列组成的结构域,第237个免疫球蛋白重复序列分别由第469号外显子编码,4号外显子盒(cassette)有12个变异体,6号外显子有48个变异体,9号外显子有33个变异体,再加上17号外显子的2个变异体。每个成熟的Dscam mRNA分别只有一个有46917号外显子的变异体,由此理论推测Dscam 基因共有12×48×33×238016剪接异构体。对Dscam 基因50cDNA克隆随机测序发现了49种不同的剪接异构体, 说明实际存在的剪接异构体即使没有理论那么多,也至少有上千种。人的Neurexins, n-Cadherins, calcium-activated potassium channels等基因也有类似的高度多样的剪接异构体。

上述现象非常类似于淋巴细胞TCR或免疫球蛋白的胚系基因重排,不同之处在于后者发生在DNA水平,前者发生在RNA水平。基因重排产生的高度多样抗原受体库可以识别高度复杂的自身和异己抗原。

Dscam基因的转录异构体可能有神经系统的发育有关。神经元的定向迁移和相互连接可能是发育过程中最复杂的事件。果蝇约有25,000个神经元,要使它们生长的轴突准确的,可重复性的到达目的地,使这些神经元准确的连接在一起,必然需要一个特殊的系统。Dscam 基因的38,000多种mRNA异构体,每个异构体各编码一个不同的受体,每个受体具有识别不同分子定向信号的潜能,从而有能力指导各个生长的轴突到达准确的位置。

如果将可变剪接与其它RNA加工过程(如RNA编辑)联系起来共同考虑,基因产物会更复杂。

例如,果蝇的para基因(voltage-gated action potential sodium channel)有13个可变外显子,可编码1536种不同的mRNA,另外,para的转录体还要经过在11个已知位点的RNA编辑,这样理论上一共可以产生1032192个不同的para 转录异构体。

根据受可变剪接影响的基因的概率,以及单个基因可能产生的可变剪接体的数目,

足以表明可变剪接对蛋白质组多样性的巨大影响。

三、可变剪接的功能和生物学意义5,11

1. 可变剪接是在RNA水平调控基因表达的机制之一。

一个基因通过可变剪接产生多个转录异构体,各个不同的转录异构体编码结构和功能不同的蛋白质,它们分别在细胞/个体分化发育不同阶段,在不同的组织,有各自特异的表达和功能。因此,可变剪接是一种在转录后RNA水平调控基因表达的重要机制。

目前已知的可变剪接异构体中,只有一小部分明确确定了功能和生物学意义。

第一个确定的可变剪接异构体功能是 IgM基因,其末端最后两个外显子的可变剪接,决定了所编码的膜型/分泌型IgM的产生。

最著名的例子是果蝇性别决定系统,在此系统中,至少5个基因(sxl, tra, msl2, dsx, and fru) 转录体的可变剪接级联反应最终决定了果蝇雄性和雌性性别特征的表达。有些基因,可变剪接造成的蛋白质异构体之间功能上的差异没有被实验检测出来。不过阴性的结果不能代表没有功能差异,只是目前没有检测出来而已。也有很多异构体造成读码框架改变,不能被翻译为蛋白质,而是直接被降解了。真核生物也有mRNA监视系统NMD(nonsensemediated degradation),检测 mRNA中异常提前出现的终止密码子,一经发现,立即降解异常的mRNA,防止其翻译。在大多数情况下,检测可变剪接造成的蛋白质异构体之间功能上的差异的实验还没有开展。最近发展的RNAi技术,可以适应高通量的从功能基因组水平研究各基因可变剪接异构体的功能的要求。2000年已经有人将RNAi技术应用于模式生物线虫的可变剪接异构体的大规模研究上。(目前已经大量开始用于哺乳动物系统)

2.多样性与复杂性

可变剪接是从相对简单的基因组提高蛋白质组多样性的重要机制,蛋白质组的多样性与多细胞高等生物的复杂性相适应。从可变剪接涉及的基因分布格局分析,可变剪接多发生在参与信号传导和表达调节等复杂过程的基因上,如受体,信号传导通路(凋亡),转录因子等。对个体分化发育和一些关键的细胞生理过程如凋亡、细胞兴奋等的精确调控有重要意义。

从可变剪接涉及的基因系统分类分析,可变剪接多发生在免疫和神经等复杂系统。

正如Dscam 基因所示,可变剪接产生的多样性,赋予这些系统精确处理复杂信息相适应的潜力。

第二部分可变剪接的调节机制7

可变剪接能够产生惊人的多样性,但我们对其调节机制所知不多。剪接位点的选择受到结合到非剪接位点RNA元件的剪接因子的多重调节。参与可变剪接调节的RNA元件包括ESEISEESSISS

剪接因子包括SRhnRNP家族蛋白等多种因子。

真核生物新生的mRNA前体经过5’戴帽,剪接,3’加尾等加工成为成熟的mRNA

在剪接反应过程中,含有内含子和外显子的新生的mRNA前体,在剪接体作用下切除内含子,并将外显子依次连接起来的过程。剪接反应由剪接体执行,剪接体包括5个小核糖核蛋白复合体U1,U2,U4,U5 U6 snRNPs ,和50-100种非snRNP蛋白。

剪接体通过RNA-RNA,RNA-蛋白质,蛋白质-蛋白质等多重相互作用以精确切除每个内含子和以正确次序连接外显子。

为有效剪接,绝大部分内含子需要:

1.一个保守的5’剪接位点,A/CAGGURAGU

2.一个分支点序列BPS , YNYURAY,后面跟着一个多聚嘧啶Pytract Y10-20

3.一个3’剪接位点YAG

剪接体的形成是一个多步骤依次进行过程,形成多个中间体:

1 E-复合体形成:U1snRNA通过碱基互补识别5’剪接位点,SR蛋白结合。U2AF65U2AF35识别多聚嘧啶Pytract3’剪接位点;

2  A-复合体形成:U2snRNA通过碱基互补识别分支点序列BPS;需ATP

3  B-复合体形成:U4/U6 _ U5 tri-snRNP随后与mRNA结合;

4  C-复合体形成:最后,RNA-RNA,RNA-蛋白质相互作用构象改变形成有催化活性的剪接体。

(见图1

一、参与可变剪接的RNA顺式作用元件:

根据它们所在的位置和作用特点,分为4类:

1.ESE: exon splicing enhancer 外显子剪接增强子;

2.ISE: intron splicing enhancer 内含子剪接增强子;

3.ESS: exon splicing silencer 外显子剪接沉默子;

4.ISS: intron splicing silencer 内含子剪接沉默子。

ESEISE是剪接因子SR蛋白结合位点,提高相邻剪接位点的活性。ESSISShnRNP蛋白结合位点,抑制相邻剪接位点的活性。ESEISEESSISS都是很短的序列基序,一般由6-10碱基组成。每一类成员内部之间即有相对的特异性,也有简并性,作用有交叉和冗余。

 

二、SR蛋白

SR蛋白是一个多细胞生物中高度保守的剪接因子家族,其成员多带有一个或二个拷贝的RNA识别基序(RRM),后面有一个精氨酸/丝氨酸富含结构域(RS)。RRM介导RNA结合,并决定各SR蛋白的底物特异性;RS结构域参与蛋白-蛋白间相互作用。各SR蛋白在固有剪接和可变剪接中有多种作用。其中之一是识别并结ESEISE,提高相邻剪接位点的活性。SR蛋白的底物ESE/ISE含有简并性的共有识别序列基序,因此不同SR蛋白之间底物有交叉,其特异性取决于SR蛋白各自的表达水平、亲和力和与其它蛋白的相互作用。

SR-相关蛋白(SRrp)是另一组带有SR结构域,并参与剪接反应的蛋白。它们可能有RRM,如U1-70K蛋白,U2AF65/35SRm160/300KD(两个SR相关核基质蛋白),和可变剪接调控因子,如TraTra2SRSRrp都可以增强相邻弱(suboptimal)剪接位点的活性。

三、hnRNP蛋白

hnRNP蛋白是一组由多种RNA结合蛋白组成的具有多种功能的多肽家族。

其成员带有多种不同形式的RNA结合基序和富含甘氨酸结构域。富含甘氨酸结构域可能参与蛋白-蛋白相互作用。hnRNP ABC家族的蛋白与新生的mRNA前体组装成40S的结构。

多种hnRNP蛋白始终伴随mRNA,影响mRNA的剪接,出核转运,甚至在胞浆的翻译,RNA定位,和降解。

四、SR蛋白和hnRNP A/B蛋白在剪接位点选择中的拮抗作用

单个SR蛋白在5’位点的选择使用上有相似作用:增加蛋白浓度,结果将在pre-mRNA的两个或多个5’可变剪接位点中促进选择使用内含子近端的5’位点。

值得注意的是,hnRNP A/B蛋白作用正好相反:它们促进选择内含子远端的5’位点。不同SR蛋白个体有时可能作用相反。如SF2/ASF SC35在β-tropomyosin可变剪接调节中的拮抗作用。

SF2/ASFhnRNP A1的功能拮抗作用基于它们对mRNA前体的竞争性结合。用双5’剪接位点mRNA前体为底物实验,表明SF2/ASF 干扰hnRNPA1对双5’位点的结合,同时增高了U1 snRNP的对两个5’位点的结合,在此条件下近内含子的5’位点被选择剪接(与3’位点最近)。相反,hnRNPA1非选择性的结合到此mRNA前体,同时干扰了U1 snRNP的对两个5’位点的结合,结果是选择了远端的5’位点。

SR蛋白和hnRNP A/B蛋白一般不需要识别特异性的靶序列,就可发挥对可变剪接位点的选择作用。但它们要发挥增强子或沉默子的作用,就必须结合到特异性的位点。在增强子依赖性剪接中,SR家族蛋白结合到ESE,就能够促进招募U2AF到多聚嘧啶序列PYtract,而活化邻近的3’剪接位点。ESE结合的SR蛋白通过RS结构域介导与U2AF35亚基的相互作用参与这一活性。或者,ESE结合SR蛋白可能与剪接共活化因子SRm160作用,通过一系列反应招募U2AF65到多聚嘧啶序列PYtract。最后,剪接增强子ESE可以拮抗由识别外显子剪接沉默子ESShnRNP蛋白的介导的抑制作用。

例如,在HIV-1 tat基因,其外显子3含有SF2/ASF SC35-依赖性ESE,和一个结合hnRNP A1的沉默子ESS3hnRNP A1结合ESS3后可以引发hnRNP A1与外显子上游区域的结合。ESE结合的 SF2/ASF,可阻止此作用;而SC35不能拮抗hnRNP A1的作用。因此,此ESS3抑制SC35,而非 SF2/ASF依赖的剪接。

SRhnRNP A/B蛋白的相对浓度,也是影响组织和发育特异性可变剪接格局的重要调节因素。在不同的组织,SR蛋白的总浓度和个体浓度不同,特别是SF2/ASF和它的拮抗剂hnRNP A1的分子摩尔比更是不同。另外,蛋白磷酸化可调节SRhnRNP A/B蛋白活性。提示可变剪接受细胞外信号的调节。SR蛋白家族成员功能有重叠和冗余,但各成员也有一定特异性。

五、多聚嘧啶序列结合蛋白(PTB)

PTB,又称hnRNP1,识别3’剪接位点前的多聚嘧啶序列,有抑制剪接作用。机制可能是与U2AF竞争性结合多聚嘧啶序列。PTB自身就有3个剪接变异体PTB1,2,3,各自在可变剪接中有不同的作用。

六、CELF蛋白家族

CELF家族的蛋白(CUG-BP ETR3-like factors) 参与细胞特异性和发育调节的可变剪接。这些RNA结合蛋白包含3RRM和一个功能未知的接头。CELF3CELF5仅在脑组织表达;CUG-BPETR-3CELF4表达较广泛,但在脑组织和横纹肌表达受发育调控。CELF蛋白结合到cTNT基因的肌肉特异性增强子MSE,并促进受发育调节的外显子5的保留(inclusion)。

七、组织特异性因子

一般性剪接因子之间的拮抗作用,如SR蛋白和hnRNP蛋白,是造成多种的可变剪接形式的原因之一。而组织和发育特异性调节的剪接因子,也在可变剪接的调节中也发挥着重要作用。但寻找这种剪接因子的进展非常缓慢。

在神经系统可变剪接是一种普遍现象。NOVA1是一种带有KH RNA结合结构域(hnRNP K homology)的神经元特异性RNA结合蛋白,它调节神经元特异性可变剪接,是神经元的功能活性必需的因子。NOVA1识别GlyRα2 pre-mRNA可变外显子3A相邻的一个内含子位点,促使该外显子的保留。该活性被另一个神经元富含的剪接因子brPTB拮抗。brPTBPTB的一种异构体,它可以诱导hnRNP复合体的组装(packing),封闭了可变外显子3A的剪接体识别位点,使之被切除。同样brPTB介导了c-src pre-mRNA N1外显子的神经元特异性剪接。

八、多重调控

即使是一个剪接位点的选择,也往往是剪接信号和多种调节信号ESEISE, ESSISS等及相应的多种剪接因子组成的复合体的共同作用的结果。而不是由单个的基因特异性的因子所决定。这种机制非常类似于基因的表达调控,其优点在于:

1.特异性: 剪接信号和多种调节信号序列都很短,且有简并性,单个信号的一级结构的信息量很少,而剪接复合体多种成分之间弱相互作用的叠加可以产生特异性的识别。

2.敏感性:不同细胞剪接复合体某个成分发生改变,同时其它成分保持稳定,则可以产生敏感的反应。

九、转录在可变剪接中的作用10

转录和mRNA前体的加工、转运、降解并不是相互独立的过程。

RNA 聚合酶Ⅱ(POLⅡ)的延伸过程与mRNA前体的三个加工过程(戴帽、剪接、加尾)在时间和空间上高度协同。POLⅡ靶基因的转录活化将招募SR蛋白到转录区域。RNA POLC末端结构域(CTD)介导mRNA的合成与剪接的偶联作用。

RNA POLⅡ或CTD的抗体可以免疫共沉淀SR蛋白,并可在体内和体外阻断mRNA的剪接加工。无CTDCTD截短的RNA POLⅡ产生的转录本不能被有效的剪接。

调节基因表达的启动子结构也影响可变剪接。例如,有人将受不同的启动子启动的,带有可变剪接外显子EDIα-globin/fibronectin 微基因转染人细胞系,发现在FN CMV启动子作用下,EDI的保留比α-globin启动子高10倍左右。EDI带有一个ESE,是SR蛋白SF2/ASF9G8的靶点。SF2/ASF9G8过表达促进EDI的保留,但此作用受启动子的调节。

十、转录和可变剪接偶联的分子模型7,10

1. 启动子模型。

启动子或增强子可能通过与之结合的转录因子来招募SR家族蛋白。例如:P52,一种转录辅助活化因子,可以直接于SF2/ASF作用而促进mRNA前体剪接。

另外一些蛋白可能有双重功能:即参与转录,也参与剪接。如人转录活化因子PGC-1, 它可以促进一个可变外显子的保留,但此作用只有在它被招募到与基因启动子相互作用的转录复合体时才有这种作用。当启动子突变,招募PGC1的转录因子不能结合到DNA时,PGC1就没有这种效应。其它转录因子,如WT1SAF-B,也有偶联剪接的作用。Prp40, ESS1,CA150三用。一组称为SRCTG结合因子(SCAF),与SR蛋白相似,带有RS结构域和RNA结合结构域,有人推测它们也可能具有偶联剪接和转录的功能。

2。延伸速率模型。

启动子替换法是一种有效的研究转录对可变剪接的调节作用的方法。然而自然界不存在启动子替换现象。另一种方法是用不同的转录因子作用于同一个启动子,以研究转录和可变剪接的偶联机制。

最近,有报道SV40T-AgVP16两种转录因子对可变剪接有截然相反的作用。

一方面,SV40T-Ag降低RNA POLⅡ的延伸活性,增加了FN EDI外显子的保留。

另一方面,VP16促进RNA POLⅡ的延伸活性,抑制了EDI的保留。这就是延伸速率模型的基础,即RNA POLⅡ延伸速度减慢,或中间停顿,则有利于可变剪接外显子上游的内含子的切除,一般该内含子3’剪接位点效应较弱。等RNA POLⅡ继续前进,剪接体只能切除下游的内含子,使得可变外显子保留。

如果RNA POLⅡ延伸速度快,或没有中间停顿,则两个3’ 剪接位点之间竞争,下游的强3’ 剪接位点效应更强,导致了可变外显子的去除。

另外,延伸速率对RNA二级结构的作用,RNA POLⅡ停止位点迟缓ESEESS转录的作用,也影响可变剪接。

 结束语:

发现新的可变剪接异构体,确定每个异构体的独特功能和生物学意义,并阐明其调节机制,是功能基因组时代研究的一个重要领域。

在这一领域研究中,除利用经典的分子生物学技术外,还需建立新的高通量的技术,如生物芯片技术,RNAi技术等,并要与生物信息学技术紧密结合,同时需要细胞生物学、生物化学、临床与病理学、免疫学等多学科的协作,才有可能对这一重要的生命现象有所了解。

参考文献

1  Ewing, B. and Green, P. (2000) Analysis of expressed sequence tags indicates 35,000 human genes. Nat. Genet. 25, 232–234

2.Adams, M.D. et al. The genome sequence of Drosophila melanogaster. Science 287, 2185–2195 (2000).

3. The C. elegans Sequencing Consortium. Genome sequence of the nematode C.

4 Pennisi, E. Human genome project: and the gene number is...? Science 288, 1146–1147 (2000).

5 Brenton R. Graveley Alternative splicing: increasing diversity in the proteomic world. TRENDS in Genetics Vol.17 No.2 February 2001

6. Barmak Modrek & Christopher Lee. A genomic view of alternative splicing  nature genetics · volume 30,13-19 ·January 2002

7. Javier F. Cáceres and Alberto R. Kornblihtt  Alternative splicing: multiple control

mechanisms and involvement in human disease TRENDS in Genetics Vol.18 No.4,186-193  April 2002

8 Michelle L Hastings and Adrian R Krainer Pre-mRNA splicing in the new millennium. Current Opinion in Cell Biology 2001, 13:302–309

9 Douglas L. Black  Protein Diversity from Alternative Splicing: A Challenge for Bioinformatics and Post-Genome Biology. Cell, Vol. 103, 367–370,October 27, 2000,

10 Aaron C. Goldstrohm, Arno L. Greenleaf, Mariano A. Garcia-Blanco . Co-transcriptional splicing of pre-messenger RNAs: considerations for the mechanism of alternative splicing.

 Gene 277 (2001) 31–47

11 Malka Nissim-Rafinia and Batsheva Kerem TRENDS in Genetics Vol.18 No.3 March 2002

 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多