分享

NGS测序专业词汇解析!

 Cheximing 2022-06-12 发布于上海

来源:基因江湖

JI
CHU
CE
XU

图片

概念英文解释
染色质chromatin间期细胞核内由DNA、组蛋白,非组蛋白及少量RNA组成的线性复合结构。染色质进一步压缩就成为染色体。
染色体chromosome细胞在有丝分裂或减数分裂过程中,由染色质凝缩而成的棒状结构。
基因gene是生物体遗传信息的基本单位,是编码产生一种有生物学功能产物----蛋白质(多肽)或RNA所必需的全部核酸(DNA或RNA)序列;也是可以人工操作用于改造生命属性的元件。按照这一概念,一个基因不仅应包括编码蛋白质肽链或RNA所必需的核苷酸序列,还包括为保证转录所必须的调控序列、5’-和3’-非翻译序列、内含子等所有的核苷酸序列。
外显子exon基因中的编码序列。外显子是真核生物基因的一部分,它在剪接后会被保存下来,并可在蛋白质生物合成过程中被表达为蛋白质。外显子是最后出现在成熟RNA中的基因序列,又称表达序列。
内含子Intron基因的非编码序列,可被转录,但在mRNA加工过程中被剪切掉,故成熟mRNA上无内含子编码序列。
密码子codon密码子(codon)是指信使RNA分子中每相邻的三个核苷酸编成一组,在蛋白质合成时,代表某一种氨基酸的规律。
微卫星DNAmicro-satellite DNA长度小于10 bp,一般为2~6 bp,以二核苷酸重复(CA)n最常见,又称为短串联重复序列(short tandem repeat,STR)
高通量测序Next-generation sequencing、High-throughput sequencingNGS(下一代测序技术):又称高通量测序,相对于一代测序而言,能一次并行对几十万到几百万条DNA分子进行序列读取,在提供丰富的遗传学信息的同时,还可大大降低测序费用、缩短测序时间的测序技术。
一代测序
以桑格(Sanger)链终止法为代表。该法以待测DNA为模板复制出大量DNA片段,同时用一种“终止核苷酸”ddNTP干涉此复制过程。ddNTP可以随机地附着在任意一个生长中的片段端口并终止它继续成长,从而造成了大批具有相同起点但却有不同终点的DNA片段。使用电泳技术可以让这些片段按长度排列,并依次通过一个激光窗口。由于ddNTP按其所截断的端口不同而产生不同的荧光,计算机可以根据荧光的颜色和片段的长度逐个“读出”该DNA的核苷酸序列。
ReadRead测序产生的每一条连续的序列称为一个Read;原始下机数据称为Raw Reads;通过生物信息的方法,去除一些质量差的reads,得到Clean Reads;比对到参考基因组上的Reads称为Mapped Reads。
测序深度Sequencing Depth测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。
覆盖度coverage覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。
GapGap由于基因组中存在的复杂结构,导致测得的序列不能完整地覆盖整个基因组,中间缺失的序列被称为Gap。
碱基质量值quality在高通量测序中,每测一个碱基都会给出相应的质量值,体现测序过程中碱基识别的可信度和错误率。碱基 Q 值越大其识别错误的可能性越小,可信度就越高。Q20:表示碱基识别错误的概率为1%。Q30:表示碱基识别错误的概率为 0.1%。
单向/单端测序Single-Read Sequencing首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在Flowcell上生成DNA簇,上机测序单端读取序列。
双向/双端测序Paired-End Sequencing双向/双端测序:在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序。
文库library二代三代测序读长都是有限的,为此必须将全长的序列打断成小片段的文库才能进行测序。总的来说,在NGS分析之前,制备RNA或DNA的主要步骤包括:片段化和/或筛分指定长度的目标序列;将目标片段转化成双链DNA;在片段末端连上寡核苷酸接头;以及定量最终的文库。
DNA总量
送检样本中提取的DNA的总质量
DNA质量
通过检测DNA的片段降解程度,评估DNA的完整性
基因组注释Genome annotation基因组注释(Genomeannotation) 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。
比较基因组学Comparative Genomics比较基因组学(ComparativeGenomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。利用模式生物基因组与人类基因组之间编码顺序上和结构上的同源性,克隆人类疾病基因,揭示基因功能和疾病分子机制,阐明物种进化关系,及基因组的内在结构。
表观遗传学Epigenetics表观遗传学是研究基因的核苷酸序列不发生改变的情况下,基因表达了可遗传的变化的一门遗传学分支学科。表观遗传的现象很多,已知的有DNA甲基化(DNAmethylation),基因组印记(genomicimpriting),母体效应(maternaleffects),基因沉默(genesilencing),核仁显性,休眠转座子激活和RNA编辑(RNA editing)等。
靶向测序Target region sequencing对感兴趣的基因区域设计芯片和探针,进行区域DNA富集后高精确度的序列分析,相比于全基因组和转录组测序,靶向区域测序的目标序列较少,可达到的测序深度较高,成本较低,可以获得质量较高的测序结果。该测序常用于临床上进行疾病相关致病基因和易感基因的信息获取,用于临床指导个性化治疗方案的制定。
外显子测序Whole Exon Sequencing外显子组靶向测序采用了旨在检测出编码外显子的富集策略,是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。以人外显子组为例,其包括约1%的基因组,另外还包含约85%的致病突变。对于尝试找出6800多种罕见病病因的基因研究人员而言,外显子组测序可检测出单核苷酸变异(SNV)、小部分基因插入或缺失(indel)以及罕见的新生突变,由此说明复杂疾病的遗传率。外显子组测序外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel等具有较大的优势,但无法研究基因组结构变异如染色体断裂重组等。
基因组重测序Genome Re-sequencing全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。以人基因组测序为例,随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。
De novo测序De novo sequencing也称为从头测序,其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展,基因组测序所需的成本和时间较传统技术都大大降低,大规模基因组测序渐入佳境,基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力,可以高效、低成本地测定并分析所有生物的基因组序列。
转录组测序RNA-Seq转录组测序,是基于第二代测序技术的转录组学研究方法:首先提取生物样品的全部转录的RNA,然后反转录为cDNA后进行的二代高通量测序,在此基础上进行片段的重叠组装,从而可得到一个个的转录本。进而可以形成对该生物样品当前发育状态的基因表达状况的全局了解。。
小RNA测序Small RNA-seqSmall RNA(miRNAs、siRNAs和 pi RNAs)是生命活动重要的调控因子,在基因表达调控、生物个体发育、代谢及疾病的发生等生理过程中起着重要的作用。Illumina能够对细胞或者组织中的全部Small RNA进行深度测序及定量分析等研究。实验时首先将18-30 nt范围的Small RNA从总RNA中分离出来,两端分别加上特定接头后体外反转录做成cDNA再做进一步处理,利用测序仪对DNA片段进行单向末端直接测序。
微小RNA测序microRNA-seq,miRNA-seq成熟的miRNA是由18-25个核苷酸组成的单链非编码RNA,主要通过与靶miRNA结合使其降解或抑制其翻译,从而达到调控基因表达、细胞生长、发育等生物学过程的目的。基于第二代测序技术的miRNA测序,可以一次性获得数百万条miRNA序列,能够快速鉴定出不同组织、不同发育阶段、不同疾病状态下已知和未知的miRNA及其表达差异,为研究miRNA对细胞进程的作用及其生物学影响提供了有力工具。
甲基化测序
DNA甲基化是表观遗传学(Epigenetics)的重要组成部分,在维持正常细胞功能、遗传印记、胚胎发育以及人类肿瘤发生中起着重要的作用。在哺乳动物中,甲基化一般发生在CpG的胞嘧啶5位碳原子上。通过高通量测序平台,对所有富集的甲基化DNA片段进行高通量测序,研究人员能够获得全基因组范围内高精度的甲基化状态,为深入的表观遗传调控分析提供了更有利的切入点。
ChIp测序ChIp-seq染色质免疫共沉淀技术(Chromatin Immunoprecipitation,ChIP)也称结合位点分析法,是研究体内蛋白质与DNA相互作用的有力工具,通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。将ChIP与第二代测序技术相结合的ChIP-Seq技术,能够高效地在全基因组范围内检测与组蛋白、转录因子等互作的DNA区段。
ChIP-Seq的原理是:首先通过染色质免疫共沉淀技术(ChIP)特异性地富集目的蛋白结合的DNA片段,并对其进行纯化与文库构建;然后对富集得到的DNA片段进行高通量测序。研究人员通过将获得的数百万条序列标签精确定位到基因组上,从而获得全基因组范围内与组蛋白、转录因子等互作的DNA区段信息。
RIP测序RNA Immunoprecipitation-sequenceRIP是研究细胞内RNA与蛋白结合情况的技术,是了解转录后调控网络动态过程的有力工具,能帮助我们发现miRNA的调节靶点。这种技术运用针对目标蛋白的抗体把相应的RNA-蛋白复合物沉淀下来,然后经过分离纯化就可以对结合在复合物上的RNA进行测序分析,此测序分析过程则称为RIP-seq。
RIP可以看成是普遍使用的染色质免疫沉淀ChIP技术的类似应用,但由于研究对象是RNA-蛋白复合物而不是DNA-蛋白复合物,RIP实验的优化条件与ChIP实验不太相同(如复合物不需要固定,RIP反应体系中的试剂和抗体绝对不能含有RNA酶,抗体需经RIP实验验证等等)。RIP技术下游结合microarray技术被称为RIP-Chip,帮助我们更高通量地了解癌症以及其它疾病整体水平的RNA变化。
紫外交联免疫沉淀结合高通量测序crosslinking-immunprecipitation and high-throughput sequencingHITS- seq又称为CLIP-seq,是一项在全基因组水平揭示RNA分子与RNA结合蛋白相互作用的革命性技术。其主要原理是基于RNA分子与RNA结合蛋白在紫外照射下发生耦联,以RNA结合蛋白的特异性抗体将RNA-蛋白质复合体沉淀之后,回收其中的RNA片段经添加接头、RT-PCR等步骤,对这些分子进行高通量测序,再经生物信息学的分析和处理、总结,挖掘出其特定规律,从而深入揭示RNA结合蛋白与RNA分子的调控作用及其对生命的意义。
Hi-C High-through chromosome conformation captureHi-C (High-through chromosome conformation capture) 是以整个细胞核为研究对象,利用高通量测序技术,结合生物信息分析方法,研究全基因组范围内整个染色质DNA在空间位置上的关系,获得高分辨率的染色质调控元件相互作用图谱。Hi-C可以与RNA-Seq、ChIP-Seq等数据进行联合分析,从基因调控网络和表观遗传网络来阐述生物体性状形成的相关机制。
宏基因组学Metagenomic又叫微生物环境基因组学、元基因组学。它通过直接从环境样品中提取全部微生物的DNA,构建宏基因组文库,利用基因组学的研究策略研究环境样品所包含的全部微生物的遗传组成及其群落功能。它是在微生物基因组学的基础上发展起来的一种研究微生物多样性、开发新的生理活性物质(或获得新基因)的新理念和新方法。其主要含义是: 对特定环境中全部微生物的总DNA(也称宏基因组,metagenomic)进行克隆,并通过构建宏基因组文库和筛选等手段获得新的生理活性物质;或者根据rDNA数据库设计引物,通过系统学分析获得该环境中微生物的遗传多样性和分子生态学信息。

图片

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多