分享

“拿着放大镜 去看肿瘤基因组” ------肿瘤NGS生物信息分析科普之一

 生物_医药_科研 2019-09-01

很多人提及生物信息分析都觉得像是黑匣子一样,未知而神秘,今天就让我们来解开它神秘的面纱,进入肿瘤NGS生物信息数据分析的世界畅游一番。

肿瘤NGS生信分析事实上是属于人类基因组重测序分析的一种,更近一步,是针对靶向捕获高通量测序数据的分析。举个例子,仿佛是拿着一个“分子放大镜”,根据”自己的意图”,随便找人类基因组上的一段来看个究竟。

那么从高通量测序仪产出数据之后,是如何实现“看个究竟”的目的呢?肿瘤NGS生信数据分析是通过如下几个关键环节来完成的:

1.数据质控

每一例样本经过实验处理后就会上机测序,之后获得的原始下机数据流转到生物信息环节就变成了格式为fastq的文件,fastq是一种存储了生物序列(通常是核酸序列)以及相应的质量评价的文本格式,长成如下图的样子:

其中第二行就是我们测序得到的序列,但是这时得到的数据我们还不能直接使用,需要对这些数据进行预处理,比如过滤掉测序时错误率比较高的序列啊(低质量序列)、信号模糊无法确定的序列啊(含N过多reads)、实验时连接引入的引物序列啊(adapter过滤)等等,这样保留下来的数据用于后续分析才能更靠谱。

2.序列比对

我们把上述得到的一条条ATCG组成的序列与人类参考基因组进行比对,这样我们就能将每条测序得到的序列回贴到人类参考基因组序列上。在实验PCR过程中会引入重复序列,这些序列均由同一DNA模版复制而来,将这些重复序列标记出来,就获取到由非重DNA模版组成的序列集合,也就是传说中的Unique Mapping Reads。

3.变异检测

在进行序列比对之后,我们就可以了解到每一条序列的位置,是否有和人类参考序列存在差异的地方,这些差异中就包含了我们感兴趣的变异位点;比如在7号染色体的55249071处发现了碱基和人类参考序列不同,在参考序列中这一位置原本是碱基C(野生型),而患者中发现一定比例的序列中此位置是碱基T(突变型),那么说明在此位置发生了C>T的突变,如图所示:

又如我们发现在人类参考序列的某些位置上存在的DNA序列在待测样本数据中看不到,也就表明此样本发生了相应的缺失变异,如图所示:

当然这一切的识别过程均由复杂的统计模型或者人工智能支持的算法来处理,最终识别出真正的变异位点,呈现出上述描述的可视化界面(IGV: Intergrative Genomics Viewer)。

4.变异注释

前面我们提到序列被定位,被识别到突变,但是这一个个字母的变化带来了什么样的影响呢?为此我们就需要把每一个突变都进行注释(也就是解释说明),比如这个突变是否参与编码蛋白,是否影响氨基酸的变化,原来的氨基酸是什么,变成了什么等等,将突变按照国际标准注释后我们就获取到了待测样本最终的检测结果,比如上述提及的7号染色体55249071处发生C>T的突变就是我们熟知的EGFR T790M热点突变。

现在大家对肿瘤生物信息数据分析有了一定的了解了吗?想知道每一个环节的具体分析原理吗,每一环节的操作差异会对检测结果产生何种影响吗?敬请期待我们的下一次分享噢。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多