双端测序中read1和read2的关系

生物_医药_科研 2019-02-13

展开全文

在跟着健明老师学习生物信息学的过程中，少走了很多弯路，躲过了很多坑，在指导下浅尝过一些。但是自己常常扣原理，又双叒叕落坑，百思不得其解。
以下是之前遇到的问题，今天整理带大家一起分析分析，若有不严谨或者错误的地方，强烈欢迎指正：

问题1
首先，我们讨论一个问题，我们都知道同源染色体上的碱基并不完全相同，但是为什么参考基因组参考序列是单序列而不是双序列呢？

我们需要了解“人类基因组计划”和“千人基因组计划”以及2017-12-28央视宣布我国启动“中国10万人基因组计划”

人类细胞内共有22对常染色体,2对性染色体,共24条染色体。人体有23对,46条染色体,但却测定24条染色体.说明有部分染色体无需全测,这很自然的就联想到“常染色体每对是互补配对”的性质,说明,每对染色体中的两条,基因相同,只需测一条就可知另一条的基因。如果是这样的话,需测22对常染色体,那么剩下的就自然是两条性染色体,因为X染色体与Y染色体构造有所不同（Y染色体比X少一部分）,所以两条都要测。
则一共22条常染色体+2条性染色体=24条染色体。

然后有人想到了同源染色体上等位基因的情况：

等位基因（allele）又作allelomorph.可能出现在染色体某特定座位上的两个或多个基因中的一个。若一个座位上的基因以两个以上的状态存在，便称为复等位基因。若成对的等位基因中两个成员完全相同，则该个体对此性状来说成为纯合子。若两个等位基因各不相同，则该个体对该性状来说是杂合子。由于等位基因都对应同一性状,所以只要测其中一个,其等位基因会作为特殊基因单独测序,但不作为人类基因组计划另外测定。同源染色体具体的序列不一样，但是结构是一样的，所以没必要多测。也就是说人类基因组计划要搞清楚的是基因片段与性状的关系，重点不在碱基序列。
因为同源染色体上的显隐性基因控制的是同一性状的不同表现类型！就好比红绿色盲基因和色觉正常基因是位于同源染色体上的同一位置的！基因测序时，只要知道这个位置的基因是控制色觉的就行了！这大概就是人类基因组计划的目的（通俗意思，请自行谷歌客观了解）

接下来我们回顾以下测序过程：引出其他问题

PCR+测序

测序得到两条read

问题2
测序过程中以上图很明显read1和read2为interset区域两条互补链并且方向相对的两部分序列，那测序过程中如何实现将此两条序列比对到单链的参考基因组呢？

为了得到答案，翻书，谷歌，看原理视屏依然没有解决问题，于是在熟练Linux和各文件格式之后，我找了真实fq数据中的一对reads一探究竟。
步骤1:找出具体信息为CAY9KANXX:5:1101:1113:2067的一对fq（一对reads），笨办法列出所有碱基，如下图：

图1:fq_reads

根据原理，我们可以知道上图中的fq1和fq2是实际测序得到的read1和read2。
注意：Excel排版原因导read1和read2显示长短不一，经过计算实际均为150个碱基。

步骤2:然后在得到原始sam/bam文件中找到这对reads，并列出碱基观察（：

图2:sam/bam_reads

仔细肉眼比对图二和图一，发现bam文件中reads2已被转义并且倒序排列。为什么这么确定是倒序过来的呢？细心的人会发现reads的质量值是倒过来的。到此问题2已经得到的解释。

为了彻底搞清楚，我们在IGV中可视化直观看一下：

我将图2中的重复碱基标红，将这两条序列的bam文件导入IGV中可视化：

图3:IGV可视化

图3中，非常直观看到两条带方向箭头的灰色条带（read1和read2）的比对到单序列的参考基因组（下方彩色条带）。

为了更加直观，让自己死心（我也是服了自己那颗躁动的心），我把对应参考序列也列出来了，模拟了一下IGV的比对情况，如图:

图4：比对

依然要总结一下：
双端测序下机数据中得到的read1和read2是两条互补链insertsize中方向相对的两条序列，再比对到单链的参考基因组之前会先将其中一条read转义，然后进行比对，所以比对得到的SAM和BAM文件中read1和read2有一条是被转了的。
全剧终。。。。。。
参考：
1.生信技能树健明大牛线下培训
2.基因课视屏截图
3.陈巍学基因