我们需要了解“人类基因组计划”和“千人基因组计划”以及2017-12-28央视宣布我国启动“中国10万人基因组计划” 人类细胞内共有22对常染色体,2对性染色体,共24条染色体。人体有23对,46条染色体,但却测定24条染色体.说明有部分染色体无需全测,这很自然的就联想到“常染色体每对是互补配对”的性质,说明,每对染色体中的两条,基因相同,只需测一条就可知另一条的基因。如果是这样的话,需测22对常染色体,那么剩下的就自然是两条性染色体,因为X染色体与Y染色体构造有所不同(Y染色体比X少一部分),所以两条都要测。 然后有人想到了同源染色体上等位基因的情况: 等位基因(allele)又作allelomorph.可能出现在染色体某特定座位上的两个或多个基因中的一个。若一个座位上的基因以两个以上的状态存在,便称为复等位基因。若成对的等位基因中两个成员完全相同,则该个体对此性状来说成为纯合子。若两个等位基因各不相同,则该个体对该性状来说是杂合子。由于等位基因都对应同一性状,所以只要测其中一个,其等位基因会作为特殊基因单独测序,但不作为人类基因组计划另外测定。同源染色体具体的序列不一样,但是结构是一样的,所以没必要多测。也就是说人类基因组计划要搞清楚的是基因片段与性状的关系,重点不在碱基序列。 接下来我们回顾以下测序过程:引出其他问题 PCR+测序 测序得到两条read
为了得到答案,翻书,谷歌,看原理视屏依然没有解决问题,于是在熟练Linux和各文件格式之后,我找了真实fq数据中的一对reads一探究竟。 图1:fq_reads 根据原理,我们可以知道上图中的fq1和fq2是实际测序得到的read1和read2。 注意:Excel排版原因导read1和read2显示长短不一,经过计算实际均为150个碱基。 步骤2:然后在得到原始sam/bam文件中找到这对reads,并列出碱基观察(: 图2:sam/bam_reads 仔细肉眼比对图二和图一,发现bam文件中reads2已被转义并且倒序排列。为什么这么确定是倒序过来的呢?细心的人会发现reads的质量值是倒过来的。到此问题2已经得到的解释。
我将图2中的重复碱基标红,将这两条序列的bam文件导入IGV中可视化: 图3:IGV可视化 图3中,非常直观看到两条带方向箭头的灰色条带(read1和read2)的比对到单序列的参考基因组(下方彩色条带)。 为了更加直观,让自己死心(我也是服了自己那颗躁动的心),我把对应参考序列也列出来了,模拟了一下IGV的比对情况,如图: 图4:比对 依然要总结一下: 双端测序下机数据中得到的read1和read2是两条互补链insertsize中方向相对的两条序列,再比对到单链的参考基因组之前会先将其中一条read转义,然后进行比对,所以比对得到的SAM和BAM文件中read1和read2有一条是被转了的。 全剧终。。。。。。 参考: 1.生信技能树健明大牛线下培训 2.基因课视屏截图 3.陈巍学基因 |
|
来自: 生物_医药_科研 > 《Illumina测序原理》