最近疾控人的朋友圈里只有2个字“加班!” 冬天又来了,千千万万疾控人还在寒冬里奔波,为了守护万家灯火里的那一点宁静。 笔者和小伙伴们也同样战斗在另一条加班的战线上 坚持!再坚持! 对于我们共同的敌人,新冠,高通量技术是实验室里除RT-PCR外最常用的分型方法。 我们如何开展新冠样本的测序数据分析呢?笔者借自身一点体会与各位同行共同探讨。 分析前期准备: (1)完成测序实验。实验方法可参照前贴:新型冠状病毒测序技术路线解析 (2)准备好分析用服务器和相关软件。软件的安装和部署,可参照前贴:善用Bioconda,管理好自己的Linux工具库 (3)下载参考基因组: https://www.ncbi.nlm./search/all/?term=GCA_009948465 分析开始: 第一步:测序数据质控 质控工具:fastqc 命令运行方式 fastqc input.fastq.gz #input.fastq.gz为你的测序下机数据,可以为1个,也可以为多个文件 报告查看,请参考前贴为什么我的测序质控会报错!? 第二步:测序数据与参考基因组比对 (关键!) 比对工具: bowtie2/samtools/bcftools (注意:类似的工具很多。笔者只分析自己比较习惯用的。大家可根据自身需要选择。) 命令运行方式 bowtie2-build Ref.fa Ref.fa #Ref.fa为提前下载的新冠参考基因组。 bowtie2 -U Input.fastq -S Input.sam -x Ref.fa #Input.fastq 为你的测序下机数据;Input.sam为输出文件;Ref.fa为提前下载的新冠参考基因组;此步操作为序列比对 samtools sort -@ 4 -O bam -o Input.bam Input.sam #此步操作为格式转换,sam-》bam samtools index Input.bam bcftools mpileup -Ou -f Ref.fa Input.bam | bcftools call -mv -Ov -o Input.vcf ##Input.vcf为输出的snp列表 查找所得的SNP意义,可通过GISAID网站查看 网址如下(需注册):https://www./epi3/frontend# SNP位点的意义见上图左上角标注 需要注意的是:该数据库更新很快,建议及时更新。 笔者去年写过关于该数据库的介绍(新型冠状病毒分型学习笔记(1) GISAID分型),现在型别已经更多啦~ 第三步:图形化查看比对结果(可选) 比对工具:Tablet或IGV 工具使用说明参考前贴:一图胜千言,序列比对可视化神器IGV和Tablet推荐 可直观的查看每个区域的read挂载情况,以及突变的情况。 PS: 本文所有截图都是笔者随便找的,非新冠实测数据。 第四步:基因组组装 (可选) 组装工具:Spades 具体使用方式,可参考前贴快速的细菌基因组组装软件推荐-SPAdes 命令运行方式: spades.py -1 Input_R1.fastq -2 Input_R2.fastq -o Outdir 第五步:Pangolin分型(可选) Pangolin分型是GISAID分型方法之外的新冠病毒另一种分型体系。 其特定是分支间分的更为细了 https://pangolin./ 第六步:Blast查找(可选) 这里建议采用GISAID自己提供的Blast工具,其特点是不仅提供了最优比对结果,且对比对结果的地理分布和时间分布有统计,更方便开展流行病学分析。 以上基本分析结束 微微碎碎念:虽然现在市面上开始有可视化的分析软件出现,给分析工作提供了很大的方便,但由于种种原因,大多数人还是需要手工的方法去处理下机数据。且目前分析方法远没有达到sop标准。笔者借小文分享自身数据分析经验,也希望各位同行共同推进,早日将技术进一步成熟,真正实现飞速分析,标准化分析,以及人人能分析。 同时亦希望 我们每个人的微小努力,汇聚成海,护万家灯火平安。 每一天获得一点微小的收获和进步。小确幸的科研也很好。与君共勉! |
|