分享

极简法做新冠测序下机数据分析

 微微悦明 2021-12-13

最近疾控人的朋友圈里只有2个字“加班!”

冬天又来了,千千万万疾控人还在寒冬里奔波,为了守护万家灯火里的那一点宁静。

笔者和小伙伴们也同样战斗在另一条加班的战线上 坚持!再坚持!

对于我们共同的敌人,新冠,高通量技术是实验室里除RT-PCR外最常用的分型方法。

我们如何开展新样本的测序数据分析呢?笔者借自身一点体会与各位同行共同探讨。

分析前期准备:

(1)完成测序实验。实验方法可参照前贴:新型冠状病毒测序技术路线解析

(2)准备好分析用服务器和相关软件。软件的安装和部署,可参照前贴:善用Bioconda,管理好自己的Linux工具库

(3)下载参考基因组: https://www.ncbi.nlm./search/all/?term=GCA_009948465

分析开始:

第一步:测序数据质控

质控工具:fastqc

命令运行方式

fastqc input.fastq.gz #input.fastq.gz为你的测序下机数据,可以为1个,也可以为多个文件

报告查看,请参考前贴为什么我的测序质控会报错!?

第二步:测序数据与参考基因组比对 (关键!)

比对工具: bowtie2/samtools/bcftools

(注意:类似的工具很多。笔者只分析自己比较习惯用的。大家可根据自身需要选择。)

命令运行方式

bowtie2-build Ref.fa Ref.fa  #Ref.fa为提前下载的新冠参考基因组。bowtie2 -U Input.fastq -S Input.sam -x Ref.fa #Input.fastq 为你的测序下机数据;Input.sam为输出文件;Ref.fa为提前下载的新冠参考基因组;此步操作为序列比对samtools sort -@ 4 -O bam -o Input.bam Input.sam #此步操作为格式转换,sam-》bamsamtools index Input.bambcftools mpileup -Ou -f Ref.fa Input.bam | bcftools call -mv -Ov -o Input.vcf ##Input.vcf为输出的snp列表

查找所得的SNP意义,可通过GISAID网站查看

网址如下(需注册):https://www./epi3/frontend#

SNP位点的意义见上图左上角标注

需要注意的是:该数据库更新很快,建议及时更新。

笔者去年写过关于该数据库的介绍(新型冠状病毒分型学习笔记(1)  GISAID分型),现在型别已经更多啦~

第三步:图形化查看比对结果(可选)

比对工具:Tablet或IGV

工具使用说明参考前贴:一图胜千言,序列比对可视化神器IGV和Tablet推荐

可直观的查看每个区域的read挂载情况,以及突变的情况。

PS: 本文所有截图都是笔者随便找的,非新冠实测数据。

第四步:基因组组装 (可选)

组装工具:Spades

具体使用方式,可参考前贴快速的细菌基因组组装软件推荐-SPAdes

命令运行方式:

spades.py -1 Input_R1.fastq -2 Input_R2.fastq -o Outdir

第五步:Pangolin分型(可选)

Pangolin分型是GISAID分型方法之外的新冠病毒另一种分型体系。

其特定是分支间分的更为细了

新型冠状病毒分型学习笔记(2)Pangolin分型

https://pangolin./

第六步:Blast查找(可选)

这里建议采用GISAID自己提供的Blast工具,其特点是不仅提供了最优比对结果,且对比对结果的地理分布和时间分布有统计,更方便开展流行病学分析。

以上基本分析结束

微微碎碎念:虽然现在市面上开始有可视化的分析软件出现,给分析工作提供了很大的方便,但由于种种原因,大多数人还是需要手工的方法去处理下机数据。且目前分析方法远没有达到sop标准。笔者借小文分享自身数据分析经验,也希望各位同行共同推进,早日将技术进一步成熟,真正实现飞速分析,标准化分析,以及人人能分析。

同时亦希望 我们每个人的微小努力,汇聚成海,护万家灯火平安。


微信号:

Mypathogen

微微悦明

科学的乐趣是获得新知识的喜悦

高通量测序、大数据

病原微生物检测和监测

健康大数据行业资讯记录与分享

每一天获得一点微小的收获和进步。小确幸的科研也很好。与君共勉!

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多