分享

重构SARS流行病的起源和扩散

 贝思德管理 2020-02-11

介绍

SARS(严重急性呼吸系统综合症)是(SARS-CoV)引起的最近出现的疾病。它由29,571个碱基长的单链RNA组成,显示出类似于冠的特征性尖刺包膜蛋白。

SARS的首例病例于2002年底在中国广东省出现,并在接下来的几个月(20031月至20032月)内爆发为一次重大疫情。大多数感染者在广州医院感染了该病。在这家医院工作过的一名医生于20032月前往香港,并留在了Metropole酒店。医生和其他许多酒店客人都感染了该病毒,并携带病毒和病毒前往不同的目的地(越南,加拿大,新加坡,台湾)。

通过分析2002年末和2003年收集的SARS-CoV样本之间的系统发育关系,我们可以重建SARS流行病的历史并了解它在如此短的时间内如何在世界范围内传播。

加载SARS株的序列数据

我们考虑13种人SARS冠状病毒菌株的核苷酸序列,这些菌株的位置和收集日期是已知的。 该序列对应于刺突S蛋白,其负责与特定受体结合并且被认为是主要的抗原决定簇。 由于中间宿主果子狸被认为是人类SARS-CoV的来源,因此我们也考虑了从果子狸中提取的样本。 为了方便起见,序列数据存储在称为尖峰的结构中,该结构由每个病毒株的HeaderSequence字段组成。 也可以使用表accNum中存储的登录号从GenBank®数据库下载数据。

accNum =

  14x3 table

    GenbankAccession    CollectionDate          Location     

    ________________    ______________    ____________________

       'AY278489'       'DEC-16-2002'     'GZ 12/16/02'      

       'AY394997'       'DEC-26-2002'     'ZS 12/26/02'      

       'AY395004'       'JAN-04-2003'     'ZS 01/04/03'      

       'AY394978'       'JAN-24-2003'     'GZ 01/24/03'      

       'AY394983'       'JAN-31-2003'     'GZ Hospital'      

       'AY304495'       'FEB-18-2002'     'GZ 02/18/03'      

       'AY278554'       'FEB-21-2003'     'Metropole 02/21/03'

       'AY278741'       'FEB-26-2003'     'Hanoi 02/26/03'   

       'AY274119'       'FEB-27-2003'     'Toronto 02/27/03' 

       'AY283794'       'MAR-01-2003'     'Singapore 03/01/03'

       'AY291451'       'MAR-08-2003'     'Taiwan 03/08/03'  

       'AY345986'       'MAR-19-2003'     'Hong Kong 03/19/03'

       'AY394999'       'MAY-15-2003'     'Hong Kong 05/15/03'

       'AY627048'       '           '     'Palm civet'

计算序列对距离

通过计算一个对称矩阵来获得构建系统树的距离矩阵,该对称矩阵通过Jukes-Cantor校正保持成对的遗传距离。 忽略代表缺口的序列位点。

通过绘制距离矩阵,我们可以了解彼此更紧密相关的序列子集的存在(中心群集,由较暗的色调表示)。 与果子狸有关的最后一个序列与该组大多数成员之间的距离最远。 这是预期的,因为它是非人类冠状病毒。

s1.png

构造一个邻接系统进化树

使用上面计算的距离,使用邻居连接方法构建系统发育树。 在这种情况下,我们假设进化距离估计的方差和独立性相等。

s2.png

这棵树描绘了这种流行病的故事。 早期感染均发生在广州和中山,分别标记为GZZS 国际案件(香港,新加坡,河内,台湾,多伦多)都是相互关联的,并且似乎可以追溯到香港大都会酒店。

估计流行的起源日期

因为每个SARS菌株的收集日期是已知的,所以我们可以观察到病毒突变随时间的进展。 考虑根据木村模型的成对距离,该距离可区分过渡突变率和转录突变率。 然后,将分析范围限制在每个人类应变与果子狸应变之间的距离。 最后,绘制遗传距离与采集日期的关系图。

s3.png

关于果子狸的序列,我们观察到遗传距离大约随时间线性增加。 执行多项式拟合和最小二乘插值以概述病毒突变随时间的进展,并估计流行病起源的大概日期。 感染的开始或多或少地与多项式拟合的根相对应,即与果子狸序列的遗传距离为零的任何日期

爆发时期estimated_origin = '17-Sep-2002'

s4.png

重生系统发育树

因为由新的人类SARS-CoV株引起的疾病似乎起源于果子狸,所以我们可以假设,人类菌株的系统树的根的位置紧邻与果子狸相关的节点。

s5.png

重生的树更好地说明了SARS流行的进程。 2002年广东省的早期感染(GZ 12/16/02ZS 12/26/02)开始,该病毒于2003年初在广州医院传播(GZ医院01/31/03),并传播到香港 通过在上述医院工作并住在大都会饭店(Metropole 02/21/03)的医生。 然后,该病毒通过大都会酒店的受感染客人跨境传播。

建立即时观察系统发育树

假设样本在不同的时间点代表SARS冠状病毒,我们可以观察到随着系统进化树(基于遗传距离构建)的发生而产生的病毒。 我们可以模拟树重构中的各个步骤。 电影功能可对树的构建过程进行动画处理。

通过有向图可视化病毒的扩散

我们还可以使用有向图来可视化病毒的扩散,其中每个节点代表一个感染的个体,边缘的权重与序列之间的遗传距离相关。 首先,基于样本的收集日期创建一个邻接矩阵,以使可能的路径穿过在收集日期方面兼容的节点。 然后,使用先前计算的Jukes-Cantor距离将权重分配给节点之间的边缘。 最后,确定从与果子狸关联的节点到其他每个节点的最短路径。

s6.png

总结

正如SARS轻轻的来,轻轻走一样,希望NCP也一样快点走开,不要带走太多的云彩!

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多