单体型网络(Haplotype Network)的构建及展示

萌小芊 2017-11-16

展开全文

单体型（haplotype）在单体型网络中是指一段遗传连锁的核酸序列。不同的单体型，通过序列中的变异来区分（常用SNP）。一般用来进行单体型网络构建的单体型有：1）线粒体基因组；2）Y染色体；3）叶绿体基因组；4）基因组上一段强连锁的区段。

上图是一个单体型网络的例子，图中一个圆圈表示一个单体型，两个圆圈之间的连线表示这两个单体型相关（一个是由另一个突变而来），连线上面的短竖线表示从一个单体型到与其相连的单体型需要经历的碱基替换数，一个竖线表示一个替换。彩色的圆圈表示我们实际取样到的单体型，圆圈大小表示这种单体型的个数。灰色圆圈表示推断出来可能存在的中间单体型，没有被取样到。

一种颜色一般表示一个群体，如按地理划分，品种划分等。图中例子一个单体型只存在于一个群体中，实际情况一个单体型往往在多个群体中出现。此时，一个单体型圆圈中填充多种颜色，以饼图的形式展示。

从上图我们可以猜测一种可能的群体历史：A群体和C群体都起源于B群体，A群体从B群体分化出来后，经历过急剧的群体扩张，导致A群体的单体型演化出多个亚型。当然，为了避免过度解读，推断群体历史需要多种证据结合起来。

构建单体型网络的工具

比较经典的软件就是Network了，但是该软件只支持Windows系统，用起来也比较复杂。这里推荐的是PopART，该软件支持Windows，Mac，Linux系统，而且用起来也非常方便，支持多种常用的Network构建方法，关键是该软件支持地图的形式展示单体型分布。下面简单介绍一下该软件的使用方法。

PopART的输入文件格式为NEXUS，一般主要用到两个部分DATA和TRAITS。

#NEXUS

begin data;

dimensions ntax=4 nchar=30;

format datatype=dna missing=N gap=-;

matrix

seq1 CCACCGTTGCTAAAAATTCATGACACAAGG

seq2 CCACAGTTTCTAAAAATTCGTGATACAAGG

seq3 CCACAGTTGCTACAAATTCATGATACAAGG

seq4 CCACAGGTGCTAAAAATTCATGAAACAAGG

;

end;

BEGIN TRAITS;

Dimensions NTRAITS=5;

Format labels=yes missing=? separator=Comma;

TraitLatitude 53 43.6811 5.4 -25.61 -0;

TraitLongitude 16.75 87.3311 26.5 134.355 -76;

TraitLabels Europe Asia Africa Australia America;

Matrix

seq1 10,5,0,6,0

seq2 0,0,5,0,0

seq3 4,0,10,0,0

seq4 0,0,0,4,2

;

END;

DATA部分主要纪录单体型信息，比较好理解。

TRAITS部分主要纪录单体型来源的群体。如上所示，例子中取了来自5个大洲的样本，一共4种单体型，TRAITS纪录了每种单体型在不同大洲取样的个数，如seq1在Europe有10个，在Asia有5个等等。关键字TraitLatitude和TraitLongitude纪录5个群体取样地点的经纬度，该信息在单体型网络构建中可以不用，当需要用地图展示单体型地理分布时，需要填该信息。

NEXUS文件生成后，打开PopART，通过File -> Open输入NEXUS文件，然后通过菜单栏Network选择单体型网络构建算法，如常用的Median Joining Network。选择Median Joining Network后，会提示填写Epsilon参数，该参数用来控制推断中间单体型的细节程度，该值越大，会展示更多推断的中间单体型，一般选择默认的0就好。填好该参数后，点击OK，就生成了我们需要的单体型网络。然后通过菜单栏Edit下的选项，对图中群体的颜色、字体、图例等进行调整。

下面介绍一下PopART的单体型地理分布展示。