2015年有一篇文献中提到了hpv的研究现状
As of May 30, 2015, 201 different HPV types had been completely sequenced and officially recognized and divided into five PV-genera: Alpha-, Beta-, Gamma-, Mu-, and Nupapillomavirus.
文献地址: http://www.ncbi.nlm./pubmed/26086163
根据文献,我找到了hpv所有已知测序种类的参考基因组网站:http://www./html/refclones.html
截至到2015年7月已经有了205种 ,我爬取它们的genebank ID号,然后用python程序批量下载了它们的序列,能下载的序列共179条,都是8K左右的碱基序列。
根据genebank ID或者其它ID号批量下载核酸序列的脚本如下 :
import sys
import time
import random
from Bio import Entrez
ids =[]
infile = sys . argv [ 1 ]
for line in open ( infile , 'r' ):
line = line . strip ()
ids . append ( line )
for i in range ( 1 , len ( ids )):
# t = random.randrange(0,5)
handle =
Entrez . efetch ( db = "nucleotide" , id = ids [ i ], rettype = "fasta" , email = "jmzeng1314@163.com" )
# time.sleep(t)
print handle . read ()
脚本的使用很简单,保持输入文件是一行一个ID号即可。同时,根据文献我们也能得到hbv病毒提取方法当然,我当年居然写过python???
同样,拿到下载的178条序列我们可以做一个进化树,在那篇文章中已经做好了,我就不做了。
下载179条hpv序列,每条序列都是8KB左右。我还用了R脚本批量下载
library ( ape )
a = read . table ( "hpv_all.ID" ) #输入文件是一行一个ID号即可
for ( i in 1 : nrow ( a )){
tmp = read . GenBank ( a [ i , 1 ], seq . names = a [ 1 , 1 ], as . character = T )
write . dna ( tmp , "tmp.fa" , format = "fasta" , append = T , colsep = "" )
}
然后用muscle做比对,比对过程相对比较简单,大家感兴趣可以参照我之前的几篇笔记。
Muscle进行多序列比对
http://www./?p=659
Figtree的把进化树文件可视化
http://www./?p=660
用phyML对多重比对phy文件来构建进化树
http://www./?p=626
muscle - in mouse_J . pro - out mouse_J . pro . a
muscle - maketree - in mouse_J . pro . a - out mouse_J . phy
貌似时间有点长呀,最后还莫名其妙的挂掉了,可能是我的这个测试服务器 配置有点低。
(非常经典的 segmentation fault )
进化树如下所示: