不会编程，如何快速提取序列

生物_医药_科研 2018-12-20

展开全文

提取序列是生物信息分析中常见的一个操作，也是学习生物信息编程的入门操作。通常是给定基因ID，然后从一个大的数据集里面提取出匹配ID的序列，包含匹配的序列ID和序列信息，类似于Excel中的Vlookup，但是这里需要一个包含序列ID的列表以及一个包含序列的fasta格式文件。如果不会编程该如何提取呢，今天我们就介绍一些方法。

例如这里有五条序列，我们需要根据基因ID，提取出gene3和gene5的内容。

>gene1
AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTCTCTGACAGCAGC
TTCTGAACTGGTTACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAACCAA
TATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACAACATCCATGAAACGCATTAGCACCACC
>gene2
ATTACCACCACCATCACCACCACCATCACCATTACCATTACCACAGGTAACGGTGCGGGCTGACGCGTAC
AGGAAACACAGAAAAAAGCCCGCACCTGACAGTGCGGGCTTTTTTTTCGACCAAAGGTAACGAGGTAACA
>gene3
ACCATGCGAGTGTTGAAGTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGGGTTGCCGATA
TTCTGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCACCAACCA
CCTGGTGGCGATGATTGAAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATGCCGAACGT
ATTTTTGCCGAACTTCTGACGGGACTCGCCGCCGCCCAGCCGGGATTCCCGCTGGCGCAATTGAAAACTT
>gene4
TCGTCGACCAGGAATTTGCCCAAATAAAACATGTCCTGCATGGCATTAGTTTGTTAGGGCAGTGCCCGGA
TAGCATTAACGCTGCGCTGATTTGCCGTGGCGAGAAAATGTCGATCGCCATTATGGCCGGCGTATTAGAA
>gene5
GCGCGCGGTCACAACGTTACCGTTATCGATCCGGTCGAAAAACTGCTGGCAGTGGGGCATTACCTCGAAT
CTACTGTCGATATTGCAGAGTCCACCCGCCGTATTGCGGCAAGTCGTATTCCGGCTGATCACATGGTGCT
GATGGCAGGTTTCACCGCCGGTAATGAAAAAGGCGAACTGGTGGTACTTGGACGCAACGGTTCCGACTAC
TCCGCGGCGGTGCTGGCTGCCTGTTTACGCGCCGATTGTTGCGAGATTTGGACGGACGTTGACGGGGTAT

原始方法

直接用文本编辑器打开，然后直接Ctrl+C复制，Ctrl+V粘贴，不过这样处理稍微大一点的数据，不仅效率低下，而且很容易出错，直至就会把人搞奔溃，我们坚决抵制这种做法。

sed

利用sed提取，我们首先使用less -N查看一下这两条序列对应的行号，然后就可以利用sed输出任意行的内容了。

less -N gene.fna
sed -n '8,12p;16,20p' gene.fna

awk

awk也可以输出固定行的内容，或者匹配固定行的内容。其中NR代表行号，number row。

awk 'NR>=8  && NR<12 {print}' gene.fna
awk 'NR>=16 && NR<20 {print}' gene.fna

grep

grep可以用于匹配ID，-A选项可以设置输出匹配后的几行，我们首先利用seqtk工具将fasta序列都格式化为两行一个单位。

seqtk seq -l 0 gene.fna >gene.fa
grep -A 1 'gene[3|5]' gene.fa

samtools

以上几种方法处理一些小序列还行，如果一次有100个基因ID，也不太方便。
这种情况下强烈推荐samtools工具。利用samtools建立索引，就可以完成快速提取序列。

#首先为利用faidx为fasta文件建立索引
samtools faidx gene.fna
#创建索引之后就可以快速提取了
samtools faidx gene.fna gene3 gene5

编程

其实用编程也很容易实现，无论是perl还是python都不难，首先将ID和序列存储为一个哈希或者字典型的数据结构，然后就可以很方便的利用ID进行查找了。

#将基因ID写入到gene.list文件中，每行一个基因ID
perl get_seq_bylist.pl gene.list gene.fna

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：生物_医药_科研 > 《待分类》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

生物_医药_科研

关注对话

TA的最新馆藏

国产第2款MET抑制剂获批，盘点30亿级赛道的入局者和新机会
黑色素瘤一线治疗又添新方案！FDA批准首个免疫+双靶向疗法用于BRAFV600突变晚期黑色素瘤
国际视野丨胆道恶性肿瘤的靶点及耐药机制
恒瑞创新药卡瑞利珠单抗联合阿帕替尼非小细胞肺癌研究发表于JTO
17 款四代靶向药，全面攻坚 EGFR 耐药
最全整理汇总：HER2阳性乳腺癌靶向治疗研究进展

喜欢该文的人也喜欢更多

热门阅读换一换