16S rDNA测序结果分析

追着天使拔毛 2019-10-09

展开全文

2017-12-13

1.测序结果文件

一般公司DNA测序结果都提供两个文档，一个是序列文档(后缀为.seq)，一个是测序峰图文档(后缀.ab1)，为碱基的测序质量信息。
(A).seq – 序列文件，TEXT的序列文档，可由记事本或BioEdit打开。
(B).ab1－峰图文件，可由BioEdit或Chromas打开察看。

2.切除两端低质量碱基

由于Sanger测序技术限制，每个测序反应一般仅有800bp左右比较准确。
一般测序结果的前端大约50个碱基的质量会不好(测序引物的原因)，此部分测序峰图通常无法判读。这是正常现象，需要把此部分碱基切除。同理，测序后期的碱基质量也比较差(酶活降低与杂质干扰较大等原因)，也需要把尾部测序峰图不规则的碱基切除。因此留下中间碱基质量相对较好(峰图规则)的序列用于后续分析。方法如下：

用 BioEdit 打开正向测序结果峰图文件( ZB10100433 (yangpin1) 16SS(zidai)_Pw_G12.ab1),通过移动左边与左上角的比例标尺，调整峰图的高度与宽度，使DNA每个碱基的峰图大小适合观察。
从下图看出，前面50多个碱基的峰较乱，此处选择55个开始的碱基。同理，DNA末端由于酶活力下降等原因，测序质量也逐步变差。根据峰图的形状，我们也需要切除尾部950bp后的碱基（约末端100bp），只保留56-950之间约900bp的高质量碱基。
选择 BioEdit 显示DNA序列的子窗口(Window菜单->DNA sequence frome…)
然后在 BioEdit 的Sequence菜单->select positions,在弹出窗口中输入56与950，点OK按钮后，就以背景黑的显示已选择的序列。
再选edit菜单->Copy(或直接按Ctrl-C键)，复制序列到一个新的文本文件，保存为16S_rDNA.fas。增加序列的注释行”>16SF”,代表正向测序序列。
同上步骤，根据峰图信息，再复制另一个反向测序结果的高质量序列(56-950)到文本文件16S_rDNA.fas，并标记序列为”>16SR”，代表反向测序序列。
DNA测序通常需要两个方向进行，测序都是从DNA的5’端到3’端进行的，正向和反向测序是指对DNA的两条互补链分别测序。双向测序结果经校读后完全一致才能认为得到可靠DNA测序结果。

3.双向测序序列的合并

通常PCR产物双向测序，需要合并双向序列，最终得到全长序列，这样得到DNA序列比较准确。

Bioedit打开前面保存的16S_rDNA.fas。
由于第二条序列是反向测序得到的DNA反向互补序列，需要通过先得到DNA的反向互补序列：Sequence->Nuleic Acid->Reverse Complement，再进行比对。
利用BioEdit的alignment功能找重叠区域:Accessory application->ClustalW multiple alignment，使用默认设置，比对结果显示，中间重叠部分的序列大部分相似。
如果重叠区不是大部分相同碱基，请试着把一条序列反向互补，再比对。

4.碱基的校准

在上一步的比对结果窗口，先利用BioEdit得到两条件序列合并后的一致序列：

Alignment菜单->Create Consensus Sequence。
如是中间重叠区有少部分碱基不一致，可根据对应的峰图文件ab1的质量信息，修改碱基。

修改碱基前，需要先把bioedit的Mode设置为”Edit”与”Insert”，并选中按钮”view conservation plotting identities […] with a dot”，以点显示相同的碱基，便于观察差异位点。

在BioEdit中打开正向和反向测序结果的AB1文件和上面比对结果放同一窗户(如图)。
定位到差异碱基的位置（下图黑色部分），一般可以在峰图文件中查找不一致碱基（正反链错配、缺失或误增碱基）及附近的几个序列（点击Edit菜单->find，或直接Ctrl-F），如查找GCAtAC。
注意反向测序峰图的搜索，需要输入序列的反向互补序列（GTtTGC）,小写字母为不一致碱基。
查看该碱基及附近碱基正反测序峰图形状，判断该碱基正确的碱基序列。
然后在序列窗口中分别改正正向16SF、反向16SR及Consensus序列中不一致的碱基。如有空格(gap)显示为”-“，需要把三条序列同一位置上的碱基与”-“都删除，才能保持后面的碱基比对结果正常(Backspace可删除光标前一个碱基)。

在BioEdit中打开正向和反向测序结果的AB1文件和上面比对结果放同一窗户(如