质粒构建：从入门到精通之高手进阶

风雨都停了 2018-08-10

展开全文

编者按

在前两期《质粒构建：从入门到精通之初窥门径》、《质粒构建：从入门到精通之上下求索》（点标题跳转）中给大家介绍了质粒构建的一些基本知识，在本期中将继续为大家带来质粒构建相关的干货，在本文中将为大家简单介绍一下Kozak序列，并教大家如何在构建质粒之时添加Flag/HA等标签、如何判断该载体上的酶切位点是否有移码以及如何添加碱基避免移码等知识。

另外，关于质粒构建的相关资料（包括相关软件、常见标签序列等）已经打包上传，需要的可以在公众号内回复“质粒构建”获取下载链接。

读完本文您将获得以下技能

1. 认识Kozak序列；
2. 懂得如何在构建质粒时添加标签序列；
3. 学会判断载体的移码规则；

先选两个典型问题答疑一下

- 不用保护碱基咩？嗯？

- 限制性内切酶识别特定的DNA序列，除此之外，酶蛋白还要占据识别位点两边的若干个碱基，这些碱基对内切酶稳定的结合到DNA双链并发挥切割DNA作用时有很大影响的，被称为保护碱基。

因此在设计PCR引物时，为保护5’端外加的酶切位点，故在酶切位点的5’端添加额外的碱基序列来提高酶切时的活性，使酶切更完全。

所以我们构建质粒设计引物时经常会添加保护碱基，不过，现在很多实验室都是使用的快酶，所以个人认为添不添加保护碱基对酶切效率的影响有限，当然这是纯推测结果，不放心的可以加上，小编比较任性，有时候加有时候不加……

- 再弱弱地问一下：PCR时的模板可不可以直接提DNA？

- 不可以。基因组DNA有内含子。而我们抽提的RNA一般都是成熟的mRNA，在转录过程中内含子已被剪切掉，当使用逆转录试剂盒反转录出的cDNA并不会含有内含子，这种的才是适合用来质粒构建的。当然你有该基因的表达质粒也是可以作为PCR模板的。

Kozak序列

KOZAK是一个女科学家，她研究过起始密码子AUG周边碱基定点突变后对转录和翻译所造成的影响，并总结出在真核生物中，起始密码子两端序列为：

—— G/N-C/N-C/N-ANNAUGG——，如GCCACCAUGG、GCCAUGAUGG时，转录和翻译效率最高，特别是-3位的A对翻译效率非常重要。该序列被后人称为Kozak序列，并被应用于表达载体的构建中。

所谓Kozak规则，即第一个AUG侧翼序列的碱基分布所满足的统计规律，若将第一个AUG中的碱基A，U，G分别标为1，2，3位，则Kozak规则可描述如下：
(1)第4位的偏好碱基为G；
(2)AUG的5’端约15bp范围的侧翼序列内不含碱基T；
(3)在-3，-6和-9位置，G是偏好碱基；
(4)除-3，-6和-9位，在整个侧翼序列区，C是偏好碱基。

Kozak规则是基于已知数据的统计结果，不见得必须全部满足，一般来说，满足前两项即可。

真核引物设计需在AUG前加上GCCACC。【注：以上资料来源于百度百科】

例如在《质粒构建：从入门到精通之初窥门径》中设计的引物如下

加上Kozak序列后：

另外，现在的过表达载体都有很强的启动子，加不加Kozak序列对表达效率的影响有限。大家可以自行决定是否添加。

添加标签

在构建过表达载体时，常常需要添加诸如Flag、HA、Myc等标签，然而我选的载体上并没有标签怎么办？

比如我们在《质粒构建：从入门到精通之初窥门径》中选择的pcDNA3.0就没有相应的标签，可是我需要添加标签怎么办？

这个时候我们就需要在设计引物的时候将标签序列添加到引物上，这样PCR出来的目的基因序列就自带标签了。

下面我们就以在PDCD1引物上添加Flag为例进行讲解：

之前我们设计好的PDCD1引物为：

那么问题来了，我们到底是把标签添加到5’端还是3’端呢？在这里先不回答这个问题，我们先看看5’端和3’端分别怎么添加标签吧。

注意了，我们这里讲的5’端和3’端是基因序列的5’端和3’端，不是引物和其他序列的。

Flag蛋白序列一般为DYKDDDDK，密码子为：GAT TAC AAG GAT GAC GAC GAT AAG。所以5’端和3’端加入标签后分别为：

5’端的序列大家可能比较好理解，这里需要提醒一下如果加在ATG前面需要在Flag序列前面也加上ATG，而目的基因的ATG 可以删除也可以保留，当然建议保留。

3’端当然得加在终止密码子前面了！而对于3’端序列可能有些读者反应不过来，为了便于理解，你可以直接将标签序列加在CDS序列的3’端上，即将标签序列当做CDS的一部分，这样再设计引物就比较好理解为什么3’端的序列是这样子的了。

如下图：

可能有读者担心，这样引物不就有很大一部分序列无法与模板匹配了么？其实根本不用担心，只要引物3’端是结合在模板上的就可以了。如下图：

这样我们PCR出来的基因就是带标签的了，只要连接入载体中就可以了。

最后我们回到一开始的问题，我们到底是把引物添加到5’端还是3’端呢？这个的选择主要是看我们的目的基因，比如我们选择的PDCD1这个基因就比较特殊！

因为它的5’端是信号肽（Signal Peptide），而信号肽一般都会在蛋白成熟过程中被切割掉，所以如果你加在5’端，用Flag抗体做WB是检测不到Flag-PDCD1的！

如何看出来这个基因有信号肽呢？

我们在NCBI上查询CDS时有下图：

你也可以去UniProt上查询该序列信息：

我们可以看出来，PDCD1的前18个氨基酸组成了信号肽，而当你点击Signal peptide的时候，UniProt给了如下解释：

The signal sequence is usually removed in the mature protein; in these cases, the comment ‘The displayed sequence is further processed into a mature form’ is added in the ‘Sequence’ section.

PDCD1序列信息部分如下图：

所以无论是在NCBI上还是UniProt上都可以查到PDCD1的信号肽是要被切割掉的！不能加在5’端，只能加在3’端。当然还有一些需要考虑对蛋白功能的影响等来决定标签加在哪一端。