各位老师好,我是华中农业大学植科院的博士后贺超,今天代表第三十组“麦客江湖”值日,本组的组长是河南省濮阳市农业农村局的陈红敏老师,组员有中国科学院遗传与发育生物学研究所的李淼淼老师,卫辉市五星农机有限公司的介百永老师,烟台市农业科学研究院的丁晓义老师、漯河市农业科学院的廖平安老师、黑龙江省农业科学院克山分院的李长辉老师、安徽省皖农种业有限公司的黄建华老师和江苏里下河地区农业科学研究所的陈士强老师等。我目前的研究方向是利用调控组学技术解析机理,寻找并验证小麦生长发育过程中的重要调控元件和调控事件,利用基因编辑创建新的遗传变异,服务分子设计育种。我的资历跟“一麦众承”的各位老师相比实在太浅,仅抱着一颗学习的态度加入到这个温馨的大家庭,深深地被老师们身上对科学研究的热情以及育种事业的热忱感染,今天也鼓起勇气跟各位老师就小麦向导RNA(guide RNA,gRNA)的设计进行交流,不足之处恳请指正。
基于CRISPR/Cas系统的基因编辑技术打破了传统农业育种性状改良的瓶颈,其在作物品种改良中具有广阔的应用前景。CRISPR/Cas的靶向编辑功能依赖于gRNA的向导,通过设计与靶向序列互补的gRNA,可实现靶位点的定点突变或将特定功能的蛋白带到靶位点上,创造新的种质资源。然而,当gRNA的特异性不强时,极易产生脱靶现象,严重限制了CRISPR/Cas的定点操控功能。小麦是异源六倍体作物,其基因组异常庞大且重复序列占比高,这大大加剧了特异高效gRNA设计的难度。因此,选择一款适用于小麦gRNA的设计工具非常重要。目前支持小麦基因组gRNA设计的工具,包括WheatCrispr、E-CRISP、CRISPRdirect和CRISPR-Cereal等,本文将着重比较这几款gRNA设计工具的优缺点,以供科研工作者参考。
1 WheatCrispr网站优缺点
1.1 WheatCrispr简介
WheatCrispr(https://crispr.bioinfo./WheatCrispr/)是专为小麦基因组基因gRNA设计而开发的生信工具[1](图1),其使用的参考基因组为六倍体“中国春”基因组组装版本IWGSC v1.0,针对的基因编辑系统仅为CRISPR/SpCas9,识别的PAM序列分为Canonical(5ʹ-NGG-3ʹ)和Non-canonical(5ʹ-(NAG, NCG, NGA-3ʹ)2类,设计的gRNA其互补序列既可位于外显子上又可分布于启动子区域。 图1 WheatCrispr的gRNA设计结果
对于编辑效率的评估和off-target频率的预测,WheatCrispr使用的是Doench算法;为了减少工作量,在基因组搜索可能的脱靶序列时,其策略是针对不同PAM序列及其所在的不同区域(启动子/UTR/外显子/内含子/基因间区)分别使用不同的最大容许错配数进行序列比对。WheatCrispr网站的使用是先提交基因名称或序列,随后后台从提前构建好的gRNA数据库中匹配相应的gRNAs,最后将匹配到的gRNAs及其相关信息反馈到结果页面。gRNA数据库的构建流程可总结为:i.全基因组范围内搜索PAM位点,将PAM序列及与其上游20个碱基互补的gRNA序列提取出来;ii.先根据PAM序列将与其对应的gRNA分为canonical和non-canonical两类,再根据gRNA序列所在的位置将gRNA进一步按外显子、启动子、其他基因功能区域(内含子和UTR)以及基因间区进行分类,即最后gRNA共分为8类;iii.将位于基因外显子和启动子上的canonical gRNA序列单独调取,作为on-target gRNA数据库,并利用rs2算法计算该数据库中每一条gRNA的on-target效率;iv.将on-target gRNA数据库中的每条gRNA序列分别用相应指定的最大容许错配数与8类gRNAs分别比对,同时用Doench CFD算法预测off-target频率。
1.2 WheatCrispr优点
1)可针对启动子区域设计gRNA序列,因此可为转录调控的CRISPR/Cas系统设计gRNA;
2)先构建gRNA数据库,再根据用户提交的序列去gRNA数据库中调取匹配到的序列,节约了用户等待的时间和后台运行的工作量;
1.3 WheatCrispr缺点
1)参考基因组仅使用“中国春”基因组组装版本IWGSC v1.0,而常规研究用到的材料众多,且不同材料具有丰富的遗传变异,因此当使用非中国春的材料时,设计出来的gRNA其靶向的区域可能存在SNP位点,大大降低了编辑的效率。
2)仅可为CRISPT/SpCas9系统设计gRNA序列,限制了用户的选择。
3)将gRNA根据其所在染色体上的位置进行分类,虽然节约了工作量,但过于武断,因为基因不同区域的分类是基于IWGSC v1.0注释文件,其中基因启动子区域定义为基因上游2 kb区域,而这会导致X基因的promoter区域可能是Y基因外显子或其他基因结构的部分区域,从而造成8种不同类型gRNA子数据库序列存在重复。
4)显示的gRNA信息单一,无法为后续验证工作提供必要的信息。
5)网站缺少一个“submit”按钮,只要输入一个基因的ID或序列,甚至更改任一选项,都会自动开始加载结果,而不是等用户做好了所有选择再加载结果,这样既浪费了用户的时间,也增加了后台运行工作量。
2 E-CRISP网站优缺点
2.1 E-CRISP简介
E-CRISP(http://www./E-CRISP/)网站支持包含小麦在内的55个物种CRISPR-Cas系统gRNA的设计[2](图2)。小麦的参考基因组使用“中国春”基因组组装版本IWGSC v1.0,同时利用高密度遗传图谱popseq.31进行序列校正;识别的PAM序列为NRG (R=G或A),即gRNA的设计仅针对CRISPR/Cas9系统。E-CRISP利用Bowtie/Bowtie2在基因组范围内匹配gRNA和预测off-target位点,同时以gRNA匹配的程度以及找到的off-target位点数量来评价gRNA。利用E-CRISP设计gRNAs时,需先选择所针对的物种和设计的目的,随后提交基因ID(仅支持Ensembl ID)或序列(fasta格式),还可提前设定gRNA互补序列所处的位置范围,最后将这些预设信息一并提交即获得设计结果。 图2 E-CRISP的信息提交界面
2.2 E-CRISP优点
以下优点均针对小麦基因组CRISPR-Cas系统的设计。
1)适用于基因敲除、转录沉默和激活的CRISPR/Cas系统gRNA的设计;
2)设计时可指定互补序列所处的位置,还可规避CpG岛;
3)可批量为多个基因设计gRNA,同时支持本地命令行操作;
4)结果可选择显示TSS、起始密码子、终止密码子和限制性内切酶酶切位点的位置信息,也可将这些结果导出为gff格式文件,可辅助gRNA的选择;
5)Off-target数据库分为3个子数据库,分别为染色体DNA数据库、包含内含子的基因数据库以及mRNA数据库,用户可根据实际需要进行选择,这在满足了用户需求的同时减少了后台数据分析的工作量。
2.3 E-CRISP缺点
1)参考基因组只使用“中国春”基因组IWGSC v1.0,识别的PAM序列仅针对Cas9,缺点同WheatCrispr;
2)用Bowtie/Bowtie2进行序列比对时,其容许的最大错配数为2,因此采用这一方法预测off-target位点时只能匹配到与gRNA序列仅具有2个或2个以下碱基差异的位点,而忽略了其他可能大量真实存在的情况;
3)仅以序列匹配程度来衡量gRNA的效率、以找到的off-target位点数量来衡量off-target频率,这种方法不合理之处一方面在于并不是100%匹配的gRNA其效率就越高,因为同时存在参考基因组序列与目的品种在该序列上存在SNP的问题,另一方面,并不是所找到的off-target位点越少对应的gRNA编辑效率就越高,因为off-target仅仅是预测的结果,且比对使用的最大错配数被限制为2个,这大大减少了off-target的数量,使用这一策略预测到的off-target位点数量远远低于某条gRNA全部可能的off-target数量;
4)gRNAs互补序列位点和off-target位点分开显示,没有将每条gRNA对应可能产生的off-target位点的位置和序列与该条gRNA的信息对应显示,这不便于用户对所匹配到的gRNA进行选择。
3 CRISPRdirect网站优缺点
3.1 CRISPRdirect简介
CRISPRdirect网站“Species”的选项多达633个,小麦仅是其中之一的物种,且也只包含“中国春”这一个小麦品种[3](图3)。CRISPRdirect中小麦的参考基因组和识别的PAM序列同E-CRISP,不同之处在于CRISPRdirect设计页面非常简单,用户只需要提交目的序列并选择相应的基因组即可快速获得结果,并没有其他参数可作调整。CRISPRdirect预测off-target分为3种模式,分别为20mer PAM、12mer PAM和8mer PAM,分别表示在全基因组范围内匹配靶点和预测off-target的位点时必须完全匹配的碱基数以及与PAM前12或8个碱基(“seed”)完全匹配的碱基数,比对使用的工具为GGGenome。 图3 CRISPRdirect的gRNA设计结果
3.2 CRISPRdirect优点
1)可提交最长为10 kb的序列进行比对;
2)利用GGGenome软件在基因组范围内匹配靶点和off-target位点,基于GGGenome快速、高效的优点,使获得的结果更为准确,且GGGenome支持匹配的序列存在个别碱基的插入和缺失;
3)利用“seed”序列的必要性来预测可能的脱靶效应,提高了预测结果的准确性;
4)傻瓜式操作,获取结果简单快速;
5)显示了匹配到的gRNA在染色体上的方向,便于后续分析;
6)高亮显示off-target位点少的gRNAs,便于用户快速选择;
7)结果提供了gRNA互补序列的GC含量、Tm值、TTTT位点和限制性酶切位点信息,可辅助用户进行gRNA的选择。
3.3 CRISPRdirect缺点
1)参考基因组只使用“中国春”基因组组装版本IWGSC v1.0,仅支持CRISPR/SpCas9系统gRNA的设计;
2)寻找靶点时不允许错配,忽略了不同品种小麦间的SNP,可能丢失真正的靶点;
2)预测off-target位点时只考虑PAM之前的“seed”片段的匹配程度,而不限制“seed”片段之前的序列其可容许的缺失、插入和错配数,这会导致匹配的off-target数量比预期多;
3)没有显示gRNA互补序列所在的基因结构区域,不能对靶点所处位置的合理性作出快速判断;
4) 仅可在外显子区域设计gRNA,无法为以转录调控为目的的CRISPR/Cas系统设计gRNA。
4 CRISPR-Cereal工具优缺点
4.1 CRISPR-Cereal简介
CRISPR/Cas系统的编辑效率不仅依赖guide RNA (gRNA) 的序列特征,还受靶向区域染色质状态的影响,另外,靶向基因的本底表达水平以及核苷酸多态性位点的存在与否也会影响CRISPR/Cas的效率。CRISPR-Cereal是一款整合了靶向区域的调控信息和基因组变异信息的gRNA设计工具[4](图4),其使用的小麦参考基因组组装版本为IWGSC v1.0,注释版本为IWGSC v2.1,识别的PAM序列包括NGG和TTTN,即可同时支持CRIPSR/Cas9和CRIPSR/Cpf1系统。CRISPR-Cereal利用Flashfry算法实现gRNA的on-target和off-target位点的预测,使用的打分算法为Doench CFD。 图4 CRISPR-Cereal设计高效特异gRNA的特点
3.2 CRISPR-Cereal优点
1)支持提交基因名称、序列和位置信息,即可针对基因又可针对非编码序列设计gRNA;
2)可快速在全基因组范围内搜索脱靶位点,最大错配数为5;
3)对每个脱靶位点进行了注释,如果脱靶位点中包含靶位点的同源基因,选择该条gRNA,可同时实现小麦多个同源基因的编辑;
3)展示了靶基因的表达量和染色质开放性以及组蛋白修饰信息,直观地体现了gRNA是否位于染色质开放性区域以及是否包含组蛋白修饰位点,辅助gRNA的选择;
4)展示了靶位点的SNP信息,有利于非参考基因组材料的gRNA选择;
5)可下载靶位点和脱靶位点的全部信息,方便gRNA的筛选。
3.3 CRISPR-Cereal缺点
1)由于目前小麦的染色质开放性数据和组蛋白修饰数据较少,难以开发一套针对染色质状态的打分算法来综合评价gRNA的编辑效率,CRIPSR-Cereal仅仅通过有跟无的定性来对靶基因的染色质状态进行打分和评价,无法让用户不通过筛选和比较即可获得最推荐的gRNA序列;
2)现仅支持IWGSC v1.0版本的参考基因组,如果要针对以IWGSC v2.0为参考的序列设计gRNA,只能通过提交序列的方式进行设计,后续还需将gRNA序列与IWGSC v2.0参考序列进行比对,才可获得靶向位点的具体位置信息。
参考文献
[1] Cram D, Kulkarni M, Buchwaldt M, et al. WheatCRISPR: a web-based guide RNA design tool for CRISPR/Cas9-mediated genome editing in wheat. BMC Plant Biol, 2019,19(1):474.
[2] Heigwer F, Kerr G, Boutros M. E-CRISP: fast CRISPR target site identification. Nat Methods, 2014,11(2):122-123.
[3] Naito Y, Hino K, Bono H, et al. CRISPRdirect: software for designing CRISPR/Cas guide RNA with reduced off-target sites. Bioinformatics, 2015,31(7):1120-1123.
[4] He C, Liu H, Chen D, et al. CRISPR-Cereal: a guide RNA design tool integrating regulome and genomic variation for wheat, maize and rice. Plant Biotechnol J, 2021,19(11):2141-2143. 作者简介:贺超,女,2019年于江西农业大学作物生理生态与遗传育种教育部重点实验室获得博士学位后,加入到华中农业大学小麦改良创新团队从事博士后研究,现依托小麦产量遗传改良课题组,开展小麦调控组学等研究工作。
|