分享

用公共数据发文章-基因家族分析好思路

 Omicsclass 2018-08-01

虽然我们一直在说可以“用别人的数据,写自己的文章”,但是具体怎么操作,很多同学还是不清楚。今天就用一个完全用公共数据库资源进行分析发文的例子来和大家分享下这方面的思路。

读前准备知识点

1. NBS-LRR是最大的抗性基因家族之一 ;

2. 根据N端的Domains不同NBS-LRR分为两个亚族,含TIR的TIR-NBS-LRR(TNL)和含卷曲螺旋(CC)N端结构域的 CC-NBS-LRR(CNL)。

鉴定木薯NBS-LRR基因家族成员

利用从Pfam数据库下载的 raw NBS HMM 在木薯基因组数据中鉴定NBS基因,再用这些基因构建木薯特异的 HMM模型,然后使用新建的 HMM模型重新搜索木薯NBS基因家族成员,这样才能得到比较全面的NBS基因家族成员。流程如下图所示:

attachments-2018-04-mRBGndf85add7becbb54a.jpg

鉴定过程中值得注意的是,部分NBS-LRR基因在进化过程中丢失了完整的NBS domain。要鉴定这部分基因,需要下载NCBI中所有名字含“NBS-LRR” 标签的基因,与木薯基因比对,认为相似度高的基因就是不完整NBS-LRR 基因。得到尽量全面的候选基因后,用保守结构域的隐马尔科夫模型和Paircoil2来区分不同类型的domains(TIR, RPW8,LRR,CC)。

最终筛选到了228个NBS编码的抗病基因,两个亚族TNL、CNL分别有47个和181个,此外鉴定出99个不完整的NBS基因。CNL是TNL基因的3.8倍,这个比例在不同物种中并不相同,数量多的一组可能反映了该类抗病基因适应木薯的主要病菌。

attachments-2018-04-ggKXe7ES5add7c1475590.png

系统进化分析

用MEGA6构建NBS-LRR基因的系统发育进化树,结果显示NBS-LRR基因分化成TNL亚族和CNL亚族两大分枝。TNL(红色)含33个基因,CNL 分为三个小分支CC(I)(蓝色), CC(II)(绿色)和(紫色),在类似研究中RPW8通常分到了CC(II) group 。

attachments-2018-04-Y4aZyRsi5add7c3f7f5c9.jpg

作者为了给每个进化分枝的成员找到功能密切的同系物,添加了一组已知功能的抗性基因作为参照重新构建了系统进化树(如下图)。加入参照序列影响了进化树的拓扑结构,并导致CC(I)(蓝色)组内部分为两个独立的分支,CC-1a 和 CC-1b。部分参照基因没有与木薯基因聚在一起,可能因为选取的参照基因来自不同科(禾本科)。

NBS-LRR基因家族的进化和影响每个物种的病菌密切相关,在进化枝CC-2中,与加入的参照基因的相似度不高,这些基因可能对未知木薯病菌有抗性或者在非宿主抗性反应中起作用。

attachments-2018-04-SpH7Tuu95add7c6b9621d.jpg

基因的染色体位置图

获取基因在染色体上的位置信息,绘制基因在染色体上的位置分布图。下图从外到内,第一圈代表不同的染色体,第二圈代表在染色体不同位置的基因。第二圈中红色代表TNL基因,蓝色和黑色代表CNL基因,由图可以看出CNL在每条染色体上都有分布,TNL仅分布在了9个染色体上。在染色体上NBS-LRR 基因倾向于形成基因簇,通常认为基因簇通过重组、错配促进序列交换。

attachments-2018-04-PyodD69s5add7c86d34ef.jpg

NBS-LRR 基因在生物胁迫下的表达分析

分析NBS-LRR 基因在感病木薯及对照中的表达量变化(数据来自公共数据库)。从上图中心的两圈(基因的表达量)可以看出,木薯NBS-LRR 的表达量在生物胁迫组和对照组之间没有太大变化,然而有几个基因在所有组中都是高表达,再结合类似文献的结果,推测NBS-LRR基因虽然可能不参与抗性应激反应,但其基因产物在植物感染之前发挥了抗性作用。

更多生物信息课程:

1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程基因家族文献思路解读

2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读转录组(无参)结果解读

3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析

4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘转录组文献解读

5. 微生物16S/ITS/18S分析原理及结果解读OTU网络图绘制cytoscape与网络图绘制课程

6. 生物信息入门到精通必修基础课,学习链接:linux系统使用perl入门到精通perl语言高级R语言画图

7. 医学相关数据挖掘课程,不用做实验也能发文章,学习链接:TCGA-差异基因分析GEO芯片数据挖掘GSEA富集分析课程TCGA临床数据生存分析TCGA-转录因子分析TCGA-ceRNA调控网络分析

8.其他课程链接:二代测序转录组数据自主分析NCBI数据上传二代测序数据解读

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多