咱们《生信技能树》的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 标题:Genome Wide Identification of Novel Long Non-coding RNAs and Their Potential Associations With Milk Proteins in Chinese Holstein Cows标题:中国荷斯坦奶牛新的lncRNA全基因组鉴定及其与乳蛋白的关系 杂志:Frontiers in Genetics(2018) 通讯作者:Shengli Zhang 机构:中国农业大学动物科学技术学院,农业部动物遗传繁育重点实验室,动物繁育国家工程实验室 文章链接:https:///10.3389/fgene.2018.00281 摘要: 本研究采用全转录组RNA测序技术,对3头乳蛋白率极高和3头乳蛋白含量低的中国荷斯坦奶牛的乳腺组织样本进行了LncRNA转录组分析。 在这项研究中,通过5个严格的步骤和编码潜力的筛选,共鉴定出6450个lncRNA转录本。总共鉴定出31个lncRNAs和18个新基因在高乳蛋白样品(HP)和低乳蛋白样品(LP)中存在差异表达。**通过生物信息学分析选择差异表达的LncRNA预测目标基因,然后整合差异表达的mRNA数据、基因功能、基因本体(GO)和途径、全基因组关联研究(GWAS)和数量性状位点(QTL)信息,以及网络分析以进一步描述潜在的相互作用。**有几个LncRNA(如XLOC_059976)可作为预测乳蛋白含量的候选标记。 这是第一个对与奶牛乳蛋白特性相关的lncRNAs和mRNAs进行全球表达谱分析的研究。这些结果为牛奶蛋白质的合成提供了重要的信息和见解,也为未来牛奶品质的改善提供了潜在的目标。 关键词:长非编码RNA,乳腺,转录组,牛奶蛋白,综合研究 背景知识:乳蛋白是人体最重要的营养物质之一。牛奶中蛋白质的数量和组成在很大程度上由奶牛的遗传因素决定,虽然已通过QTL定位、候选基因分析、GWAS或NGS技术在奶牛中鉴定出一些影响产奶量和成分的致病基因和突变,但乳蛋白的合成和分泌涉及复杂的过程,需要进行彻底的检测。已证明产奶性状受到强大的表观遗传调控。表观遗传基因调控机制是通过对染色质结构的调节来实现的,既可以抑制基因表达,也可以增强基因表达。lncRNAs与家畜的发育、代谢和免疫调节以及复杂性状的适应和表型变异有关。 数据和方法选择产后60天(泌乳高峰期) 一胎 6只的牛奶蛋白含量极其高和低的各三头(高≥3.5%和低≤3.0%)健康,无乳腺炎的荷斯坦奶。测序数据公开可以获取,编号是:PRJNA416150 1、候选转录本组装流程
2、lncRNA过滤筛选和鉴定
这个流程在文章有一个示意图,见文末! 3.保守分析使用 4.差异分析P value <0.05 5.富集分析DAVID GO 显著富集:p-value <0.05 IPA检验lncRNA相关基因富集 。-log2(p-value)>1.3为显著富集 6.LncRNAs和miRNAs之间的相互作用利用BLASTN找到已知miRNA前体,使用RNAfold (R包)对lncRNA转录本的二级结构进行预测。预测miRNA与lncRNA相关性使用 7.靶基因预测和功能分析使用perl脚本检查lncRNA上下游10kb和100kb的编码基因。用Pearson法计算lncRNA与编码基因的表达相关性,p值<0.05。从AnimalQTLdb中提取了乳蛋白性状的QTL信息。3从12个GWAS研究中收集到972个与乳蛋白性状相关的显著SNPs 结果1.高通量测序
2.全基因组lncRNA鉴定及特征总共6,450 lncRNA 转录本 5,256 lncRNA 位点,可以分成:
然后就是标准流程,看组装到的新lncRNA的一些特性,外显子数量和长度,表达量情况等等: A. lncRNA表达水平低。 B. LncRNAs的大小明显小于蛋白质编码转录本、新基因和假基因。 C. lncRNA外显子主要集中在两个 D. lncRNA明显短于其他 F. lncRNAs的保守性比蛋白质编码区低 3.差异分析在高蛋白和低蛋白之间,q-value<0.05,共有31个差异表达的lncRNA,其中15个上调,16个下调。 其中18个是 新lncRNA,6个上调,12个下调。 这个差异分析比较容易复现,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可;
4.IncRNAs和miRNAs之间关系的预测
为了研究鉴定的lncRNA是否被miRNAs靶向,作者用Miranda软件分析了6450个lncRNA转录本。共有4972个LncRNA转录本被预测为788个牛miRNAs的靶标。
5.LncRNA与蛋白编码基因表达水平的相关性5,251个lncRNA与18,227个mRNAs显著相关(p值<0.05),其中前面的差异分析得到的统计学显著的31个差异表达的lncRNA与11,161个mRNAs显著相关(p值<0.05)。详见:TABLE S11 | Pearson correlations between protein-coding genes and differentially expressed lncRNAs. 候选LncRNAs、mRNAs和通路的网络图。黄色三角形、绿色圆圈和粉红色菱形分别代表lncRNA、mRNA和通路。 6.LncRNAs功能的预测大量lncRNA的功能是未知的,但是它们主要是cis-regulators,所以可以根据它们临近的蛋白编码基因功能来近似推断,然后表达量的相关性也可以类推到。
预测了30个LncRNAs,调控34个影响乳蛋白合成的基因。 三个DEG(FOS、IRF2和SOCS2)被发现参与PRL信号通路(Li C.et al.,2016)。据报道,PRL对蛋白激酶C的刺激可能与PRL刺激FOS mRNA的积累有关,而蛋白激酶C的激活对PRL在乳制品合成和有丝分裂中的所有作用都是必不可少的。 XLOC_2427074、XLOC_2500996、XLOC_2938516和XLOC_593004的表达与fos基因显著相关,表明它们在乳蛋白合成中起重要作用。 IGFBP2与XLOC_1186672、XLOC_1243232、XLOC_1284424和XLOC_2273208相关,IgFBP5与XLOC_051681、XLOC_059976和XLOC_2280878相关。据此推测,lncRNA-igfbp2/igfbp5对可能参与胰岛素样生长因子途径,影响乳蛋白合成。 XLOC_051681与16个基因的表达相关。 总结:本研究使用四个软件进行组装转录本。选取至少在两个样本,两个软件中都鉴定到的转录本,进行转录本的筛选。 对差异lncRNA和mRNA表达的综合解释表明,30个lncRNA可能调控34个影响乳蛋白合成的基因。 推测的LncRNA XLOC_059976可能是预测乳蛋白组成表型的关键候选生物标志物。 文末友情推荐与十万人一起学生信,你值得拥有下面的学习班: |
|