分享

2020年还能不用做实验发6分生信SCI?

 心随所愿zh 2020-12-04
今天为大家分享2020年11月9日发表在cancers(IF:6.126)的一篇文章,主要揭示22个粘蛋白基因在胰腺癌中的表达及预后作用,这是一篇极易模仿的纯生信文章,重点在于文章中大部分结果图都是通过在线网站生成的,不需要会编程、敲代码,文章思路总体适用于基因家族分析,只要学会了这篇文章的套路,可以替换任何一基因家族进行相同套路的分析,基因家族数不胜数,相信你学会了这篇文章,你的思路会源源不断,一发不可收拾!




无监督聚类分析揭示TCGA胰腺癌数据粘蛋白表达谱及其对整体预后的影响

 

我们都知道,胰腺癌在早期不易被发现,缺乏有效的治疗药物,因而预后极差。作者分析了22个粘蛋白基因表达与胰腺癌数据集中患者生存之间的关系,采用无监督聚类方法根据胰腺癌患者粘蛋白表基因表达将患者进行分类,揭示了粘蛋白基因表达模式可能是胰腺癌患者的新预后标志物,为治疗胰腺癌的治疗提供了新的建议。

 

文章使用到的在线网站:GEPIAcBioPortalSurvExpressPROGgeneV2 ProteinAtlas。

 

文章思路流程图:



Part 1.胰腺癌中粘蛋白的表达情况分析


在本篇文章中,作者主要分析了22个粘蛋白基因,包括:

01

11个编码膜结合粘蛋白

MUC1,MUC3A,MUC4,MUC12,MUC13,MUC15,MUC16,MUC17,MUC20,MUC21和MUC22。

02

7个编码分泌粘蛋白

MUC2,MUC5AC,MUC5B, MUC6,MUC7,MUC9 /OVGP1和MUC19。

02

2个非典型粘蛋白

MUC14 / EMCN和MUC18 /MCAM。

为了观察这22个粘蛋白在胰腺癌中和正常组织中的表达情况,作者使用GEPIA网站(http://gepia./)分析了基因组组织表达(GTEX)(正常)和TCGA(肿瘤)数据集中这22个基因的表达情况。

 

结果表明:大多数编码膜结合粘蛋白的基因(MUC1,-3A,4,-12,-13,-16,-17和-20)和两个分泌的粘蛋白mRNAMUC5ACMUC5B在肿瘤样品中的表达均显著上调(p <>MUC15MUC21MUC22 mRNA没有明显的表达差异。

 

✎ 小编说 

这部分的结果图是使用在线数据库GEPIA生成的,不需要R语言即可完成,不仅可以进行TCGA癌症数据和GTEX的正常组织数据进行对比,还可以进行TCGA中的癌症与癌旁数据的对比,大家可以自行选择,除此之外GEPIA还可以进行生存分析,相关性分析等等,是一个快速出图的好工具。 


之后,作者又选了一个GEO数据库数据作为验证集,含45个癌症数据和45个癌旁数据,分解析结果和GEPIA中分析的结果相似:膜结合粘蛋白MUC1,MUC3,MUC4,MUC13,MUC16,MUC17,MUC20和MUC21和分泌的粘蛋白MUC5B表达显著上调,MUC6,MUC15的基因的表达减少,但未发现 MUC14 / EMCN和MUC18 / MCAM的增加。

结果表明:在胰腺癌中不同粘蛋白基因大多有着显著的变化,尤其是编码膜结合粘蛋白负荷的基因呈现整体上调趋势。


Part 2.分析粘蛋白基因表达与预后的关系

 

1. SurvExpress在线网站分析预后情况

2. PROGgeneV2在线网站再次验证预后结果

3.GEO数据分析预后情况


在这里作者使用了另一个在线网站:SurvExpress(http://bioinformatica.mty.:8080/Biomatec/SurvivaX.jsp),对粘蛋白基因表达与患者生存之间的相关性进行了分析。

结果表明:高表达的MUC1,MUC4,MUC5B,MUC16,MUC17,MUC20和MUC21与较差的总体生存率相关。非典型粘蛋白MUC14 / EMCN高表达与较低的生存率相关。

为了证明结果的准确性,作者使用另一个在线分析网站PROGgeneV2(http://genomics./proggene/)进行了类似的分析,结果表明:MUC1,MUC4,MUC16,MUC17,MUC20,MUC21,MUC2和MUC5B的高表达与较差预后相关。相反,MUC9高表达与PAAD患者的预后更好相关。

最后,作者又对包含63位患者的GSE57495数据进行了分析,结果显示MUC1,MUC4,MUC16,MUC17和MUC20的高表达可能会造成不良预后(统计学结果仅接近显著)。


Part 3.胰腺腺癌的粘蛋白基因组改变


1.作者使用第四个在线网站cBioPortal进行突变分析:根据cBioPortal工具提供的RNAseq的定量数据,选择PAAD-TCGA队列中每个粘蛋白基因的RSEM值提取了基因组突变数据。


✎ 小编说 

作者在cBioPortal中并没有找到MUC3MUC5ACMUC8MUC19MUC22的突变数据,只在文章中展示了17个粘蛋白基因,因此我们在使用该数据库时若出现了找不到几个基因突变数据的情况,只要大部分数据存在,我们仍然可以将这个突变图放到文章里


2.作者又对比了突变组和未突变组患者生存情况,发现突变组和未突变组患者生存情况差异无统计学意义。PS:这些生存曲线图仍然是cBioPortal网站自动生成的。

3.作者对单个粘蛋白突变进行了生存分析。只有MUC16改变与较差的总生存期和较短的无进展生存期有关。

4.作者还研究了突变与未突变组中最常见的变异基因,发现KRASTTNRREB1CDKN2A是发生在粘蛋白改变组中频率最高的基因突变。


Part 4.胰腺癌粘蛋白基因表达之间的相关性


1.分析每种粘蛋白基因组合间的Pearson相关系数

作者分析了26种具有正相关性(0.17 r<>p 0.05)的粘蛋白基因组合和11种具有负相关性(-0.46 r <>p0.05)的黏蛋白基因组合。结果表明:MUC2MUC12MUC13之间的相关性非常强(r = 0.72-0.85)。膜结合粘蛋白的mRNAMUC1MUC4MUC16MUC17MUC20MUC21)也具有较高的相关性。相反,非典型的粘蛋白的mRNAMUC14/EMCNMUC18/MCAM)与大多数膜结合粘蛋白呈负相关


2.进行主成分分析(PCA

PCA结果表明:膜结合粘蛋白与MUC14/EMCN MUC18/MCAM群集呈负相关。


3. QCMG数据库再次验证

使用独立的昆士兰医学基因组学中心(QCMG)包含96个胰腺癌数据的数据集进行了PCA主成分分析,结果膜结合粘蛋白MUC1MUC4MUC13MUC16MUC17MUC20之间具有相似的相关性(0.42 r<>),MUC14/EMCNMUC18/MCAMmRNA也相互关联(r=0.34)。

 

Part 5.PAAD队列的无监督聚类分析


1.无监督聚类分组

作者根据粘蛋白基因mRNA的水平对PAAD队列数据进行了无监督的层次聚类分析。将具有相似粘蛋白特征的患者进行分组。结果将患者分为了四组,但是其中两组患者数量太少,于是舍弃,只分析cluster1(红色)和cluster2(黄色)。
这两组的特征是:在cluster1中,MUC14/EMCNMUC15MUC18/MCAM粘蛋白mRNA显著高表达。cluster2MUC1-4-16-17-20-2显著高表达

2.聚类分组生存分析

Kaplan–Meier曲线显示,与cluster1相比,cluster2的总体生存期更短(p =0.05HR = 1.5CI 1–2.34),但并未影响无进展生存期(p =0.15)。


3.临床相关性分析

然后,作者分析了cluster1cluster2的患者的临床特征。结果表明cluster2组患者具有更高的肿瘤突变负荷(p 0.001)。但没有获得其他临床特征(肿瘤阶段,分化程度,淋巴结浸润)显著性差异结果,以上结果表明粘蛋白表达模式可能是PDAC中独立的预后生物标志物。


4. SurvExpress网站比较不同簇粘蛋白的相对表达整体预后

作者又再次使用SurvExpress网站PDAC患者的存活率进行了研究,该生存相对于两个簇中的粘蛋白的相对表达水平有关,(SurvExpress网站以p值最小进行拆分队列比较存活率)。高表达MUC1MUC4MUC16MUC17MUC20,和MUC21与较差的总生存期相关,同时,MUC14/EMCNMUC15MUC18/MCAM的高表达也与较低的存活率相关。

5.PROGgeneV2网站比较不同簇粘蛋白的相对表达整体预后

作者利用PROGgeneV2 网站再次分析了根据不同簇的粘蛋白的相对表达进行了预后分析。PROGgeneV2的分析原理是根据相关基因的表达中位数将了区分队列。

6.GEO数据验证

作者还研究了GSE57495独立数据集,其中包含63PDAC患者的相对mRNA水平和存活率。总的来说,这表明cluster 2可能有助于对胰腺癌预后较差的患者进行分层。

Part 6.粘蛋白表达的免疫组织化学(IHC)分析


使用ProteinAtlas数据库(www.proteinatlas.org/)得到了PDAC样品中粘蛋白表达的直方图,和免疫组化图,对粘蛋白进一步进行了蛋白质水平的分析。


文章到这里就结束了,文章结构清晰,数据有说服力,整体一看大部分都是用的在线数据库,没有做实验,只是将在线网站结果图用得淋漓尽致,过程中作者使用了GEO数据作为验证集,增强了结果的可靠性。

从大多数的基因家族类生物信息分析文章来看,套路基本上都是先分析家族基因在癌和癌旁中的表达,再进行基因预后分析、突变与生存分析、基因间相关性分析、PCA主成分分析,临床相关性分析,最后加上网站提供的免疫组化结果图,或者调整一下顺序,我们只需要换一下家族基因,就又是一篇新的文章。


END

征 稿 启 事


「医学方」现正式向粉丝们公开征稿!内容须原创首发,与科研相关,一经采用,会奉上丰厚稿酬(300-2000元),详情请戳


“医学方”始终致力于服务“医学人”,将最前沿、最有价值的临床、科研原创文章推送给各位临床医师、科研人员。



医学方已推出“实验室基础”“SCI写作技巧”“文献精读与解析”“医学英语轻松学”“国自然基金申请”“临床数据挖掘”、“基因数据挖掘”、“R语言教程”、“医学统计学”、“微创动物实验培训”等多个专题课程,如需了解课程详细推文,可关注“医学方”公众号,点击“精品专题”进入


腾讯课堂:https://medfun.ke.qq.com

网易云课堂:http://study.163.com/u/ykt1467466791112

客服电话:15821255568

客服微信:yixuefang1234

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多