生物_医药_科研 / TCGA / 长见识!进行TCGA数据差异分析最好的方法...

分享

   

长见识!进行TCGA数据差异分析最好的方法竟然是这个!

2019-01-11  生物_医药...

生信人工具盒目前已经升级,原来的工具盒已经不能连接到生信人服务器,因此已经不能进行正常使用。

下载新提供的生信人工具盒,由于后续差异分析时需要用到DECenter,该工具的使用需要在工具盒中内置R语言,因此,需要单独另外下载R语言,并导入至生信人工具盒。

生信人工具盒的安装与之前的要求相同,需要放置于全英文路径中,进入后点击升级,进入升级栏目中导入Rscrpit。


1、Rscript安装及导入

可以直接导入之前电脑中已安装的Rscript,也可以重新安装。

Rscript插入路径为:所安装的R语言包路径,R语言包中bin文件夹下的Rscript.exe。比如E:\R\R-3.5.0\bin。


2、在主界面中安装小工具

点击小工具下方的启动软件,就可以安装所需的小工具,并且会同时打开。为了避免网速问题导致拖延后续分析时间,建议先将所需工具打开一次,安装好小工具。

安装好了以后进行TCGA数据下载及差异分析。


● 首先是TCGA数据的下载


● 接着下载数据选择及合并


● 数据标准化处理:【启动软件】-【选择矩阵】-【TPM】-【转换并导出】


● 数据ID转换


● 准备分组文件

在使用生信人工具盒做TCGA差异分析时,需要自己手动准备分组文件。


● 根据TCGA编号判断样本类型

TCGA的样本编号有自己的一个特征,例如在本例中样本编号方式为:TCGA-3T-AA9L-01。

在这个编号中,TCGA表示该数据来源于TCGA数据库,TCGA数据库中的所有样本均以TCGA为开头,3T表示组织来源编码,不同的字母和数字表示不同的组织来源;

比如3T表示该组织来自于Emory University(https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/tissue-source-site-codes),AA9L则表示该样本来源的参与者编号。

最关键的是第四位的数字,它表示样本类型,在TCGA中,01-09编号表示肿瘤,10-19表示正常对照(https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/sample-type-codes),在TCGA样本名中,这个位置最常见的就是01和11。

因此,通过对TCGA样本命名编号,可以对每个样本的类型进行判断。


● 接着对样本进行分类

如果对每一个样本编号进行查看,然后进行分组,工作量会非常大。利用Excel自带的筛选工具,可以快速的筛查出编号为01或编号为11的样本。


● 差异基因分析


logFC下的负数表示该基因在肿瘤组中低表达,正数表示该基因在肿瘤组中高表达。


● 差异基因热图,火山图等

获得差异基因数据后,就可以相应的绘制火山图,热图等。具体操作步骤和之前分享过的利用工具盒对GEO数据差异分析中的方法一致。


注意事项及难点:

生信人工具盒需要升级,并且升级后不能直接利用工具盒下载Rscript,因为工具盒目前还不能自动识别所下载的Rscript目录,因此需要手动下载并导入。

下载TCGA数据时,需要注意选择数据类型,目前生信人工具盒对数据类型分成了转录组数据,甲基化数据等,在转录组数据中,不同的数据类型,进行差异分析时选择的方法是不同的。

数据下载时要同时选择癌旁组织和癌组织,并且要注意,在所选择的肿瘤中,包含有癌胖组织的数据。

在进行ID转换时,注意TCGA转换方式中的选择,下载的数据为HTSeq-FPKM时,选择编码基因或长非编码基因,下载的数据为miRNA profiling。isoform数据时,选择miRNA。

对TCGA样本数据进行分组时,一定要注意样本编号,如果分组出现错误,后续所有差异分析结果都是不可用的。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多
    喜欢该文的人也喜欢 更多

    ×
    ×

    ¥.00

    微信或支付宝扫码支付:

    开通即同意《个图VIP服务协议》

    全部>>