分享

沙龙第八期:生信免编程genespring实操——万能芯片数据分析&现场答疑

 yjt2004us 2017-10-14



通知:freescience周末沙龙直播使用腾讯课堂,关注每日推送和群通知报名参加。 课程是meta与生信专题周轮替,并设有答疑环节,解决读者和群友提出的问题。


小伙伴们,免编程找差异的genespring软件好用吗?赵老师写了一整个系列,用还原文献的方式介绍了genespring的使用(发送大数据到后台,领说明书+查看整个系列)。发送沙龙到后台,复习前几期的沙龙内容。


上周六,赵老师为大家在线讲解了免编程学生信-genespring找差异分子案例实践--万能芯片数据分析,并现场解答群友提出的相关提问(qq群463367325)。


(*  ̄3)(ε ̄ *)感谢小编编组假期的辛苦工作,大家可以领视频了!

 

发送 GSNX 到后台,马上得全套现场课程+答疑视频,开始小白的历练之路吧~


最近提过问题但错过现场答疑的同志,仔细看推送中有没有自己的提问,领到录像好好学习……


要是有追问,可以组织语言在群里求助(提问前请仔细阅读这篇求助得回应秘诀,如果没有解答,周六统一直播回答。这里查看什么是优质的提问~


发送到有道云笔记的优质提问将获得专场解答,将问题写在有道云笔记里,进qq群463367325,把有道云笔记链接私信发给小觅0号这里看欧阳同学整理的有道云使用心得)。


问答版与现场答疑内容仅供参考,并非标准答案,欢迎大家深入思考,提出不同的见解。


赵老师的生信沙龙问答版

问:genespring在哪提供配对信息???

赵忻艺部分文字回答:见之后操作课程演示


问:

1.可以直接用GSE的soft文件进行临床相关性分析吗?

赵忻艺部分文字回答:soft和临床相关性无关系


2.散点图可以放在文章中吗?

赵忻艺部分文字回答:问题表达不清无法回答


3.进行临床相关性分析时,数据需要进行Z-score处理吗?

赵忻艺部分文字回答:Z-score与临床相关性无关系


4.GEO的数据有包含生存资料的吗?

赵忻艺部分文字回答:大部分不包含,部分包含


问:想问一下,如何预测两个基因之间的关系?

赵忻艺部分文字回答:ppi和皮尔森相关系数


问:毕业论文中的第一部分和第二部分某些方法学完全一样,能不能再复制一遍凑字数?

赵忻艺部分文字回答:无法回答。也不是生信问题。

 

问:请问如果在TANRIC用位置搜索到的lncRNA如何能在TCGA找到对应的原始数据(因为用ENSG号和基因名字搜不到)

赵忻艺部分文字回答:可以用ENSG号找到,操作见录像


问:您好,老师我想请教一下,GEO2R里,TOP250差异基因分析中F值是什么意思呢?我要怎么才能转换得到LogFc呢?

赵忻艺部分文字回答:F值代表方差,分析可能未定义分组,导致结果出现了F值而无fold change


问(留言板):LncRNA研究之lncRNA芯片分析

你好,请教如何把mRNAlncRNA数据分开?

赵忻艺部分文字回答:见之后操作课程演示

 

问(留言板):LncRNA研究之lncRNA芯片分析

有木有完成上面的R语言代码哦

答:手头木有现成的,谷歌一下或者在github里搜搜

赵忻艺部分文字回答:见之后操作课程演示

 

问:请教,论文还没有发表的GEO芯片数据是不是不能用GENESPRING来分析?因为好多统计方法选择之类的不知道作者用的是什么

答:可以根据自己的需要重新分析啊

赵忻艺部分文字回答:见之后操作课程演示


问:GEO数据用genespring分析后有许多同一个基因对应了不同的检测值怎么处理

赵忻艺部分文字回答:第四期沙龙回答过同样问题(点链接直达)

https://mp.weixin.qq.com/s/CwMvQPYvDCASqxFGQHkLDg


问: 

1. WGCNA分析时电脑最低配置;

赵忻艺部分文字回答:主要看数据量


2. GEO数据分析时使用人家标准化过的数据跟用原始数据做分析时的差异,有什么需要特别注意的,主成分分析,聚类分析也用同样方法做吗?为啥我看到的文章很多没有做主成分分析呢。归一化处理呢?那些分析时套路必须的呢

(赵忻艺录像中已回答)


3. IPA富集pathway的时候,那个Z-score是干嘛用的?

(赵忻艺录像中已回答)


4.GEO数据库在线分析,做差异基因分析时是用什么方法做质量控制和均一化处理的?

(赵忻艺录像中已回答)


5.Affymetrix Human Genome U133 Plus 2.0 Array芯片,我们在筛选时是看adj P-value?还是P-value?(如下图),adj P-value是什么意思?

(赵忻艺录像中已回答)


 6.一个基因对应多个探针名字导致的,这种情况应该怎么处理呢,是去除这一类基因吗,还是其他方式,去除的话怎么去除

(赵忻艺录像中已回答)


7.在做PPI网络图时,我发现好多高级的网络图感觉用cytoscape做不出来,人家是怎么做出来的呢,除了cycoscape还有更高级得吗

赵忻艺部分文字回答:可以做出(应该是还未完全掌握cytoscape作图),或做完图后ppt修改、PS修改


8.如果筛选出来的差异基因的基因名有重复的,那么做热图的时候是不是取平均值呢?

赵忻艺部分文字回答:只取一个


9.  在TCGA下载了甲基化的数据,合并之后用excel打开第一列是甲基化的位点cg加一串数字,但是没有注明基因名称,请问怎么根据甲基化位点确定是哪个基因?

赵忻艺部分文字回答:下载注释文件


10. 得到差异基因中出现:CKAP2 /// IGLC1 /// IGLJ2 /// IGLJ2 /// IGLJ3 /// IGLJ3/// IGLJ3 /// IGLV1-44 /// IGLV2-14 /// IGLV@'///'代表什么意思?这组值还能用吗?取哪个名称用

(赵忻艺录像中已回答)


[现场追问:a.有芯片可以检测isoform表达吗?

赵忻艺部分文字回答:可以


b.为什么这几个名字一样?

赵忻艺部分文字回答:别名或重叠基因]


11.假如一个数据集里只有病例组的CEL文件,我可以用另外一个数据集的健康对照作为对照组吗?这两个数据集是一个平台的,而且研究的方向差不多

赵忻艺部分文字回答:不可以,设计要一致


12.下载了注释文件以后,要怎么进行修改注释文件,才能在R中运行?

赵忻艺部分文字回答:无法回答


13.怎么知道调用的包是来自于R自带的还是bioconductor的呢

赵忻艺部分文字回答:百度


14.安装某个包的时候有没有故意放在当下的运行路径中呢,还是每次打开不同的工作路径都要重新装一次

赵忻艺部分文字回答:不需要


15.LncRNA,miRNA,mRNA芯片数据有什么不同,处理起来有什么不同

赵忻艺部分文字回答:属于哪个公司产品


16.在GEO中下载的原始文件是txt文件,而不是CEL文件,要怎么处理才可以在R中筛选差异基因.

赵忻艺部分文字回答:不同的R包


17.在GEO数据库中找到的数据集,在提交者没有明确注释的情况下,如何进行样本的分组。

(赵忻艺录像中已回答)


18.做热图一般是把所有差异表达基因都做吗,还是取前50,前100?

赵忻艺部分文字回答:根据需求


19.得到的差异基因做通路富集分析,能注释出来相关通路,里面count有上下调的基因,为什么把上下调差异表达基因分开做通路富集分析,上调基因就注释不到通路呢?

赵忻艺部分文字回答:为什么都要有阳性结果呢


20.做通路富集分析时,用上调的基因(300多个),可以出一些通路。用下调的基因(300多个)也可以富集一些通路,把上下调的基因加起来(700多个)却富集不出任何通路,这是为什么呢?

赵忻艺部分文字回答:富集和基因数无关


21.如果用多个芯片、多平台的数据选择各自平台注释文件得到差异基因交集后,可以绘制热图吗?这种取交集的结果可信吗?批间差等影响因素大吗?

赵忻艺部分文字回答:组合,异质性分析


22.请问经常运行r的时候会出现“因为‘lib’没有被指定”是什么意思 要怎么解决

赵忻艺部分文字回答:没有遇到过


23.主成分分析到底是什么用意,如果我研究的是癌和癌旁,还需要主成分分析吗?主成分分析主要用在哪些情况下?

赵忻艺部分文字回答:见之后操作课程演示


24.R语言分析,如果不是affy芯片,是illumina或者Aginent芯片,能用RMA做质量控制吗?

赵忻艺部分文字回答:PCA

(学习陈同老师的一文看懂PCA主成分分析)


25.生存分析中根据基因表达量分为高低组,这个界限是不是根据该基因的算术平均值界定的?

赵忻艺部分文字回答:以前回答过同样问题。

数据标准化,cytoscape和生存分析界限值——学术问答版14(点文字电梯直达)


26.每次重新开r软件,都要重新安装一次包才能library是怎么回事?

赵忻艺部分文字回答:不会,可能是电脑里安装了多个R的版本。


27.WGCNA三个做分析的数据文件怎么获得和整理,哪里可以下载呢?

赵忻艺部分文字回答:以后会详细介绍


28.我看不少芯片的再分析的文献中都有“质控”这些步骤。请问可以介绍一下怎么做吗?

赵忻艺部分文字回答:见之后操作课程演示


29.400多个基因居然在david里富集不出Homo sapiens的通路,只有Bos taurus的通路,这样正常吗,Bos taurus的通路能用吗

赵忻艺部分文字回答:根据样本背景,如果研究人类的,Bos taurus当然不能用


30.我筛选出几个基因(数量少),做了GO,PATHWAY,PPI,感觉工作量不够大,还有哪些生信方法可以进一步深入做下去呢,不想做实验,但是GO,PATHWAY,PPI感觉工作量又不大,发不了好文章。

赵忻艺部分文字回答:分析更多数据,或者调整切入点


:

1.请问在做乳腺癌TCGA数据库中的ceRNA时,寻找目的lncRNA可能结合的miRNA,搜索感兴趣的lncRNA可能结合的miRNA。我们知道的有两个网站,预测使用到的是DIANA数据库下的在线网站,链接如下:http://carolina.imis./diana_tools/web/index.php?r=lncbasev2%2Findex-predicted

和 基于这个原理介绍的网站是starbase2.0,链接如下:

http://starbase./mirLncRNA.php

请问:这两个网站都需要用到,还是只用一个网站预测就可以?

赵忻艺部分文字回答:根据具体情况


2.如何找到上述两个网站的lncRNA-miRNA的数据库文件或者接口?

赵忻艺部分文字回答:有导出文件


3.如何设计lncRNA- miRNA-mRNA这种ceRNA的实验,有没有参考的教程或者文章?

赵忻艺部分文字回答:http://mp.weixin.qq.com/s/VdDNMhX-dhjjULPTusnPwA


4.做完lncRNA- miRNA-mRNA这种ceRNA的网络图后,是否需要做WGCNA,做miRNA的还是MrnaWGCNA?

赵忻艺部分文字回答:不用


5 如何探究lncRNA与转录因子TF的结合位点?

赵忻艺部分文字回答:Chip-seq 注释到lncRNA启动子区

 

问:

1.癌和癌旁差异基因比较是否一定需要用配对设计T检验?

赵忻艺部分文字回答:不一定


2.如何使用genespring配对比较,genespring还有哪些好用的功能?

赵忻艺部分文字回答:差异基因


3.GEO数据库里面的expression of miccroarry,RNA-Seq等不同芯片类型是不是得分开比较?筛选差异基因 常用什么芯片。

赵忻艺部分文字回答:单独分析


4.简要介绍一下这几种芯片用于什么筛选

Expressionprofiling by MPSS  

MPSS表达谱

·Expressionprofiling by SAGE  

SAGE表达谱

·Expressionprofiling by SNP array  

单核苷酸多态性序列

·Expressionprofiling by array   

阵列表达谱

·Expressionprofiling by genome tiling array 

基因组平铺阵列表达谱

·Expression profilingby high throughput sequencing 

通过高通量测序表达谱

·Genomebinding/occupancy profiling by SNP array

基因组结合/占用分析的SNP阵列

·Genomebinding/occupancy profiling by array      

基于阵列的基因组结合/占用分析      

·Genomebinding/occupancy profiling by genome tiling array      

基因组平铺阵列的基因组结合/占用分析         

·Genomebinding/occupancy profiling by high throughput sequencing        

高通量测序的基因组结合/占用分析   

·Genomevariation profiling by SNP array      

SNP阵列的基因组变异分析         

·Genomevariation profiling by array         

基于阵列的基因组变异分析                     

·Genomevariation profiling by genome tiling array   

基因组变异分析基因组平铺阵列         

·Genomevariation profiling by high throughput sequencing    

高通量测序的基因组变异分析                    

·Methylationprofiling by SNP array       

SNP阵列甲基化分析               

·Methylationprofiling by array 阵列的甲基化分析              

·Methylationprofiling by genome tiling array

基因组平铺阵列的甲基化分析            

·Methylationprofiling by high throughput sequencing    

甲基化谱的高通量测序  

·Non-coding RNAprofiling by array    

阵列非编码rna分析       

·Non-coding RNAprofiling by genome tiling array

非编码RNA分析基因组平铺阵列  

·Non-coding RNAprofiling by high throughput sequencing  

非编码RNA高通量测序分析

·Other 其他         

·Proteinprofiling by Mass Spec

质谱质谱法

·Proteinprofiling by protein array 

蛋白质阵列的蛋白质质谱分析

·SNP genotypingby SNP array  

SNP阵列SNP基因分型

·Third-partyreanalysis

第三方的再分析

赵忻艺部分文字回答:太科普了,不做回答了。


问:标准化数据怎么做热图

赵忻艺部分文字回答:见往期问答版

数据标准化,cytoscape和生存分析界限值——学术问答版14

PRISMA+生信答疑 线上沙龙第五期

课件的分割线

上期演示了从cel芯片原始数据到根据阈值筛选出差异基因的具体操作过程,但如果数据集没有cel格式的原始数据,只有标准化后的矩阵文本,那能否用GeneSpring来进行分析?


本期将具体演示矩阵文本的万能导入GeneSpring进行分析的过程。


以还原文献的GSE35306为例,是一个3 ICC, 7 HCC 和20cHCC-ICC数据集,采用的芯片型号是Affymetrix Human Gene 1.0 ST Array。


在通过cel导入时GeneSpring无法识别这种芯片型号,即无法采用原始数据导入,如下图。所以同样要以矩阵文本的万能导入GeneSpring才能进行分析。



1. 首先要新建一个自制的平台型号。


2. 导入矩阵格式的文件。(记得下载的文件要把多余的标题删除,保持矩阵形式)


3. 导入平台注释文件。(记得下载的文件要把多余的标题删除,保持矩阵形式)


4. 文本格式调整,第二行设置为“。


5. 标题格式调整,默认即可。


6. 定义信号行,先输入GSM,再刷新下。


7.平台注释文件调整,默认即可。


8. 平台注释文件标题调整,默认即可。


9. 定义列的注释数据信息。通过下拉菜单把关联数据库相对应的起来。


10.这里根据注释文件信息选择下图三个注释列。


11. 回到新建实验页面,选择芯片平台为genenic single color,即选择自制芯片类型。


12.导入矩阵文件即可。


13. 由于GEO下载的矩阵文件已经是经过RMA算法标准化后取过对数了,无需做任何处理了。




14. 最后就导入成功了。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多