全套录音：（genespring免编程大数据演示&数据集变图表详解） MetaDE、检索词、...

昵称22043766 2017-09-04

展开全文

插播：点这里看陈同老师对科研狗人群目前学习状态的数据分析……模型应用和总结都很中肯……至于样本量小的问题，大家踊跃参与互动学习，下次调查分析争取有大样本量……论文合作什么的，希望也有条件开展了……

陈老师严谨惯了，不善于写吸引人的标题，生信宝典公众号的内容属于生信学习者必看，大家看到对自己有帮助的内容，多转发分享，就是对陈老师原创写作的最大支持啦~

小伙伴们，免编程找差异的genespring软件好用吗？赵老师写了一整个系列，用还原文献的方式介绍了genespring的使用（发送大数据到后台，领说明书查看整个系列）。

上周六，赵老师为大家在线讲解了免编程学生信-genespring挖掘数据实操，并现场解答群友提出的相关提问（qq群463367325）。赵老师会陆续将genespring推文系列在直播中给大家演示操作，并现场解答各种相关问题。

现场有一些操作演示，录音课件图文只能还原一部分，本周六继续沙龙，大家尽可能安排时间现场收听哦~

孙老师也在现场回答了上一周群友提出的meta循证统计相关问题。

（上周提过问题但错过现场答疑的同志，仔细看推送中有没有自己的提问，领到录音好好学习……要是有追问，提前组织语言在群里追问，周六统一解答。提问前请仔细阅读这篇求助得回应秘诀）

发送沙龙到后台，复习前几期的沙龙内容。

个别小伙伴在直播现场反映声音卡顿，画面不清晰，或者没有直播画面入口的问题，在这里特别提醒，需注意以下两点才能保证收看效果：

1. 提前安排稳定的网络环境；

2. 使用windows系统的PC观看直播。

发送SL003到后台，马上得全套现场课程录音，跟随两位老师的逻辑，开始小白的历练之路吧~

猴哥meta沙龙提问版

问：是不是非OA期刊就不要版面费？请问下各位老师，谢谢！

答（猴哥）：现场录音解答

答（猴哥的部分文字回答）: nature和spring的大多数不要，其他的四大水库是要的，plos one ，oncotarget，medicine, science report et al.

附不要版面费的部分杂志的现场截图示意。

问：在用MetaDE时，这个包对数据处理时，输入数据是表达矩阵吗？
是自己从原始数据处理开始吗？

答（猴哥）：现场录音解答

答（猴哥的部分文字回答）: yes, you need matrix data.

问：如何找到上调下调基因？这个包没有具体说明呀，只能根据p值筛选出差异基因呀，我看猴哥这么写的，我截了图

答（猴哥）：现场录音解答

答（猴哥的部分文字回答）:差异基因的筛选这个包里面是有的，在合并 ES，这个包有差异基因的差值，根据差值和p值，共同确定差异基因和方向。

问：我们在用MetaDE做芯片Meta分析时，要不要做芯片的同质性检查，我看了好几篇文献以及猴哥的文献，都没有提到这一点，直接用MetaDE做了分析，是不是可以直接这样用？

答（猴哥）：现场录音解答

答（猴哥的部分文字回答）: 没有办法做，蛮多审稿人问道这个问题。用其他的包，比如 metaGEM是可以做。差异种族和年龄。

问：请教个问题。在CBM中查找中文主题词，结果提示找不到查询相符的资源。是查询错误还是就是没有相关的主题词和自由词？

答（猴哥）：现场录音解答

答（猴哥的部分文字回答）:可以在pubmed 先找英文，然后找中文。

问：亲们，revman 软件 add study后排序不是按照我输入的顺序，怎么回事啊？

答（猴哥）：现场录音解答

答（猴哥的部分文字回答）:根据我们的 author 的首字母排列。

问：各位大咖，咨询一下，做meta分析在 cochrane library 数据库主题词搜索没有文献只用的自由词，最后and到一起没有查到文献，把主题词当成自由词后，连同自由词一起最后查到了文献，这样可以吗？

答（猴哥）：现场录音解答 （类似问答点这里）

答（猴哥的部分文字回答）:先按主题词词下位词自由词查词。先找到主题词，在pubmed找，以pubmed为先导。

Colorectal Neoplasms

Tumors or cancer of theCOLON or the RECTUM or both. Risk factors for colorectal cancer includechronic ULCERATIVE COLITIS; FAMILIAL POLYPOSIS COLI; exposure to ASBESTOS; andirradiation of the CERVIX UTERI.

Year introduced: 1989

Select item 680031232.

Colorectal Neoplasms, Hereditary Nonpolyposis

下位词

Entry Terms:

Neoplasms, Colorectal
Colorectal Neoplasm
Neoplasm, Colorectal
Colorectal Tumors
Colorectal Tumor
Tumor, Colorectal
Tumors, Colorectal
Colorectal Carcinoma
Carcinoma, Colorectal
Carcinomas, Colorectal
Colorectal Carcinomas
Colorectal Cancer
Cancer, Colorectal
Cancers, Colorectal
Colorectal Cancers

自由词：colorectal cancer等

genespring数据挖掘系列文章推出一年多，我们总结了读者朋友的相关常见疑问：

使用genespring时数据导入成功的关键是什么？

认真阅读说明书重要吗？

GEO数据库写文章够用吗？

数据集注释看不懂。

芯片信息、表达值都是什么鬼？

探针对应基因和转录本分类又是什么……？

数据集选择障碍。

纠结用原始数据还是矩阵格式？

平台、原始、矩阵、混合包怎么选？

宝宝的论文到底需要哪部分数据？

上传的实验设计一团糟，怎么办？

样本信息都是什么意思？

仔细听赵老师的本次录音，就会有你需要的答案。

赵老师现场详细介绍了各种临床研究常见数据库的应用背景，演示了怎样检索、筛选GEO中的数据集，解决了怎么处理才能把数据集直接应用到文章中的问题。

现场导入数据处理中……

现场操作演示生成的图，很漂亮有木有，非常简单哦~

之前的课程中，我们通过数据库拿到了免费的数据，今天我们就开始分析它们了，这个过程就叫做“数据挖掘”。

首先介绍下基因芯片软件和工具。基因芯片分析一般对硬件要求不高，普通的PC机就能运行，但如果处理较多的数据量时，建议提高内存，如果拥有16g内存和i7的处理器基本就能快速运行所有分析了。目前基因芯片的分析工具很多，但各有优缺点。根据难易程度推荐以下三款软件和工具。

GeneSpring

优点：互动式的视窗操作界面，傻瓜式操作，功能强大，拥有超过4400篇的高水平参考文献的引用，表达谱数据分析的金标准。

缺点：商业软件收费，操作繁琐，功能拓展性差。如同SPSS一样，适用于零基础的鞋同。

.BRB-Array

优点：基于excel的分析工具，自动调用R包，功能强大，拓展性强，操作简单，免费使用。

缺点：专业性强，格式要求高，稍有不符就报错。适用于有一定基础且对英文说明书研究要透彻。

R—Bioconductor

优点：R语言，生信必学的分析工具，强大的统计分析和作图工具，集合了几乎所有和最新的分析算法和工具包，任你免费调用。

缺点：对于拥有安装某个R包就研究几天经历的鞋童们就不用多说了吧！

那么便于零基础的鞋童这里采用GeneSpring进行分析。我们以上次讲到的GSE15765为例90个样本，从cel文件开始分析。

GeneSpring界面

新建项目，命名。

新建实验，命名。

选择芯片平台，即哪家公司的哪类产品。

选择高级分析，点击ok。

选择文件，导入cel文件。

输入arr文件，不用输入跳过这步点next。

选择算法，从还原文献中得知采用RMA。一般选择中位数作为基线。

点击完成后，运行。最终生成了一个22277个探针*90个样本的矩阵格式形式了。

接下来就是导入平台注释文件，告诉你这些探针号代表的基因是什么。

导入对应的上期所讲的平台注释txt文件。

记得打开它，把多余的标题删除，保持也是矩阵形式。

选择你要匹配的id和注释的信息。根据文献，我们就选择ID，Gene Symbol，ENTREZ_GENE_ID和Gene Title。当然也可以选择更多信息来注释你的探针。

这样就完成注释了。

最后就是要输入样本的分组信息。只有知道样本的分组信息才能进行统计，没有比较就没有差异。

添加一个分组变量，命名type，非数值型。

根据实验分组信息，对具体样本编号进行hcc，hcc-icc，icc分组。

然后点击create interpretation来进一步描述统计目的。

选择不连续变量。

选择包含三个分组，取均值。

产生了三组的图谱。可以指针悬停看什么基因。

接下来是统计，可以进行三组检验的各种统计分析。

如果只想进行两组（例如hcc和icc）的检验。那么重新create interpretation，只选择hcc和icc。这里举例hcc和icc，用非配对的t检验。

根据你不同的目的选择不同的统计方法。

设定p值的阈值。

筛选出14633个探针，p<0.05。

接下来再根据差异倍数进一步筛选。

选择HCC v ICC。

选择2倍差异阈值。

总共4151个探针，至少两倍差异，p<0.05被筛选出来了。

右击鼠标导出数据。

打开txt，就得到最终的详细列表。

最后可以通过txt导入excel，进一步整理成发表论文的表格，这样就大功告成了。

这期就到这里了，下期将进一步实现如何把不同类型的芯片数据集整合在一起，即还原文献中以下这段过程。

关于GeneSpring的安装下载，可从官网机构邮箱注册获得，可以免费试用7天

本期也有几提问:

如果数据集没有cel格式的原始数据，只有矩阵文本是否能用GeneSpring来统计分析差异？怎么操作？
GeneSpring还能做哪些分析？怎么操作？

赵老师的生信沙龙提问版

问：文章PMID是多少啊？

答（赵忻艺）：PMID: 25712376

问：如果做心血管方面研究，怎么做

答（赵忻艺）：现场录音已解答

问：赵老师挑选这个芯片有心得吗？比如看一下芯片的文章分数？

答（赵忻艺）：现场录音已解答

问：为什么直接搜索GSE…的系列集呢？这个系列集怎么确定？为什么不直接搜胆管癌？请教怎么确定GSE 系列集？谢谢！

答（赵忻艺）：现场录音已解答

问：矩阵数据我怎么知道用什么标准化的

答（赵忻艺）：现场录音已解答
问：如果一个GSE文件里面样本上不够，可以一个GSEXXXX里面选几个样本，然后另外一个GSEXXX选几个样本，凑在一起分析吗

答（赵忻艺）：现场录音已解答

问：从GEO下载的affymetrix公司的芯片原始数据文件，CEL结尾的，要不要先质量控制（查看芯片灰度、画箱线图、画降解曲线等）剔除一些样本，，还是可以直接使用预处理的一体化算法比如MAS5、RMA等来标准化，然后就直接可以用R语言limma包差异分析了？

答（赵忻艺）：现场录音已解答

问：已经标准化后的矩阵用R语言什么包合适呢？谢谢

答（赵忻艺）：现场录音已解答

答（赵老师的部分文字回答）：问题太模糊，无法回答

提问前请仔细阅读这篇求助得回应秘诀

问：能否演示这几个数据集的数据具体是如何合并的？

答（赵忻艺）：现场录音已解答

答（赵老师的部分文字回答）：本次还没有讲到这里，照顾零基础的听众，从基础开始说。注意每周的直播预告，会讲到这部分的。

问：

1.对于芯片的纳入，如国内的博奥和博芯公司的芯片探针数才8000-10000左右，而国外的几万探针，这种情况国内的芯片是否可以纳入一起研究？

2.用R语言进行差异分析时，要进行归一化，较正处理，像昂飞公司的芯片有相应的affy.R包，博芯和博奥公司官网是否也有相应的R包下载？

答（赵忻艺）：现场录音已解答

问：GeneSpring有破解版吗？

答（赵忻艺）：现场录音已解答

答（赵老师的部分文字回答）：有，某宝有售

问：在geo里有些芯片数据没有发文章,这些芯片数据的价值大吗?如果大为什么作者不发呢?

答（赵忻艺）：现场录音已解答

问：纳入的文章，所有的REM必须一致？

答（赵忻艺）：现场录音已解答

问：怎么安装genespring 现在已经下好了破解版，在破解那一步卡住了 .

答（赵忻艺）：现场录音已解答

问：一个基因对应多个探针，以哪个探针为准

答（赵忻艺）：现场录音已解答

问：
二代测序的数据怎么下载呢？

答（赵忻艺）：现场录音已解答

热心群友的珍藏版genespring相关学习材料

热心群友--（这里不能透露姓名但进群就能认识的）--提供了私家珍藏版的genespring相关学习材料，有需要的读者发送GX0002到后台直接领~

群友tips：最后用程序性兼容的XP打开哦，用win7打不开：）

发送SL0000到后台，参加每周的免费线上沙龙，和赵老师现场讨论大数据挖掘问题。

注意：
1. 是发送后台，而非留言区或其它地方。
2. 请务必发对关键词，否则是收不到的。

生信大数据版主介绍：赵忻艺，将大数据应用于医学科研，主要包括临床医学数据的挖掘、收集、整理和利用（标准化和科学化的数据库），医学分子大数据的整理、利用及研究（基因、蛋白及代谢）。特别针对肿瘤个体化的基因测序和数据快速处理，寻找个体化的分子标志物、药物靶标和治疗方案。目前，已建立浙大大数据挖掘团队，旨在降低研究者学习大数据的门槛，推动大数据共享与研究协作，发表更高质量的研究成果，为科研决策提供精准的预测和实验证据。