Affymetrix表达谱芯片(以下简称Affy)是小编最早接触到的基因表达数据产出平台,以简单、成熟、便宜等特点,与二代测序平台形成鲜明对比,我们今天以GEO数据库上的GSE15459数据为例,讲解该芯片数据的预处理过程(从原始CEL文件到基因水平表达数据)! ### GSE15459于2009年发布,收录了使用Affy芯片平台检测的200个胃癌患者的基因表达数据,如下: https://www.ncbi.nlm./geo/query/acc.cgi?acc=GSE15459 ### 提供两种数据(原始数据和预处理后的数据)的下载: 数据预处理要从原始数据(CEL格式)开始,即GSE15459_RAW.tar文件: ### 既然提供了处理好的数据,为什么还要自己做预处理? 1、有时候数据集并未详细描述数据预处理过程,即你不知道他怎么得到的,不敢用; 2、数据预处理方法并非更受欢迎或者自己熟悉的方法,如下MAS方法虽然常用,但是也并不能直接用于后续分析: 3、处理好的文件,如本数据集的GSE15459_series_matrix.txt,用excel打开,格式如下: 可见,在正式的表达矩阵(红框选中)之前有大段的可以理解为注释的数据,所以在使用该文件分析时要考虑进去! 4、也是最重要的一点:自己处理有成就感! ### 对于GEO数据集的讲解和数据下载,详见历史文章 ### 将下载好的原始数据GSE15459_RAW.tar文件解压缩,可见每个样本一个.gz压缩文件: 文件不大,不到5M,与动辄几百兆,上G的测序数据相比... 注意不需要解压缩,另外,其中有8个样本被排除分析: 我们在进行预处理前也把这8个样本删除掉,即最终剩余192个样本! Affy芯片成熟不仅仅在于官方提供了一系列的分析软件,而且很多R包可以进行Affy数据的处理分析,而其中最基础的就是affy包: https:///packages/release/bioc/html/affy.html ### 安装及加载 # try http:// if https:// URLs are not supported source('https:///biocLite.R') biocLite('affy') library(affy) ### 读取CEL数据 重点就是ReadAffy函数: 可见统计信息-探针数:54675;样本数:192;注释包:hgu133plus2.db 可以通过gsub函数将样本名后的.CEL.gz去除掉 ### RMA标准化并提取探针水平表达 RMA是对于Affy基因表达谱芯片最常用的标准化方法,包含背景矫正、标准化、log转化等过程: ### 探针-基因对应关系 对于该数据集,要用到的注释R包是hgu133plus2.db: 可见,第一列为探针ID,第二列为Gene Symbol,通过该对应关系即可得基因水平表达数据,步骤如下: 1、删除对应多个基因的探针: 2、去除无对应基因的探针: 3、对应同一基因的多个探针,取均值作为基因水平表达值: 4、补缺失【可选】: |
|