分享

数据挖掘专题 | Affymetrix表达谱芯片数据预处理

 yjt2004us 2018-06-12

Affymetrix表达谱芯片(以下简称Affy)是小编最早接触到的基因表达数据产出平台,以简单、成熟、便宜等特点,与二代测序平台形成鲜明对比,我们今天以GEO数据库上的GSE15459数据为例,讲解该芯片数据的预处理过程(从原始CEL文件到基因水平表达数据)!


### GSE15459于2009年发布,收录了使用Affy芯片平台检测的200个胃癌患者的基因表达数据,如下:

https://www.ncbi.nlm./geo/query/acc.cgi?acc=GSE15459




### 提供两种数据(原始数据和预处理后的数据)的下载:

数据预处理要从原始数据(CEL格式)开始,即GSE15459_RAW.tar文件:


### 既然提供了处理好的数据,为什么还要自己做预处理?

1、有时候数据集并未详细描述数据预处理过程,即你不知道他怎么得到的,不敢用;

2、数据预处理方法并非更受欢迎或者自己熟悉的方法,如下MAS方法虽然常用,但是也并不能直接用于后续分析:

3、处理好的文件,如本数据集的GSE15459_series_matrix.txt,用excel打开,格式如下:

可见,在正式的表达矩阵(红框选中)之前有大段的可以理解为注释的数据,所以在使用该文件分析时要考虑进去!

4、也是最重要的一点:自己处理有成就感!


### 对于GEO数据集的讲解和数据下载,详见历史文章

数据挖掘专题 | GEO芯片探针注释

数据挖掘专题 | GEO数据下载

数据挖掘专题 | mac下极速下载GEO数据


### 将下载好的原始数据GSE15459_RAW.tar文件解压缩,可见每个样本一个.gz压缩文件:

文件不大,不到5M,与动辄几百兆,上G的测序数据相比...

注意不需要解压缩,另外,其中有8个样本被排除分析:

我们在进行预处理前也把这8个样本删除掉,即最终剩余192个样本!


Affy芯片成熟不仅仅在于官方提供了一系列的分析软件,而且很多R包可以进行Affy数据的处理分析,而其中最基础的就是affy包:

https:///packages/release/bioc/html/affy.html


### 安装及加载 

# try http:// if https:// URLs are not supported

source('https:///biocLite.R')

biocLite('affy')

library(affy) 


### 读取CEL数据

重点就是ReadAffy函数:

可见统计信息-探针数:54675;样本数:192;注释包:hgu133plus2.db

可以通过gsub函数将样本名后的.CEL.gz去除掉


### RMA标准化并提取探针水平表达

RMA是对于Affy基因表达谱芯片最常用的标准化方法,包含背景矫正、标准化、log转化等过程:


### 探针-基因对应关系

对于该数据集,要用到的注释R包是hgu133plus2.db:

可见,第一列为探针ID,第二列为Gene Symbol,通过该对应关系即可得基因水平表达数据,步骤如下:


1、删除对应多个基因的探针:


2、去除无对应基因的探针:


3、对应同一基因的多个探针,取均值作为基因水平表达值:


4、补缺失【可选】:


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多