基因芯片数据标准化

勤悦轩 2015-09-23

展开全文

1芯片数据分析中的标准化主要分为芯片内标准化和芯片间标准化。

2芯片内标准化根据目的不同可分为消除染色偏差的 Lowess Normalization，消除点样针头引起的空间差异的 Print-tip Normalization。

3常用的芯片间标准化有 Quantile Normalization，Global Normalization。

4对基因芯片数据的标准化处理， 主要目的是消除由于实验技术所导致的表达量(Intensity)的变化，并且使各个样本(sample)和平行实验的数据处于相同的水平，从而使我们可以得到具有生物学意义的基因表达量的变化。

5双通道的cDNA芯片标化方法如下：

MA plot作图是用来观察芯片数据的分布情况，其中：

M=log2R/G

A=log2RG^1/2

以M(log ratio表达量)为纵坐标，A(log intensity表达量)为横坐标做出数据的散点分布图。

片间标准化(multiple slides normalization)

--中位数标准化（Median Normalization）

由于五种组织（seeding、tiller、root、panicle1、panicle2）是分别在五张芯片上作杂交试验的，所以第一步的标准化是将五张试验芯片的数据调整到同一水平，常用的方法是平均数、中位数标准化(mean or median normalization)。即：将五组实验的数据的 log ratio 中位数或平均数调整为 0。

对于双通道数据来说，这种标准化方法就是将每张芯片上的数值减去各自芯片上对数比值的中位数，这样该芯片的对数比值中位数就变成了0。

对于单通道数据（e.g.,Affymetrix），首先在待标准化的芯片与参照芯片上的每个对应基因上计算差值，然后在待标准化的芯片上减去该差值的中位数，以使两者间的总差值为0。

--分位数标准化（Quantile Normalization）

一般芯片的杂交实验很容易产生误差，所以经常一个样本要做 3~6 次的重复实验。平行实验间的数据差异可以通过 Quantile Normalization去处掉。总平行实验的前提条件是假设 n次实验的数据具有相同的分布，其算法主要分为三步：
（1）对每张芯片的数据点排序。
（2）求出同一位置的几次重复实验数据的均值，并用该均值代替该位置的基因的表达量。
（3）将每个基因还原到本身的位置上。

片内标准化(within slide normalization)

芯片内的数据标准化，主要是去除每张芯片的系统误差，这种误差主要是由荧光染色差异，点样机器(arrayer print-tip)，或者杂交试验所产生的，通过标准化，使每个基因的表达点都具有独立性。

芯片内数据标准化的常用方法是局部加权回归分析：Lowess (Locally Weighted Linear Regression) normalization.