芯片质量控制:
1. 对于“探针数据(probe-data level)”的三种图,使用"affy"
package
boxplot(
):未处理的原始探针密度(以2为底取对数)的盒箱图。
评价标准:代表各个芯片的“盒箱”是否在同一个水平上。如果出现像f那样的“断层”,也不能推断f芯片出现质量问题,因为可能通过“归一化(normalization)”使其在同一个水平上。
hist( ):计算未处理的原始探针密度(以2为底取对数)的直方图,实际画出的是平滑的密度曲线。
评价标准:查看所有芯片中是否有异常过高的密度值。下图中可能出现如a芯片(红色)的“双峰”曲线,表明其密度曲线服从"bimodal
distribution(双峰分布)"(什么是双峰分布)。
这表明a芯片可能有“人为空白(spatial artifact)”的质量缺陷。
MAplot( ):查看每张芯片的MA-plot
评价标准:通过红色的“loess
smoother
curve”与y=0的关系衡量芯片的质量。如果红色曲线在蓝色直线上下摆动的很厉害,同时数值过高,暗示该张芯片可能存在质量问题(a图就是一个例子)。
2. Affymetrix自己的质量控制标准,使用“simpleaffy”
package。以下的四组数值的判断需要小心谨慎,最好的办法是同时计算四个数值,之后对其综合评价。不能因为其中某一个数值出现异常,就拒绝某张芯片。(感想:基基因芯片技术确实含有太多的不确定因素,这个平台稳定性相对于RNAseq确实差很多。虽然microarray创造了举世瞩目的成就,但是我们也应该看到其不足,同时积极接受新的实验技术。这同时说明了“meta-analysis”的思路是比较正确的。)
这四个数值都是由Affymetrix公司提供的MAS5.0“归一化”算法计算得出,对其他归一化方法如gcrma和rma无效。但可以使用这个package中的call.exprs("MyCEL",
"normallizaiton")函数进行快速归一化,如MAS5.0, rma, gcrma等。
svbg( ):Average Background
衡量标准:所有的芯片应该有差不多的数值。如果出现过高数值,比如f芯片,可能表示该芯片存在质量问题。average
background数值过高原因可能是:进行杂交实验过程中cRNA上样量较大;或者某次杂交过程中反应效率过高;或者是荧光标记量过大;还有可能是制造了一块“太亮”的芯片板子。
=====================================================================
> avbg(Data.qc)
a
b
c
d
e
f
g
h
68.18425 67.34494
42.12819 61.31731
53.64844 128.41264
49.39112 49.25758
=====================================================================
sfs( ):scale
factor。芯片在做“归一化”的时候,很多方法(比如MAS5.0)都采用一个共同的假设:在数量巨大的转录组中,只有一小部分基因(或探针集)发生显著变化。一个例子:HG-U133-plus2.0型号芯片中~54000个探针集中,只有~200个探针集发生差异化表达。因此,就有一个推论:在所有芯片中,“修正过的密度均值(trimmed
mean intensity)”应该是一个定值。MAS5.0中,使用一个scale
factor使得所有芯片的均值都同一个到一个恒定值。如果scale
factor过高,表明该芯片探针集整体密度偏低,暗示杂交过程中RNA量过低。这个scale
factor实际上衡量了一张芯片上有多少mRNA杂交上。
衡量标准:Affymetrix公司推荐,所有芯片的scale
factor的差异应该控制在3倍以内(3-fold)。如果差异过大,比如f和g,表明芯片可能在芯片制作、RNA提取、杂交或者扫描中出现质量问题。这将违背“归一化”的前提假设,所以再厉害的“归一化”算法也挽救不了一张不合格的芯片。
=====================================================================
> sfs(Data.qc)
[1] 9.765986 4.905489
10.489529 7.053323 7.561613
2.475224 13.531238
[8] 8.089458
======================================================================
percent present(
):affy芯片中对探针杂交质量评定有三种PMA,分别是Present/Marginal/Absent。如果探针集被标记位P或者A,表示PM数值与MM相比,没有显著差异。
衡量标准:percent
present给出的是该芯片中,探针集被标记为P的百分比。该值越大,表示探针杂交的越充分。但是,percent present与scale
factor一样,我们应该对其谨慎评定,因为有的细胞的确比别的细胞表达的基因多。
=====================================================================
> percent.present(Data.qc)
a.present b.present c.present d.present e.present f.present
g.present h.present
21.65158 26.53124
25.58181 23.53279
23.35615 25.25061
17.96423 24.40274
=====================================================================
ratios( ):衡量mRNA的降解程度。affy芯片使用两个基因beta-actin和GAPDH各自的3'和5'探针密度的比值,衡量mRAN的降解。因为这两个基因都比较长(有多长?),如果3'和5'探针密度的比值较大,说明芯片杂交过程有很多RNA片段,即降解现象(想象mRAN的降解图)。
衡量标准:Affymetrix给出的限度是3,即3'和5'探针密度的比值在3以下,表明芯片质量可靠。
======================================================================
> ratios(Data.qc)
actin3/actin5 actin3/actinM gapdh3/gapdh5
gapdh3/gapdhM
a 0.9697007
0.12291462
0.16387418
0.1860604
b 0.3235390
-0.19439139
0.05796629
0.1247964
c 0.4661537
-0.14331962 -0.15570382
0.0872578
d 1.2567868
0.15861351
0.57552773
0.3212938
e 0.6036608
0.02095918
-0.14019396 -0.2025022
f 0.6715308
0.02916033
0.24674941
0.2188332
g 0.3798125
-0.15918419 -0.01830517
0.2721626
h 0.4850414
-0.17911051
0.27684843
0.1885258
=======================================================================
plot( ):整体画出以上四个数值。
衡量标准:最左边是每个样本名称;每个样本对应两个数值,一个是百分比数值(percent
present),另一个是average background。中间蓝色区域表示scale
factor的接受域(3倍),一个个“路灯线”就是每个样本scale
factor。圆圈和三角表示
beta-actin和GAPDH各自的3'和5'探针密度的比值ratio,两条黑虚线表示ratio接受域(3倍)。图中红色表示可能有问题,蓝色表示质量较好。
要对四个数值综合评定,一个指标有问题不能说明全局有问题。
RNAdeg( )/summmaryAffyRNAdeg(
)/plotAffyRNAdeg( ):由"affy”
package提供的另外一个的控制RNA降解的显示图。
衡量标准:采用slope的数值大小进行衡量。但是,很遗憾,到底多大的slope表示RNA出现降解,大家并没有一个确定的数值。而且,slope可能与不同芯片平台有关。从以往经验上看,对于高质量的RNA,HG-U95和MG-U74平台的slope是0.5,HG-U133A是1.7。建议如果在这个数值之上超过2,那么可能出现RNA降解。
如果没有slope经验估计值,那么芯片之间的slope的大小相似,则认为RNA质量可控。如果出现一个或者几个芯片的slope过高,则暗示这些芯片可能出现质量问题,比如RNA处理手段或者RNA放大存在问题。
====================================================================
> summaryAffyRNAdeg(RNAdeg)
a
b
c
d
e
f
g
h
slope 0.528 0.48000 8.11e-01 8.56e-01
0.52900 0.62200 0.46500 0.59800
pvalue 0.002 0.00962 5.56e-05 7.37e-05 0.00683 0.00589 0.00723
0.00256
====================================================================
3. 一种基于“探针水平模型(Probe Level Models,
PLM)”的质量控制,“affyPLM” package,fitPLM(
)函数
Mbox( ):绘制RLM(Raltive Log
Expression)图
boxplot( ):绘制NUSE(Normalized
Unscaled Standard Error)图
衡量标准:在PLM和NUSE图中,如果某个芯片的盒箱图与其他出现偏差,比如下图中的2,那么该芯片可能存在质量问题。说明:标号为2的芯片质量问题,出现了一个人工痕迹(artifact),比如“环”
有用的网址:
affy有用的
http://bioinformatics.picr./research/software/simpleaffy/algorithms.html
这个网站做的非常好,需要关注其中的database和publication
参考网址:
1 DAT和CEL等各种affy文件类型说明
2 一个非常好的介绍simpleaffy中四个参数的文档