分享

Affymetrix芯片质量评估

 Sophia私人书库 2017-02-27
          在拿到(数据库下载或者自己实验得到)的芯片,最好先对芯片的质量做出评估,从而将有问题的芯片剔除。在Robert Gentleman的“Bioinformatics and Computational Biology Solutions Using R and Bioconductor”书的第三章提到“Before any useis made of more complex methods, an initial examination of the data can often show evidence of possible quality problems.”。以下关于Affymetrix芯片质控的图和脚本,也引用上述参考书。

首先是一些基础知识

1 Affymetrix芯片的数据格式主要有.dat和.cel两种。DAT文件是原始芯片图像的扫描文件,需要用affy公司自己的软件打开。CEL文件是DAT文件去除背景噪音后的文件,包括了每个探针的原始密度数值(raw intensity value)。其中,我们最关注CEL文件,这也是我们后续载入Bioconductor中的原始数据类型。后续需要对CEL文件进行“质量评估”、“归一化”、“注释”等一系列预处理。

2  affy芯片的数据单元。下图是一个“探针集(probeset)”,包括了11-20个长度位22nt的“探针(probe)”,图中每个亮格代表一个探针。每个探针分为PM(Perfect Match)和MM(Mis-Match)两种,区别就是MM探针故意将一个碱基设计错。这样做的目的是为了控制芯片的非特异性杂交,从而获得更准确的信号值。

Affymetrix芯片质量评估

  
芯片质量控制

1. 对于“探针数据(probe-data level)”的三种图,使用"affy" package
boxplot( ):未处理的原始探针密度(以2为底取对数)的盒箱图。
评价标准:代表各个芯片的“盒箱”是否在同一个水平上。如果出现像f那样的“断层”,也不能推断f芯片出现质量问题,因为可能通过“归一化(normalization)”使其在同一个水平上。
Affymetrix芯片质量评估
hist( ):计算未处理的原始探针密度(以2为底取对数)的直方图,实际画出的是平滑的密度曲线。
评价标准:查看所有芯片中是否有异常过高的密度值。下图中可能出现如a芯片(红色)的“双峰”曲线,表明其密度曲线服从"bimodal distribution(双峰分布)"(什么是双峰分布)。 这表明a芯片可能有“人为空白(spatial artifact)”的质量缺陷。

Affymetrix芯片质量评估

MAplot( ):查看每张芯片的MA-plot
评价标准:通过红色的“loess smoother curve”与y=0的关系衡量芯片的质量。如果红色曲线在蓝色直线上下摆动的很厉害,同时数值过高,暗示该张芯片可能存在质量问题(a图就是一个例子)。
Affymetrix芯片质量评估


2. Affymetrix自己的质量控制标准,使用“simpleaffy” package。以下的四组数值的判断需要小心谨慎,最好的办法是同时计算四个数值,之后对其综合评价。不能因为其中某一个数值出现异常,就拒绝某张芯片。(感想:基基因芯片技术确实含有太多的不确定因素,这个平台稳定性相对于RNAseq确实差很多。虽然microarray创造了举世瞩目的成就,但是我们也应该看到其不足,同时积极接受新的实验技术。这同时说明了“meta-analysis”的思路是比较正确的。)
这四个数值都是由Affymetrix公司提供的MAS5.0“归一化”算法计算得出,对其他归一化方法如gcrma和rma无效。但可以使用这个package中的call.exprs("MyCEL", "normallizaiton")函数进行快速归一化,如MAS5.0, rma, gcrma等。

svbg( ):Average Background
衡量标准:所有的芯片应该有差不多的数值。如果出现过高数值,比如f芯片,可能表示该芯片存在质量问题。average background数值过高原因可能是:进行杂交实验过程中cRNA上样量较大;或者某次杂交过程中反应效率过高;或者是荧光标记量过大;还有可能是制造了一块“太亮”的芯片板子。
=====================================================================
> avbg(Data.qc)
        a         b         c         d         e         f         g        
 68.18425  67.34494  42.12819  61.31731  53.64844 128.41264  49.39112  49.25758
=====================================================================

sfs( ):scale factor。芯片在做“归一化”的时候,很多方法(比如MAS5.0)都采用一个共同的假设:在数量巨大的转录组中,只有一小部分基因(或探针集)发生显著变化。一个例子:HG-U133-plus2.0型号芯片中~54000个探针集中,只有~200个探针集发生差异化表达。因此,就有一个推论:在所有芯片中,“修正过的密度均值(trimmed mean intensity)”应该是一个定值。MAS5.0中,使用一个scale factor使得所有芯片的均值都同一个到一个恒定值。如果scale factor过高,表明该芯片探针集整体密度偏低,暗示杂交过程中RNA量过低这个scale factor实际上衡量了一张芯片上有多少mRNA杂交上
衡量标准:Affymetrix公司推荐,所有芯片的scale factor的差异应该控制在3倍以内(3-fold)。如果差异过大,比如f和g,表明芯片可能在芯片制作、RNA提取、杂交或者扫描中出现质量问题。这将违背“归一化”的前提假设,所以再厉害的“归一化”算法也挽救不了一张不合格的芯片。
=====================================================================
sfs(Data.qc)
[1]  9.765986  4.905489 10.489529  7.053323  7.561613  2.475224 13.531238
[8]  8.089458
======================================================================

percent present( ):affy芯片中对探针杂交质量评定有三种PMA,分别是Present/Marginal/Absent。如果探针集被标记位P或者A,表示PM数值与MM相比,没有显著差异。
衡量标准:percent present给出的是该芯片中,探针集被标记为P的百分比。该值越大,表示探针杂交的越充分。但是,percent present与scale factor一样,我们应该对其谨慎评定,因为有的细胞的确比别的细胞表达的基因多。
=====================================================================
> percent.present(Data.qc)
a.present b.present c.present d.present e.present f.present g.present h.present 
 21.65158  26.53124  25.58181  23.53279  23.35615  25.25061  17.96423  24.40274
=====================================================================

ratios( )衡量mRNA的降解程度。affy芯片使用两个基因beta-actin和GAPDH各自的3'和5'探针密度的比值,衡量mRAN的降解。因为这两个基因都比较长(有多长?),如果3'和5'探针密度的比值较大,说明芯片杂交过程有很多RNA片段,即降解现象(想象mRAN的降解图)。
衡量标准:Affymetrix给出的限度是3,即3'和5'探针密度的比值在3以下,表明芯片质量可靠。
======================================================================
> ratios(Data.qc)
  actin3/actin5 actin3/actinM gapdh3/gapdh5 gapdh3/gapdhM
a     0.9697007    0.12291462    0.16387418     0.1860604
b     0.3235390   -0.19439139    0.05796629     0.1247964
c     0.4661537   -0.14331962   -0.15570382     0.0872578
d     1.2567868    0.15861351    0.57552773     0.3212938
e     0.6036608    0.02095918   -0.14019396    -0.2025022
f     0.6715308    0.02916033    0.24674941     0.2188332
g     0.3798125   -0.15918419   -0.01830517     0.2721626
h     0.4850414   -0.17911051    0.27684843     0.1885258
=======================================================================

plot( ):整体画出以上四个数值。
Affymetrix芯片质量评估
衡量标准:最左边是每个样本名称;每个样本对应两个数值,一个是百分比数值(percent present),另一个是average background。中间蓝色区域表示scale factor的接受域(3倍),一个个“路灯线”就是每个样本scale factor。圆圈和三角表示beta-actin和GAPDH各自的3'和5'探针密度的比值ratio,两条黑虚线表示ratio接受域(3倍)。图中红色表示可能有问题,蓝色表示质量较好。要对四个数值综合评定,一个指标有问题不能说明全局有问题。

RNAdeg( )/summmaryAffyRNAdeg( )/plotAffyRNAdeg( ):由"affy” package提供的另外一个的控制RNA降解的显示图。
衡量标准:采用slope的数值大小进行衡量。但是,很遗憾,到底多大的slope表示RNA出现降解,大家并没有一个确定的数值。而且,slope可能与不同芯片平台有关。从以往经验上看,对于高质量的RNA,HG-U95和MG-U74平台的slope是0.5,HG-U133A是1.7。建议如果在这个数值之上超过2,那么可能出现RNA降解。
如果没有slope经验估计值,那么芯片之间的slope的大小相似,则认为RNA质量可控。如果出现一个或者几个芯片的slope过高,则暗示这些芯片可能出现质量问题,比如RNA处理手段或者RNA放大存在问题。
====================================================================
> summaryAffyRNAdeg(RNAdeg)
           a       b        c        d       e       f       g       h
slope  0.528 0.48000 8.11e-01 8.56e-01 0.52900 0.62200 0.46500 0.59800
pvalue 0.002 0.00962 5.56e-05 7.37e-05 0.00683 0.00589 0.00723 0.00256
====================================================================

Affymetrix芯片质量评估

3.  一种基于“探针水平模型(Probe Level Models, PLM)”的质量控制,“affyPLM” package,fitPLM( )函数
Mbox( ):绘制RLM(Raltive Log Expression)图
boxplot( ):绘制NUSE(Normalized Unscaled Standard Error)图
衡量标准:在PLM和NUSE图中,如果某个芯片的盒箱图与其他出现偏差,比如下图中的2,那么该芯片可能存在质量问题。说明:标号为2的芯片质量问题,出现了一个人工痕迹(artifact),比如“环”

Affymetrix芯片质量评估

Affymetrix芯片质量评估


有用的网址:
affy有用的
http://bioinformatics.picr./research/software/simpleaffy/algorithms.html
这个网站做的非常好,需要关注其中的database和publication

参考网址:
1 DAT和CEL等各种affy文件类型说明
2 一个非常好的介绍simpleaffy中四个参数的文档

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多