分享

基于SNP芯片进行CNV分析中的基本知识点

 生信修炼手册 2019-12-24

检测CNV有多种技术手段,常见的有以下三种

  1. aCGH芯片

  2. SNP芯片

  3. NGS测序

本文主要介绍SNP芯片检测CNV的原理,本质是基于染色体区域内的SNP分型结果来判断对应的拷贝数,示意图如下

对于每个SNP位点的两个allel, 分别用A和B来表示,A代表ref allel, B代表alt allel。在上述示意图中,红色区域表示一段杂合性缺失LOH区域,该区域为单拷贝,每个位点分型结果只有一个allel, 蓝色区域表示一个3拷贝,每个位点分型有3个allel, 通过位点分型结果,可以判断出对应染色体区域的拷贝数。在理解这幅图之前,先来讲解以下两个基本概念。

SNP芯片的分型是通过比较A/B两种allel对应的荧光信号强度的比值来确定的,同样的,为了更好的描述CNV, 也定义了以下两个统计值

1. LRR

LRR全称是log R ratio, 公式如下

R代表的是A和B两个allel荧光信号强度的总和,observed是实验样本中实际检测到的数值,exprected是通过算法拟合的值,代表正常样本的检测值。

LRR类似aCGH芯片中的Log2 ratio, 表征的是相对正常样本的拷贝数变化情况。该值为0,表示拷贝数没有异常,为二拷贝,大于0, 表示拷贝数增加,小于0,表示拷贝数减少。

2. BAF

BAF全称是B allel frequency, 表示两个allel信号强度的比值,公式如下

从上述定义可以看出来,BAF取值范围为0-1, 0代表只检测到了A这个allel对应的荧光信号,分型结果为AA, 1代表只检测到了B这个allel的荧光信号,分型结果为BB; 0.5代表A和B两个allel的荧光信号强度相等,分型结果为AB。

值得一提的是,虽然分型结果只会有3种,但是BAF的取值可以在0-1的范围内波动,应为荧光信号强度会有一定的扰动。

需要注意的是,这里的荧光信号强度都是归一化之后的。通过BAF和LRR两个统计值,借助算法可以判断对应区域的拷贝数,图示如下

有很多的软件可以基于SNP芯片的数据进行CNV的分析,比如使用的非常广泛的PennCNV, QuantiSNP等,借助高密度的SNP芯片,可以实现更高分辨率的CNV检测,同时检测拷贝数,LOH,UPD等结构变异事件。

·end·

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多