常用circRNA分析工具性能比较分析

AndoR66 2019-08-04

展开全文

6月8日，PLoS Computational Biology杂志在线发表了天津大学计算机科学与技术学院邹权教授为通讯作者的综述文章，汇总和比较了目前主要的circRNA分析相关技术的优势与不足[1]。

文中比较了目前已报道的常用的分析circRNA的11种工具，比较了它们在精度，灵敏度，F1 Score，AUC值（Area under Precision-Recall Curve），运行时间及物理存储空间需求等指标的情况，没有一种工具是所有指标都表现的异常出色的[1]。换言之，这11种分析方法表现为各有所长，在具体应用的时候还是需要根据需求灵活选择最合适的工具。下面就让我们一起来学习一下吧：

补充说明：

F1 Score= (2×精确性×灵敏度)/(精确性+灵敏度)

AUC值：Area under Precision-Recall Curve，精密召回曲线面积

对比不同工具各项性能所用的数据集

文中为了合理的对比出11种工具的各方面指标，用到了四种数据集：

1. 阳性数据集：由来自circBase数据库的从Hela细胞中检测到的14689种circRNA构成的模拟数据集。

2. 背景数据集：来自NCBI的RefSeq数据库mRNA来源的reads构成的阴性数据集

3. 混合数据集：由阳性数据集和背景数据集混合构成的数据集

4. 真实的数据集：真实独立的测序数据，包括4个来自Hela细胞和2个来自人永生化成纤维细胞系Hs68的去除核糖体的测序数据。

基于阳性数据集综合分析不同工具的灵敏度和准确性

通过运行阳性数据集和混合数据集，综合比较11种工具的灵敏度和准确性。总体运行的情况来看，KNIFE、CIRI、PTESFinder（PF）、Segemehl（SG）和CIRCexplorer（CE）是F1 Score打分最好的五种工具算法。对应于AUC值的情况，也是这五种工具的打分最高。这说明在特定的测序结果中，采用这五种算法能更有效更准确的找出其中的circRNA 读长来。

表1 不同circRNA分析工具的灵敏度与准确性比较（来自[1]）

阴性数据集分析不同工具的假阳性率

通过运行阴性数据集，分析不同工具的假阳性率。结果表明NCLScan（NCLS）、MapSplice（MS）、CIRCexplorer（CE）、DCC和PTESFinder（PF）是最好的，假阳性率最低。Segemehl（SG）、 find_circ （FC）和UROBORUS（UB）的假阳性率最高。

表2 不同circRNA分析工具的假阳性率情况（来自[1]）

混合数据集检验不同工具的效果

利用混合数据集检验模拟真实的测序数据中分析的结果。与阳性数据集的情况做个比较后不难发现，NCLScan（NCLS）预测的准确性最好。而SG、FC和UB的准确性都有大幅度的下降，说明这些工具都不同程度的受到了阴性数据的干扰。而KNIFE、CIRI和CF也受到了小幅的影响。值得注意的是NCLScan、CE、DCC、MS和PF似乎不受非circRNA的干扰因素影响。总体而言，NCLScan和CIRCexplorer的精确性最好，KNIFE、CIRI、Segemehl、PTESFinder和CIRCexplorer比其他剩余的工具的灵敏性更佳。AUC值靠前的几个工具包括：KNIFE (0.87)，CIRI (0.85)，PTESFinder (0.83)，Segemehl(0.80)，CIRCexplorer (0.78)。

图1 不同circRNA分析工具的灵敏度与准确性性能分析（来自[1]）

真实数据集检验各种工具的综合性能

在所选择的真实测序的数据集中比较RNase R消化前后预测到的circRNA情况，默认为RNase R消化后将线性RNA完全去除而保留所有的circRNA（实际情况有可能线性RNA会有个别的没有被消化，而某些circRNA则可能会被消化）。为全面评估各种工具的性能，作者从四个方面做了评估：1. RNase R处理前后结果差异分析，比较RNase R处理前后分析得到的circRNA的情况，计算每个工具获得的阳性结果在RNase R处理前后信息丢失的比例。2. 不同工具之间数据可重现性比较，计算特定方法所获得的circRNA记录与其它方法获得的circRNA记录重叠性比例。3. Reads水平精确性比较，比较特定circRNA对应的Reads数。4. 对指定的已获得验证的circRNA分析准确性分析，基于17例测序结果人为构建一个包含282种circRNA的数据集，比较各种方法所得到的circRNA数目。

RNase R处理前后结果差异分析。从比较RNase R处理前后circRNA差异的情况，RNase R处理后的确实现了circRNA的富集，大部分的工具所分析的RNase R处理后的阳性结果率均有大幅增加，但PTESFinder、 Segemehl和UROBORUS的情况则不太理想。MapSplice工具分析得到的RNase R处理前后未被丢失的比例最高，CIRI和CIRCexplorer的情况也不错。总体而言，除了find_circ、 UROBORUS和Segemehl，其他大部分工具情况比较接近，在Hela样本中这一比例在65 ~75%之间，在Hs68样本中这一比例在72 ~80%。

表3 不同工具在真实数据集中的性能对比（来自[1]）

不同工具之间数据可重现性比较。通过比较特定工具的结果与所有工具均可检测出的结果中的占比情况，计算两个工具共同检测到的circRNA记录在特定方法获得的circRNA记录中的占比，比例越高则认为该方法的精确性越好，此外，如果一个工具所得到的记录出现在其它方法中的比例越高，则说明该工具的灵敏性越好（假阳性率相对较低）。过这样的两两必读分析，给出了每个方法相对于其它所有方法的精确性程度的分布热图。结果表明，NCLScan的精确性最好，而CIRI 和 Segemehl的灵敏度最高。UROBORUS的表现则与样本有关。

图2 不同工具性能比较（来自[1]）

Reads水平的精确性情况分析。在RNase R消化后的数据集中，比较不同工具在特定circRNA上分析得到的Reads数，越高说明精确性越好。从Reads水平的精确性结果来看，这些工具可分为四个类型：MapSplice、CIRI和PTESFinder的精确性最好。紧接着是KNIFE、 find_circ和Segemehl。CIRCexplorer、circRNA_finder和DCC（三种工具均基于STAR比对算法），还有NCLscan的情况一般。UROBORUS的情况最差。

图3 Reads水平的精确性情况分析（来自[1]）

对指定的已获得验证的circRNA分析准确性分析。从17个独立研究的文献中找出282种circRNA，看每一个工具从数据集中将这些circRNA分析出来的情况。这282种circRNA均已得到实验验证，属于客观真实的circRNA，但不一定都会在Hela或Hs68的样本中存在。从分析的结果来看，CIRI检测出来的种类最多。

图4 对指定的已得到验证的circRNA分析准确性分析（来自[1]）

计算经济性比较

通过比较各个工具完成分析的时间，对硬盘空间和存储空间的需求。运行时间方面，作者通过运行一个较大数据量的任务，均分配三个线程，结果表明CIRCexplorer、circRNA_finder、DCC、CIRI和find_circ可以在一天之内完成，而MapSplice工具运行时间则高达13天至一个月不等。