一、研究背景试剂污染和样品交叉污染是实验室中长期公认的一大问题,污染可能会导致实验结果的不准确。先前研究中曾在TCGA的RNA-seq数据中发现H-HPV18(Hela细胞系衍生的HPV-18病毒),因此本文作者希望证实TCGA的RNA-seq样本被H-HPV18病毒污染,并确定其污染来源。 二、分析流程三、结果解读1、开发VirDetect:一种特异性病毒检测软件为了在RNA-seq数据中检测病毒,作者开发了一个开源软件VirDetect,该软件使用STARV2.4 aligner进行RNA-seq reads的比对,将没有与人类基因组比对上的数据与病毒基因组数据进行比对(图1.A),作者在图1中对VirDetect的检测准确性进行了验证。
2、利用VirDetect查找TCGA中的病毒污染首先作者分析了北卡罗来纳大学对TCGA样本的测序结果,绘制了多种病毒在TCGA28种肿瘤中的表达率热图(图2)。图中的大部分结果和预期一致,如HBV(乙肝病毒)在肝癌中普遍存在,HPV16在头颈部鳞状细胞癌中普遍存在等等。但与预期不符的是:作者利用VirDetect在非子宫颈部肿瘤中检测到了HPV-18病毒(每种肿瘤样本的具体检测数值如图3.A所示),其中比较突出的有透明肾细胞癌(KIRC)、肺鳞状细胞癌(LUSC)等。作者认为能检测到这种数量级的病毒序列,最可能是由试剂污染引起的,因此作者希望在后续的研究中继续寻找污染的源头。 图2.多种病毒在TCGA28种肿瘤中的表达率热图 先前有研究通过Hela细胞系中的23个特异性SNPs(单核苷酸多态性)证明了非子宫颈肿瘤的HPV-18是来源于Hela细胞的。作者对这一结果加以验证,图3.B结果说明除去CSEC(宫颈癌),和3个BLCA(膀胱癌)样本,其余所有17个非子宫颈癌样本的SNPs与Hela细胞的HPV-18基因组SNPs都完全匹配,验证了非子宫颈肿瘤的HPV-18来源于Hela细胞系
图3.C-D HPV-18和XMV43的共表达情况 3、调查污染来源为了调查造成样本污染的原因,作者对UHRR(人类通用参考RNA,Universal Human Reference RNA)和大多数TCGA样本同时进行测序,并监测文库的构建(图4.A、C)。大部分UHRR样本的测序从2010年开始,当时的样本中并没有检测到HPV-18或XMV43的序列。如图所示,发现两种病毒污染的高峰期发生在2011年4-6月左右,作者认为有可能发生污染的样本并不一定都是与其他UHRR(+)样本在同一天开始构建文库的,因此不能通过图4.A、C的结果直接判断病毒的来源是交叉污染。
图5.比较XMV43序列在两细胞株中的覆盖率 4、补充一种污染物:狂犬病病毒在10种肿瘤的共计19个样本中检测到了狂犬病病毒,并且集中发生在2012.11-2013.3这段时间内(图6)。尽管病毒的表达量极低,但是在临近的一段时间内被检测到说明这一现象可能是由该时间段的试剂污染引起的。 图6.狂犬病病毒在样本中的发现时间 小结 本篇文章中作者揭示了TCGA的RNA-seq数据库污染来源,为避免后续科研中出现数据误差提供了帮助。在本项研究中,作者开发了可以在RNA-seq数据中检测病毒序列的开源软件-Virdetect,利用该软件检测RNA-seq数据中的病毒表达,证实了TCGA中污染的HPV-18来自Hela细胞,XMV43主要来自MCF-7细胞株,并由此得到了RNA-seq数据污染的流程:1、XMV43病毒感染MCF-7细胞株;2、将MCF-7和ME16C细胞株的RNA添加到包含Hela细胞的UHRR中;3、UHRR与TCGA同时测序,导致了TCGA样本的污染。 |
|