分享

《PNAS》:游离DNA含有大量共生菌基因组

 高六博 2018-07-25

血液中的游离DNA中包含了来自周身各种组织细胞的基因组,理论上也会包含各类病毒和微生物的基因组。有人之前已经注意到,游离DNA的高通量测序数据中,会有1%左右的序列不能匹配到人类基因组。

斯坦福大学Stephen R. Quake团队分析了1351例样本的cf-DNA测序数据,提取其中的非人源序列,组装后发现其中只有很少一部分能匹配上已知的细菌基因组,大多数未 鉴定序列可能来自未知微生物。该研究发表在2017PNAS期刊。

研究样本

1351cfDNA的测序数据。

研究结果

1. 提取非人源DNA并进行组装和注释

通过与GRCh38比对,大约有0.45%的序列不能匹配到人基因组(下图A),提取非匹配序列进一步与微生物基因组(细菌、真菌、病毒和真核病原体)比对,约1%的能够匹配上(下图B)。

 

接下来,针对那些两次都不能匹配上序列,接下来进行了de novo组装(下图E)。得到3761contigs,其中773 个已知(>80% BLAST coverage and >1 kbp),598divergent>1 kbp and neither known nor novel),其余均为新的contignovel)。并且novel contigs长的远远大于已知的contig(下图C

 

2. 证明Novel Contigs并非污染或人工拼接产物

由于游离DNA片段非常短,因此很难通过PCR的方法去证明contig真实存在。所以作者选择了一下三种方法间接证明:

1) 下载数据库中使用不同建库方法、在不同实验室操作的测序数据,与组装得到的contigs进行比对,证明这些novel contigs并不是来自建库污染。

2) 生物信息学方法评估组装质量

在组装过程中,只有很少一部分contigsorphan contigs。且这些contig在后续质控中大多数已经被删掉。剩余的contigs有很充足的证据证明是可靠的。

3) 使用对照基因组测试pipeline

人为混合 8,068个细菌基因组序列,比对之后大多数的细菌基因组没有被删除,证明数据比对的pipeline比较准确地识别细菌基因组与人基因组。

4) 使用PCR验证短序列的存在

设计若干组novel contigs的短片段引物,扩增结果证明血浆中确实存在这些短片段。

 

3. novel contigs 进行分类学鉴定

为了对3,761novel contigs进行分类学鉴定,首先进行了核糖体序列的鉴定,发现这些序列没有16S核糖体单元的序列。之后根据基因相似性进行分类,得到了所有contig最相近的分类地位(下图)。其中有一部分(黄色)contig无法分到任何的分类单元。

 

4. 人类微生态中含有大量未鉴定的新噬菌体和病毒

在上述能够找到分类地位的2,917contig中,主要包含了噬菌体和torque teno viruses (TTVs)。其中一类是非感染人类的anelloviruses(下图绿色),另一类未鉴定的黄色的基因组只有3548%anelloviruses相似(下图)。

 

总结

该文主要通过cfDNA中的序列证明了人体中可能存在大量未被鉴定和微生物,这些微生物可能在我们平常的研究和数据分析时会被忽略。通过从cfDNA中提取这些未知微生物的基因组,希望能帮助鉴定更多的人体微生物。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多