gwas snp 和...

美丽人生小晚生 2021-08-14

展开全文

上周，我们给大家推送了徐洲更翻译的“SNP过滤教程”。结合SNP这个话题，本小编今天和大家一起探讨下SNP和SNV等相关概念。如有不严谨之处，欢迎温柔拍砖。

相信大家对SNP都不陌生。从遗传学里经典的孟德尔豌豆实验，到GWAS分析中使用的genotype信息；从EMS诱变的位点变异，到群体基因组学中探究基因组的进化，大家都会谈到SNP。然而我们对SNP的使用严谨吗

1. 每个“单个碱基的改变”都可以称为SNP吗？

首先看以下三个说法：

王同学：我通过基因编辑技术获得了5个SNP位点。

黄同学：通过EMS诱变，我在一个F1单株中检测到某基因上存在一个新的SNP。

宋同学：我对重测序数据进行比对分析，平均每个样本中检测到100k个SNP位点。

笔者认为，以上三种叙述都不够严谨。

刚经历了研究生的“毕业答辩季”，“研究生给送来一大摞毕业论文，

而我却用它们训练出一双挑刺的眼睛”。

2. 追根溯源：什么是SNP？

我们先查查wikipedia上对SNP是如何定义的。

SNP (single-nucleotide polymorphism) 单核苷酸多态性

A single-nucleotide polymorphism, often abbreviated to SNP, is a substitution of a single nucleotide that occurs at a specific position in the genome, where each variation is present to some appreciable degree within a population (e.g. > 1%).

从以上定义，特别要注意这几点：

(1) SNP本身是针对“群体”而言的(within a population)。

(2) SNP应该在群体中占一定的比例，比如至少是1%(当然，这个数字并不绝对)。

此外，SNP一定是碱基间的替换。如果是碱基的插入或丢失，我们有另外一个术语来形容：INDEL(=INsertion+DELetion)。

所以，可以想象，SNP这个概念被提出时，是为了描述一个群体内不那么罕见的碱基突变。

3.为什么有的文章中使用SNV这个词而不是SNP？

让我们再看看SNV的在wikipedia上的定义：

SNV (single-nucleotide variant) 单核苷酸变异

SNV is a variation in a single nucleotide without any limitations of frequency and may arise in somatic cells. A somatic single-nucleotide variation (e.g., caused by cancer) may also be called a single-nucleotide alteration.

实际上，本小编并不太认同这个的描述。(毕竟，总是拿cancer举例子，根本没有把我们做植物研究的放在眼里)。

我们再看看这篇论文中对SNV的定义：

“Single-nucleotide variants or mutations (e.g., point mutations) are less common than other variations and mutations, and cannot generate observed genomic diversity.”

出处：“Substitutions Are Boring: Some Arguments about Parallel Mutations and High Mutation Rates”, Trends in Genetics, 2019

这篇文章认为，相比于SNP，SNV是用于描述没有那么常见的单个碱基的变异。

实际上，本小编对这个的描述也不太认同。

随着过去十几年的测序技术的发展，我们现在有能力对单个个体进行高通量测序，原来SNP的定义已经不足以满足我们描述一个个体中所有碱基突变的概念。于是人们提出了“SNV”(单核苷酸变异)这个概念，用于描述任意一个可以被测序检测到的碱基突变。

在此，笔者认为，以区别于SNP在群体中多态性的含义，SNV适用于表示“没有明确的群体含义的单个碱基突变”。关键点，polymorphism vs variants。

试想一下，一个存储SNP的数据库应该比一个存储SNV的数据库中位点数要显著少，而且这些位点对于群体的研究更有意义。存储SNV的数据库则尽可能地保留了所有样本的全部变异信息，对于寻找有意义的罕见单位点变异非常重要。

4. 文献中都是如何使用SNP和SNV呢？

虽然SNV这个概念已经被提出很久了，大家日常使用中仍然习惯于使用“SNP”指代一个突变的位点(当然笔者并不推荐如此任性地使用术语)。不仅是很多博客、公众号的文章中混用了两个概念，我们甚至可以找到很多大牛的CNS文章中混用SNV和SNP这两个术语的情况。

在此，笔者推荐几个较规范使用SNV和SNP的范例：

· 示例一：

A chromosome-based draft sequence of the hexaploid bread wheat (Triticum aestivum) genome, Science, 2014中这样叙述：

“We delineated single-nucleotide variations (SNVs) between the bread wheat genes and the diploid and tetraploid related genomes and reconstructed phylogenetic relationships by using unrooted parsimony.”

作者通过鉴定二倍体、四倍体、六倍体小麦的同源基因的变异位点重建了染色体组的系统发生树。这里没有群体的概念，所以作者使用SNV进行描述。

· 示例二：

文章“A physical, genetic and functional sequence assembly of the barley genome” (Nature, 2012)中，

“We investigated the frequency and distribution of genome diversity by survey sequencing four diverse barley cultivars ('Bowman’, 'Barke’, 'Igri’ and 'Haruna Nijo’) and an H. spontaneum accession…. We identified more than 15 million non-redundant single-nucleotide variants (SNVs).“

在该文章中，作者研究了4个不同的大麦栽培品种相对于参照基因组的变异位点；由于样本数很少，不能称作群体，作者在文中选择使用SNV进行描述。

· 示例三：

文章“Transcriptome profiling reveals mosaic genomic origins of modern cultivated barley (PNAS, 2014)”中，作者对12个野生大麦和9个栽培大麦的转录组进行了SNV分析。毕竟样本总数加起来也只有21个，作为并不太大的一个群体来说，作者通篇选用SNV进行叙述。

5. 关于SNP和SNV的使用建议

在此，笔者对两个名词的使用有以下建议：

(1) 如果有明确的群体含义，特别是较大群体中常见的共有单个碱基的变异位点，建议使用SNP。

(2) 如果没有群体的含义，样本个数非常少时，建议使用SNV。

(3) SNV一般用于基于高通量测序的全基因组分析中；而少数变异位点的讨论，建议直接使用“点突变”。

(4) 最后，对于专有的名词，还是按照习惯使用；如，SNP array，SNP-marker等。

所以，对之前三位同学的说法，建议如下描述：

王同学：我通过基因编辑技术获得了5个点突变(point mutation)。

黄同学：通过EMS诱变，我在一个F1单株中检测到某基因上存在一个新的点突变位点；该单株经全基因组测序分析，共检测出5678个SNV。

宋同学：我对重测序数据进行比对分析，检测到平均每个样本中有100k个SNV位点。

话说，我们常发现做医学研究的(特别是肿瘤相关)研究者会非常仔细地区分SNV和SNP；而在植物领域(特别是作物领域)，大家对这两个概念的区别还不太敏感。毕竟，对于做作物研究的我们来说，哪怕是一个单株特异的突变，给一粒种子我们就能种出一个群体；然而，对于做肿瘤研究的研究者来说，给他们一个突变的细胞/肿瘤/个体。。。好像也无能为力。。。。

6. SNV和CNV有啥区别？

虽然SNV和CNV仅差一个字母，实际有两个单词都不一样：CNV(Copy Number Variation)拷贝数变异；SNV(Single-Nucleotide Variation)单核苷酸变异。 (话说这个当基因组学课程的考题不错)

SNV和CNV有一个共同点是，这两个名词都是基因组学中提出的概念。CNV常常被翻译为“拷贝数变异”。

例如，我们理解CNV这个名词，常常容易陷入一个误区：误以为基因组的这个区间内的片段在细胞中被直接拷贝了很多份。实际上，CNV的概念提出只是高通量短序列测序(二代测序)数据分析时，我们发现有些区间的覆盖度显著高于其它区间而已(或者是显著低于期望)；设计上，我们并不清楚他们被拷贝到了哪些地方？是整体被拷贝的，还是分段拷贝的？

和DNA、RNA这些有具体生物化学含义不同，SNV和CNV这些名词的定义并没有具体的生化基础支持，而是为了便于描述基因组学数据而提出的概念。

7. 都涉及基因组上片段的插入和丢失，CNV和INDEL有什么本质区别？

我们在前面也提到了，INDEL是Insertion和Deletion两个单词各取一部分合并后新造出来的属于；一般用GATK等工具做SNP calling时，INDEL的信息也就直接产生了。

那么INDEL的具体含义是什么？我们再先看下wikipedia上怎么说。

“Indel is a molecular biology term for an insertion or deletion of bases in the genome of an organism. It is classified among small genetic variations, measuring from 1 to 10 000 base pairs in length, including insertion and deletion events that may be separated by many years, and may not be related to each other in any way. A microindel is defined as an indel that results in a net change of 1 to 50 nucleotides.”

实际上，INDEL也常被称作small insertion and deletion。如wiki上所说，宽泛点说，1-10k的插入和丢失都算；严格地说呢，1-50bp间的才算吧。然而，CNV也反映了基因组上片段的插入和丢失，当然尺度从1k到10M的都有可能。

那么，既然都是插入和丢失，CNV和INDEL有什么关键不同吗？笔者认为，CNV和INDEL在生化意义上没有什么本质不同；对于一个基因组来说，丢失或者插入1bp，10bp，100bp，1kbp到100Mbp都有可能。

正如之前讨论的，CNV和INDEL也是高通量测序分析才有的新概念，为了描述不同尺度的基因组学分析结果提出的。目前。二代测序数据仍占主流，150bp双端的短序列，通过比对工具(BWA，bowtie2等)和算法(Smith-Waterman的local-alignment等)能够直接鉴定出来的插入和删除，我们就记为INDEL了，其检测的power也大约从1bp到50bp的范围内。至于更大尺度的丢失和获得，我们通过分析序列的覆盖度鉴定出了CNV。

所以，与其非要从某种尺度或者生物学含义区分CNV和INDEL，不如说CNV和INDEL是不同生物信息学分析策略的产物。

后记：

自从被主编群里的各位兄弟邀请成为“主编”后，本来满心欢喜地想着好好体验下当“Editor”的感觉，后来才发现原来是当苦逼的“Writer”。。。而且，给咱们这个粉丝数量巨大的公众号写文章真是压力山大啊。一上线就那么多双眼睛盯着，总有人能帮你挑出错来。常常能看到留言：“小编这个说的不对”；“我不同意小编的看法”。毕竟，人非圣贤，精力有限，难免有错；如有不妥，欢迎温柔拍砖。