分享

想要找肿瘤驱动基因?就靠这个网站了

 漠藩 2020-06-18

肿瘤之所以会发生,就是因为基因组序列的改变,肿瘤DNA中含有大量的基因组的改变,其中绝大多数突变只有很少或者没有任何的功能或者临床意义,这就意味着当科学家在肿瘤相关样本中发现了一个基因组序列的变化,这个变化很有可能完全和疾病的发生进展没有任何关系。

过往的很多研究已经证明,很多与肿瘤相关的基因序列的改变其实并不能诱发肿瘤或者促进肿瘤的发生发展,许多突变的基因是我们常说的乘客基因(passenger gene),对应的突变称之为乘客突变(passengers mutation),而不是驱动基因(driver gene)驱动突变(driver mutation)。但是驱动基因的分析其实很复杂,目前有一些收集驱动基因的网站,但是比较完整,方便获取驱动基因信息的网站还是得首推 intogen,这个网站的文章在2013年发表在Nature Methods(IF=28.467)上,虽然发表时间已经过去了比较长的时间,但是这个网站一直在维护更新,最近的一次更新是 2020.02.01,所以大家可以放心用。

想要找肿瘤驱动基因?就靠这个网站了

大家可以从https://www./download 这里面看到详细的更新的时间表。进入网站https://www./search,这个网站主要分为三部分,这里我们逐一介绍下。

第一趴

首先是第一部分,就是下图这个所有框,作为一个数据库,每个搜索功能当然是说不过去的,见图1,如果你不知道怎么输入,可以点开序号2这里的示例,比如说点击 Search example(其实搜索的内容是Mutation distribution of BRAF in breast cancer,没注意就是一闪而过),选择后,他就会自动进入到搜索后的网页,这里我们看下是什么样的结果,我们将分多个图解释。

想要找肿瘤驱动基因?就靠这个网站了

图2可以看到,首先用超级大的字号告诉你,你搜索的基因是BRAF,肿瘤是 Brest adenocarcinoma。然后描述了 Brest adenocarcinoma这个肿瘤的所有突变的总体情况,比如数据集cohorts是12个,样本是2711个,突变总数是17570286个,driver gene是99个。接着对选择的基因BRAF进行了详细的描述(感叹号鼠标贴上去会显示细致的解释),比如在各个数据库的ID,Ensembl IDENSG00000157764 ;Transcript IDENST00000646891 ;Protein IDENSP00000493543。然后在一个数据集cohorts发现是一个driver gene。在9个样本中发现了突变,突变样本比例占到0.33%,一共是22个编码区的突变,在泛癌的研究中发现这个突变是一个激活突变,也就是一个oncogene,是一个已知的驱动基因。

想要找肿瘤驱动基因?就靠这个网站了

图3描述的是每个数据集cohorts里面的情况,这里只有一个数据集,然后可以看到数据集cohorts的名字是BRCA_HARTWIG,如果是多个数据集就会是多行分别展示,参见链接https://www./search?gene=FLT3&cancer=AML#methods。使用的驱动基因的分析方法是HotMAPS,当然这个图中各种颜色标注的那些也是不同的驱动基因的分析软件,告诉我们分别鉴定得到的是啥结果,发生突变的样本个数是9个,频率是1.27。

想要找肿瘤驱动基因?就靠这个网站了

图4描述的是突变的一个具体分布,箭头所指的是一个分享按钮,就是你点击就会生成一个链接,你保存或者发给别人可以直接看到这个结果,图3的那个分享按钮也是一样的功能。默认不生成。这个图的横轴是氨基酸的位置,纵轴是发生的突变的个数,legend部分描述了不同的突变类型和比例,这里就是22个突变中,truncating是4个,占比18%,synonymous是2个,占比9%,missense是16个,占比是73%。然后Highlight in X-axis是可以切换X轴。

想要找肿瘤驱动基因?就靠这个网站了

第二趴

我们接下来来看搜索界面的第二部分,见图5和图6。

图5可以看到这是对所有存在于intogen样本肿瘤信息的一个概览图,当前版本发布时间是2020-02-01,一共包括66种肿瘤类型,包括221个数据集cohorts,包括28076个样本,包括203003747个突变,包括568个驱动基因。

想要找肿瘤驱动基因?就靠这个网站了

图6则是分别展示每个收集的肿瘤在对应cohorts里面的具体信息,比如Age列有两种 Adult(A) 或者pediatric(C)两种;Type的类型有三种Primary(P)、metastasis(M)、relapse(R),后面的cancer drivers就是统计的driver gene的个数,samples是队列里面的总样本数,Mutations是包括indel在内的突变的总个数。比如第一行是说Brest adenocarcinoma属于BRCA_TCGA这个队列,都是Adults,都是primary的原发肿瘤,有39个driver gene,包含973个样本,一共有119144个突变。

(公众号解螺旋服务号免费医学科研直播,后台回复“直播”免费领资源观看)

想要找肿瘤驱动基因?就靠这个网站了

第三趴

第三部分就是对于发生频率最高的driver gene做一个统计,又分为cloud、plot、table三部分。

Cloud

图7是一个 词云图,把鼠标贴近基因会告诉我你这个有多少个样本发生了突变,点击这个基因,比如我们点击DNMT3A就会就如到图8的展示结果,和我们直接在检索里面输入DNMT31这基因是一样的

想要找肿瘤驱动基因?就靠这个网站了

想要找肿瘤驱动基因?就靠这个网站了

Plot

图9是用柱状图展示一个突变基因的结果,横轴是发生突变基因的名字,纵轴是发生突变基因的样本的个数,可以看到TP53、KRAS、PIK3CA排在最前面3位,都是我们常见的肿瘤发生发展相关的基因。

想要找肿瘤驱动基因?就靠这个网站了

Table

图10是用表格的形式来展示结果。Symbol就是我们的基因名,Mutations是Symbol这一列的值在被鉴定为driver gene的时候发生非同义突变的总数,Samples是Symbol这一列的值在被鉴定为driver gene的时候发生突变样本的总数,Samples(%)是Symbol这一列的值在被鉴定为driver gene的时候发生突变样本的总数占所有样本总数的百分比,Cohorts这一列是Symbol这一列的值在被鉴定为driver gene的时候总共纳入分析的队列总数

想要找肿瘤驱动基因?就靠这个网站了

数据下载

最后我们要说下数据下载的问题,通过这个链接https://www./download ,我们可以 下载不同发布版本时期的数据,如图 11 ,当然我们应该下 载最新的 。而且下载的数据还分为2类,见图13。

想要找肿瘤驱动基因?就靠这个网站了

第一类是 Download the table with information of the datasets used in the current release of intOGen,包括的是关于数据队列来源,样本总数,组织类型等信息,见图11;

想要找肿瘤驱动基因?就靠这个网站了

第二类里面其实包括2个比较重要的文件,过滤前和过滤后的驱动基因信息,过滤前的驱动基因的信息的名字叫做 Unfiltered_driver_results_05.tsv。作者根据突变特征对突变基因也做了一个分析得到的文件名字是 Compendium_Cancer_Genes.tsv,这是在之前未过滤的文件基础上做了一系列的处理。

在README.txt我们可以看到对2两类文件列名的详细理解。

想要找肿瘤驱动基因?就靠这个网站了

10天领悟3分SCI套路

点击下方

解螺旋服务号

免费参加

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多