2017-01-19 技术咖 基迪奥生物融合基因的发现始于上个世纪60年代,在慢性粒性白血病病人中发现的费城染色体,拉开了融合基因与癌症的研究序幕,目前已经在多种癌症中发现了融合基因,并且开发了针对融合基因的临床药物。 今天我们就来聊聊如何分析融合基因。 融合基因是有染色体重排而产生的,包括染色体的易位,插入,颠倒,缺失(非平衡重排)。 上图中小箭头是断裂位点。 1. 显微镜染色观察 在上个世纪60年代人们就发现了融合基因,当时只能通过染色体的形态进行观察,很难发现平衡重组。 2. 染色体核型显带方法 当染色体带型技术问世后,可以研究大部分染色体重排了,只有少数染色体间相同带型的置换,无法鉴定。 3. 荧光原位杂交 对已知的染色体重排设计探针,所以无法发现新的染色体重排。 4. 高通量测序的方法 高通量测序方法研究基因融合的分辨率比传统的方法分辨率更高,今年发的融合基因文章也较多(见下图)。 深蓝色的是用高通量测序的方法研究融合基因的文章,浅蓝色为传统方法研究的文章。 基于转录组测序研究融合基因:
基于上述的考虑,基因组重测序是很好的补充。 但是基因组重测序不一定可以完全重复转录组发现的融合基因。因为有些融合基因是有可变剪切产生的,只在转录组水平产生,发挥作用。一般在同一条链并且距离较近的基因易产生转录组水平的融合基因,但是不在同一条链上的转录组融合基因也有报道,不过尚未有人重复出来。 5. 高通量与传统方法研究融合基因的区别 高通量的融合基因有一多半都是染色体内部的重排,而这一比例在传统方法中只有百分之几。 1. 融合基因引发癌症的机制主要有基因的失调、融合产生的嵌合体蛋白的作用两种。
2. 靶向融合基因的上市药物,多为激酶抑制剂。 癌症中的融合基因不仅可以作为癌症药物的靶点,还可以作为癌症分型与鉴定的标志物。 3. 癌症中发现的融合基因。 可见融合基因有很强的异质性,多数融合基因很难重复,所以你很可能发现文献上报道的融合基因是验证不出来的。 这也反映了高通量测序带来的另一个问题,高灵敏度鉴定了很多的融合基因,但是如何区分染色体不稳定产生的背景与致癌的融合基因是关键。 1. tophatfusion的原理 tophatfusion是tophat软件的一个模块,主要是将比对不上参考基因组的reads,拆开比对基因序列,发现潜在的融合位点(类似circRNA的鉴定),示例图中的reads长度为75bp。 然后将融合位点两端各50bp的序列比对数据库,将比上假基因和重复序列的融合位点过滤掉。最终给出来的潜在的融合位点会有十几万条。 通过跨过融合位点的单端read的数目,位于融合位点两边的pair reads数目及位于融合位点两边的pair reads,但一端跨过融合位点的reads数目,进行筛选。比如上个融合基因的项目使用的参数就是单端reads 不少于5个,pair reads与单端reads的和不少于8个。不同的项目用的参数会不一样。最终出来的融合基因有几十个。 最后,软件会根据融合位点出single reads的数目,pair reads的数目,及reads的错配情况,是否已比对上其他位点,即融合位点两端的reads深度进行打分。 2. 结果展示 融合位点的比对情况: 融合位点的表格: |
|