造就第226位讲者:陈钢 WeGene联合创始人 CTO 大家下午好,我是陈钢,很高兴再次来到【造就】,和大家分享关于基因的那些事。 我们每个人都是一个数据包,大家可以想象一个比较极端的情况,如果把人的每一个原子和分子的数据都记录下来,那会是什么情况? 曾经真的有人去计算这件事情,他得到的结论是,如果用普通U盘把人的这些数据都记录下来,大概需要塞满整艘泰坦尼克号,像本人这样一位二百斤重的胖子,那就需要两艘泰坦尼克了。 总之,这个数据量非常大。 每个人都是条字符串 每个人都是从受精卵、胚胎逐渐发育起来的,所以大自然究竟是怎么做的,把这么庞大的数据在人类代际之间传递下去?
那么,这样的基因组里究竟储存了哪些信息?我来举个例子,基因组里分了很多染色体,这里有个19号染色体,上面有很多基因,其中有一个基因备受关注。
我们发现,在19号染色体上面有一个叫APOE的基因,它会编码一个叫载脂蛋白E的蛋白,该蛋白会影响我们很多生理功能,在它上面有一个突变位点。
我们身体里的尼安德特人
这里有一件很有趣的事,大家看这个人,他跟我们算是远亲,但又跟我们不是同一个物种。他们被欧洲人称为尼安德特人。大概在十二万年前到两万年前,他们曾是欧洲大陆最主要的两足直立动物,但在两万年前灭绝了。 他们的历史很有趣,他们也和我们现代智人的祖先一样是从非洲迁出来,就像我们以为北京人是我们的祖先一样,欧洲人原来也以为尼安德特人是他们的祖先,不过这些论断现在都被否定了。 人们在山洞里发现了尼安德特人的遗骸,通过对遗骸的骨头进行反复研磨,提取出尼安德特人的基因组,再经过净化处理,最后发现他们跟我们现代智人并没有直接的祖辈关系。 同时,科学家也发现了一件很有趣的事,除了非洲以外,世界上所有其他人类的基因组里有1%~4%的基因组织来自尼安德特人。换言之,当我们的祖先在六七万年前从非洲迁出时,他们进入欧洲后还跟尼安德特人发生了一些事情。 根据多年的研究发现,我们对尼古丁成瘾的易感程度、患抑郁症的风险都跟尼安德特人传给我们的这些基因有关。那么,我们的基因组里,到底会有多少比例的基因来自于尼安德特人呢?这是可以计算出来的。 我们发现,亚洲人遗传尼安德特人基因的比例会高一点,而非洲人几乎为零,所以基因组里实际上蕴含了非常多的信息。每个人的信息,都被编码在了基因组里。
通过整合他们的信息,我们可以测出这两群人的基因组,我们发现蓝色这群人在红色处的突变很多,而白色处却很少见,所以我们知道这个位点肯定跟蓝白这两群人的差异有关。
但现在,随着近些年计算机、机器学习、人工智能的发展,我们有办法来做这样的事。我们有了基因组数据,可以推测出表型信息。换句话说就是,我有了你的基因组,我可以知道你是什么样子的。 还原人类数据包 机器学习技术正在帮助我们解决这些事情,当我们有了足够多的数据,我们可以构建这样的模型。那么,用基因组去预测人的表型能做到什么程度?我们来做一个最简单的表型,看看哪些因素会影响身高。 照片中的这个小姑娘,我知道她以后的身高会长得比在座各位都高,原因很简单,她是姚明的女儿,遗传使然。 欧洲人曾在十几年前做过一次研究,他们发现身高在一定程度上受遗传的影响,欧洲人的遗传度是0.8,亚洲人是0.4到0.6,这些值都挺高,我们常见的肿瘤的遗传度都没这么高。
这是我们在几千人身上做的测试,精确度还不错,图中分别是用户自己报告的成年身高数据以及我们用基因组算出来的数据。 这是我们在几千人身上做的测试,精确度还不错,图中分别是用户自己报告的成年身高数据以及我们用基因组算出来的数据。 大家可以从图上看到两团数据,主要是男性和女性的差异。同时,我们还发现,预测80后人群的身高准确度会比预测老一辈的精确度更高,整体误差小于5公分。因为老一辈人年轻时很多人吃不饱饭,身高受到营养问题的影响。 那我们有没有可能去做更复杂的表型预测?不仅仅是身高,还有人脸的模样。 通过面部识别,我们可以从面部抽取出非常多的特征,这每一个特征都是一个数字。如果我能够构建出基因组和这些特征之间的关系,那我就可以去重建一张人脸。
看面相算基因 但接下来出现了一个更有趣的问题,我能不能把这个箭头反过来?我如果有了一个人的表型,是不是能够预测出他在基因组上的情况? 如果大家做过基因组检测,会得到这样一个检测数据,里面有你的染色体、基因组,可以算出你的血缘里有多少比例是什么人,是南方汉族还是北方汉族,少数民族百分比是多少,进而还可以推测出你的脸长什么样。 我们现在想办法把这个图反过来 ,根据这张脸的照片去推算组员情况,不仅仅是身高、长相、声音,还可以是其他目前看上去跟我们没太大关系的事情。 我们已经建立起基因组和各种各样表型信息之间的关系,利用机器学习的方法也可以起到双向作用,不仅可以正面来,也可以反过去。有了足够多的基因组数据及表型数据,我们可以用机器学习及人工智能的方法,构建起其中的相互关系。 当我们去预测药物的治疗效果及药物的不良反应,去寻找每个人精准的治疗方案、最佳运动和生活方式时,我们都需要这样的预测手段。 反过来,当我们知道一个人的表型信息时,我们可以从他的基因去预测看看他是否会罹患某种罕见病。 很多罕见病都是遗传病,当我们发现一个小孩有这样的症状时,我们可以去检测他的基因,从而找到最佳治疗方案。 打开一个全新的世界 每个人的信息都被编码在了基因组里,我们要做的所有预测都依赖于大数据。我们可以很容易看到电商消费的数据,但我们比较难看到基因组数据,因为那需要每个人都贡献出自己的样品。 仅仅只有基因组数据,还不足以构建模型去解决医学上的问题,去理解我们的生命,我们的历史。我们还需要各种各样的表型信息,希望每个人都能贡献出这样的数据,参与研究,推动医学等领域的进步。
如果我们能够构建这样的数据,我们就能够打开一把锁,开启一个全新的世界。我们可以用基因组数据加上其他数据,一起建立起我们对生命、对医疗、对健康的全新认识。 另一方面,我们也需要一把锁来保障数据安全。我们现在可以做到的是,当你回到家,用你出了汗的手去转门把手,我们可以根据你在门把手上留下的脱落细胞皮脂来提取DNA,从而模拟出你的模样、身高、甚至预测出年龄。 所以,一方面,我们确实需要每个人的基因组数据及表型数据;另一方面,我们也需要投入更多的精力去确保这些数据的安全、可控。
本次大会特别鸣谢:Airbnb爱彼迎,滴滴出行 全场影像合作伙伴:Optoma奥图码 嘉宾使用无线演示器特别支持:Logitech罗技 战略合作媒体平台:一点资讯 |
|