TCGA构建临床预测模型的大坑原创:?果子?javascript:void(0);果子学生信?7月10日我在上上周连发了5个TCGA的帖子, 从易到难,https://mp.weixin.qq.com/s?__biz=MzIyMzA2MTcwMg==&mid=265073 2810&idx=1&sn=69df2230c84208240c9fa34c2ec859a4&chksm=f029aaa3c75e 23b5911701597e863b9879c0af06a6c6aad82a2c0ec90518ee746c8f41685bd4& mpshare=1&scene=21&srcid=0710ahR4ewq97ZI6QrHYgjaB介绍一个十分简单好用的TCGA工 具https://mp.weixin.qq.com/s?__biz=MzIyMzA2MTcwMg==&mid=2650732814 &idx=1&sn=4fa6fecf6fefac9c16783a7ab9a43f57&chksm=f029aaa7c75e23b1 6f5c25142145975fc1bff69bc3e15da954da07055d83d3ccbfd9803ee041&mpsh are=1&scene=21&srcid=0710jr8I5BSD6OGwWV1bhgyRTCGA提取非编码RNA并完成下游分析h ttps://mp.weixin.qq.com/s?__biz=MzIyMzA2MTcwMg==&mid=2650732818&i dx=1&sn=d134de41e78e2a969d65d9ce57826c2b&chksm=f029aabbc75e23adfc 19279512e59a7ef9550381f6eaee9e8450c1678b1ec55d186b7271b78c&mpshar e=1&scene=21&srcid=0710MJInoIzeiTmmOJu4BasXTCGA真实数据下的批量生存分析https: //mp.weixin.qq.com/s?__biz=MzIyMzA2MTcwMg==&mid=2650732821&idx=1& sn=55d49351a2932e475e8ea07d2e77e33a&chksm=f029aabcc75e23aabca882c 2a9baf63661819f5161783b4f92bf38a621c1f6d0a76320ac525d&mpshare=1&s cene=21&srcid=07100krCIxG6RFvvRZRmXvX4基于TCGA数据的疾病风险预测模型构建https:// mp.weixin.qq.com/s?__biz=MzIyMzA2MTcwMg==&mid=2650732824&idx=1&sn =58f59bb193c7b30b13c0c3f2278763d7&chksm=f029aab1c75e23a7241f2bdf0 ed55bd19b4820cdffec33f3a79b5e53f124b118241f100503d5&mpshare=1&sce ne=21&srcid=0710lLhOdB2vw4Y1w4koUXHxTCGA数据库构建生存预测模型之lasso回归最终发现介绍 数据库的那个帖子最受欢迎,可能是因为简单容易上手吧。然后那个帖子被抄袭,甚至连输入的疾病和分子都没有换,因为分子和疾病都是我筛选的 ,两万多个基因选择一个,30几种癌症选择一种,还重合的概率有多大。这个事情我也没那么上心,让我奇怪的是模型预测那个帖子,阅读很惨淡 ,大概的原因是,大部分人群还没有过TCGA的入门坎,万方军老师说得是对的,搞培训往往那些制作精良的课程不一定受欢迎,而那些一眼看 上去也没教什么,弄出一堆图的课程倒是会爆满。假如一个套路都可以拿出来教了,基本上纯靠那个套路发文章已经不大可能了,除非你有歪点子。 比如:大量的模型预测文章中,都说,自己先把内部数据集分为训练组和测试组,通过训练组得出一个风险预测模型,然后在测试组里面一测试,效 果不错,然后再找个外部数据集也测试了一下,发现效果也很好,然后这个模型就有实用价值和推广意义了。这样的文章,高的发到20分的JCO ,低的发中文,中间大量的3-6分的文章窜来窜去,层出不穷。那么问题是,这个模型预测简直就是大坑,具体说来就是模型的选择和推广非常难 。第一,无论怎么训练都会有模型,但是在测试组不一定有意义,可能的原因是,在训练组过度最求少基因组合以及过高的AUC,导致这个模型过 度拟合和优化。第二,即使过了内部测试数据集这一关,那么外部数据集也会出现问题,比如,没有合适的外部测试数据,即使有,因为之前所说的 过度优化的问题,也不一定有效。有没有什么万无一失的方法可以解决这个事情??有!用R语言写一个循环,做三件事情,训练,内部测试,外部 测试,每次返回两次测试的p值和AUC值,那么经过1000次以上的循环之后,必然会出现一批在三个数据集中表现都很好的模型。这时候就 可以写文章吹牛逼了。但是,构建预测模型的核心就是他能够预测未知,我们开启上帝视角后就破坏了这个规矩,这是不道德的最后,假如我们还有点资源,也对自己的模型有信心,那么完全可以在自己的数据中验证,最终的文章会很受欢迎,那篇JCO就是这么干的。微信扫一扫关注该公众号 |
|