来自:钕51 > 馆藏分类
配色: 字号:
TCGA
2018-08-12 | 阅:  转:  |  分享 
  
TCGA构建临床预测模型的大坑原创:?果子?javascript:void(0);果子学生信?7月10日我在上上周连发了5个TCGA的帖子,
从易到难,https://mp.weixin.qq.com/s?__biz=MzIyMzA2MTcwMg==&mid=265073
2810&idx=1&sn=69df2230c84208240c9fa34c2ec859a4&chksm=f029aaa3c75e
23b5911701597e863b9879c0af06a6c6aad82a2c0ec90518ee746c8f41685bd4&
mpshare=1&scene=21&srcid=0710ahR4ewq97ZI6QrHYgjaB介绍一个十分简单好用的TCGA工
具https://mp.weixin.qq.com/s?__biz=MzIyMzA2MTcwMg==&mid=2650732814
&idx=1&sn=4fa6fecf6fefac9c16783a7ab9a43f57&chksm=f029aaa7c75e23b1
6f5c25142145975fc1bff69bc3e15da954da07055d83d3ccbfd9803ee041&mpsh
are=1&scene=21&srcid=0710jr8I5BSD6OGwWV1bhgyRTCGA提取非编码RNA并完成下游分析h
ttps://mp.weixin.qq.com/s?__biz=MzIyMzA2MTcwMg==&mid=2650732818&i
dx=1&sn=d134de41e78e2a969d65d9ce57826c2b&chksm=f029aabbc75e23adfc
19279512e59a7ef9550381f6eaee9e8450c1678b1ec55d186b7271b78c&mpshar
e=1&scene=21&srcid=0710MJInoIzeiTmmOJu4BasXTCGA真实数据下的批量生存分析https:
//mp.weixin.qq.com/s?__biz=MzIyMzA2MTcwMg==&mid=2650732821&idx=1&
sn=55d49351a2932e475e8ea07d2e77e33a&chksm=f029aabcc75e23aabca882c
2a9baf63661819f5161783b4f92bf38a621c1f6d0a76320ac525d&mpshare=1&s
cene=21&srcid=07100krCIxG6RFvvRZRmXvX4基于TCGA数据的疾病风险预测模型构建https://
mp.weixin.qq.com/s?__biz=MzIyMzA2MTcwMg==&mid=2650732824&idx=1&sn
=58f59bb193c7b30b13c0c3f2278763d7&chksm=f029aab1c75e23a7241f2bdf0
ed55bd19b4820cdffec33f3a79b5e53f124b118241f100503d5&mpshare=1&sce
ne=21&srcid=0710lLhOdB2vw4Y1w4koUXHxTCGA数据库构建生存预测模型之lasso回归最终发现介绍
数据库的那个帖子最受欢迎,可能是因为简单容易上手吧。然后那个帖子被抄袭,甚至连输入的疾病和分子都没有换,因为分子和疾病都是我筛选的
,两万多个基因选择一个,30几种癌症选择一种,还重合的概率有多大。这个事情我也没那么上心,让我奇怪的是模型预测那个帖子,阅读很惨淡
,大概的原因是,大部分人群还没有过TCGA的入门坎,万方军老师说得是对的,搞培训往往那些制作精良的课程不一定受欢迎,而那些一眼看
上去也没教什么,弄出一堆图的课程倒是会爆满。假如一个套路都可以拿出来教了,基本上纯靠那个套路发文章已经不大可能了,除非你有歪点子。
比如:大量的模型预测文章中,都说,自己先把内部数据集分为训练组和测试组,通过训练组得出一个风险预测模型,然后在测试组里面一测试,效
果不错,然后再找个外部数据集也测试了一下,发现效果也很好,然后这个模型就有实用价值和推广意义了。这样的文章,高的发到20分的JCO
,低的发中文,中间大量的3-6分的文章窜来窜去,层出不穷。那么问题是,这个模型预测简直就是大坑,具体说来就是模型的选择和推广非常难
。第一,无论怎么训练都会有模型,但是在测试组不一定有意义,可能的原因是,在训练组过度最求少基因组合以及过高的AUC,导致这个模型过
度拟合和优化。第二,即使过了内部测试数据集这一关,那么外部数据集也会出现问题,比如,没有合适的外部测试数据,即使有,因为之前所说的
过度优化的问题,也不一定有效。有没有什么万无一失的方法可以解决这个事情??有!用R语言写一个循环,做三件事情,训练,内部测试,外部
测试,每次返回两次测试的p值和AUC值,那么经过1000次以上的循环之后,必然会出现一批在三个数据集中表现都很好的模型。这时候就
可以写文章吹牛逼了。但是,构建预测模型的核心就是他能够预测未知,我们开启上帝视角后就破坏了这个规矩,这是不道德的最后,假如我们还有点资源,也对自己的模型有信心,那么完全可以在自己的数据中验证,最终的文章会很受欢迎,那篇JCO就是这么干的。微信扫一扫关注该公众号
献花(0)
+1
(本文系钕51首藏)