TCGA

来自：钕51 > 馆藏分类

配色：

字号：大中小

TCGA

2018-08-12 | 阅：转： | 分享

TCGA构建临床预测模型的大坑原创：?果子?javascript:void(0);果子学生信?7月10日我在上上周连发了5个TCGA的帖子，
从易到难，https://mp.weixin.qq.com/s?__biz=MzIyMzA2MTcwMg==&mid=265073
2810&idx=1&sn=69df2230c84208240c9fa34c2ec859a4&chksm=f029aaa3c75e
23b5911701597e863b9879c0af06a6c6aad82a2c0ec90518ee746c8f41685bd4&
mpshare=1&scene=21&srcid=0710ahR4ewq97ZI6QrHYgjaB介绍一个十分简单好用的TCGA工
具https://mp.weixin.qq.com/s?__biz=MzIyMzA2MTcwMg==&mid=2650732814
&idx=1&sn=4fa6fecf6fefac9c16783a7ab9a43f57&chksm=f029aaa7c75e23b1
6f5c25142145975fc1bff69bc3e15da954da07055d83d3ccbfd9803ee041&mpsh
are=1&scene=21&srcid=0710jr8I5BSD6OGwWV1bhgyRTCGA提取非编码RNA并完成下游分析h
ttps://mp.weixin.qq.com/s?__biz=MzIyMzA2MTcwMg==&mid=2650732818&i
dx=1&sn=d134de41e78e2a969d65d9ce57826c2b&chksm=f029aabbc75e23adfc
19279512e59a7ef9550381f6eaee9e8450c1678b1ec55d186b7271b78c&mpshar
e=1&scene=21&srcid=0710MJInoIzeiTmmOJu4BasXTCGA真实数据下的批量生存分析https:
//mp.weixin.qq.com/s?__biz=MzIyMzA2MTcwMg==&mid=2650732821&idx=1&
sn=55d49351a2932e475e8ea07d2e77e33a&chksm=f029aabcc75e23aabca882c
2a9baf63661819f5161783b4f92bf38a621c1f6d0a76320ac525d&mpshare=1&s
cene=21&srcid=07100krCIxG6RFvvRZRmXvX4基于TCGA数据的疾病风险预测模型构建https://
mp.weixin.qq.com/s?__biz=MzIyMzA2MTcwMg==&mid=2650732824&idx=1&sn
=58f59bb193c7b30b13c0c3f2278763d7&chksm=f029aab1c75e23a7241f2bdf0
ed55bd19b4820cdffec33f3a79b5e53f124b118241f100503d5&mpshare=1&sce
ne=21&srcid=0710lLhOdB2vw4Y1w4koUXHxTCGA数据库构建生存预测模型之lasso回归最终发现介绍
数据库的那个帖子最受欢迎,可能是因为简单容易上手吧。然后那个帖子被抄袭，甚至连输入的疾病和分子都没有换，因为分子和疾病都是我筛选的
，两万多个基因选择一个，30几种癌症选择一种，还重合的概率有多大。这个事情我也没那么上心，让我奇怪的是模型预测那个帖子，阅读很惨淡
，大概的原因是，大部分人群还没有过TCGA的入门坎，万方军老师说得是对的，搞培训往往那些制作精良的课程不一定受欢迎，而那些一眼看
上去也没教什么，弄出一堆图的课程倒是会爆满。假如一个套路都可以拿出来教了，基本上纯靠那个套路发文章已经不大可能了，除非你有歪点子。
比如：大量的模型预测文章中，都说，自己先把内部数据集分为训练组和测试组，通过训练组得出一个风险预测模型，然后在测试组里面一测试，效
果不错，然后再找个外部数据集也测试了一下，发现效果也很好，然后这个模型就有实用价值和推广意义了。这样的文章，高的发到20分的JCO
，低的发中文，中间大量的3-6分的文章窜来窜去，层出不穷。那么问题是，这个模型预测简直就是大坑，具体说来就是模型的选择和推广非常难
。第一，无论怎么训练都会有模型，但是在测试组不一定有意义，可能的原因是，在训练组过度最求少基因组合以及过高的AUC，导致这个模型过
度拟合和优化。第二，即使过了内部测试数据集这一关，那么外部数据集也会出现问题，比如，没有合适的外部测试数据，即使有，因为之前所说的
过度优化的问题，也不一定有效。有没有什么万无一失的方法可以解决这个事情？?有！用Ｒ语言写一个循环，做三件事情，训练，内部测试，外部
测试，每次返回两次测试的p值和AUC值，那么经过1000次以上的循环之后，必然会出现一批在三个数据集中表现都很好的模型。这时候就
可以写文章吹牛逼了。但是，构建预测模型的核心就是他能够预测未知，我们开启上帝视角后就破坏了这个规矩，这是不道德的最后，假如我们还有点资源，也对自己的模型有信心，那么完全可以在自己的数据中验证，最终的文章会很受欢迎，那篇JCO就是这么干的。微信扫一扫关注该公众号

献花(0)

(本文系钕51首藏)

类似文章 更多

发表评论：