搜索

分享

QQ空间 QQ好友新浪微博微信

【原】分享一篇一周接收的数据库挖掘文章

医科研 2021-01-25

展开全文

欢迎来到医科研，这里是白介素2的读书笔记，跟我一起聊临床与科研的故事, 生物医学数据挖掘，R语言，TCGA、GEO, SEER数据挖掘。

image.png

今天要分享的文章发表在研究生之友 Biochemical and Biophysical Research Communications；BBRC杂志，影响因子2分加吧。

摘要

亮点是审稿接收时间，看了吗，一周接收。我比较喜欢这种风格，干脆果断，审稿过程常常费时费力，有些审稿人的要求是吹毛求疵，每位审稿人都有自己的观点和想法，同时每篇文章都有不足，不存在完美。大家干脆一点，不要拖泥带水挺好其实（发发牢骚）。

image.png

大概看下摘要，首先是从 Pan-cancer入手，然后选择了一个基因，一个肿瘤再进一步分析验证，选了另外的独立数据集进行验证，大概的思路就是这样。

文章结果展示

image.png

这些血管生成相关基因在泛癌中的表达模式热图，在这样的全景中看这些基因的模式。

选择一种肿瘤的基因表达

image.png

研究了感兴趣的基因在colon中的表达情况，包括组织学分型，正常与肿瘤的表达，与甲基化的相关性分析。

功能研究

image.png

通过GSEA富集分析，找到与目的基因可能相关的通路。

image.png

在结直肠肿瘤中的免疫浸润相关性分析。

数据分析

image.png

涉及到的数据包括TCGA的表达、突变，甲基化，CNA， GEO两套数据，GSEA分析。

题外话

· 不要看我说起来简单，自己真正做起来其实并没有想象中那么简单。文章中涉及到的分析综合性比较强了，能做完这些，一般的数据分析能力必须具备。

· 为什么我说没有那么简单，你真的以为一顿饭的功夫能做完吗？

– 首先你要下载Pan-cancer的数据总共9000+sample，上万个基因，作者还下了GTex的正常组织。这些数据你要搞清楚怎么下载吧？下载要时间把，一般的网络我觉得下起来还是有一定困难的。

– 你是怎么想到这些血管生成相关基因找出来的，要去哪里找？你是如何选题的，你如何知道这些没有人做过。

– 基因的表达分析里面有临床信息，那么你就要整理匹配这些临床数据

– 分析还包括突变，甲基化，CNA这些数据你也下载下来，甲基化数据的量你心里得有个数，45k相当于每个Sample*7的量，同样你得清洗数据，匹配信息。GEO两套数据要下载，要整理匹配临床信息吧。

– 文章呈现的内容仅仅是作者让我们看到的内容，还有其它内容是我们没看到的。我们来思考几个问题，为什么作者就选了 CXCL12这个基因呢？为什么它又单单选择了结直肠癌这种肿瘤呢？要知道，在它探索的过程当中是没有告诉它CXCL12这个基因就是可行的，是可以验证的。也就是说作者很有可能选了一个基因，然后得去尝试，这个到底能不能验证，如果失败了，那就再去选，再去试。

– 做完了之后验证了，还要做GSEA分析，分系完了这些结果只是可能性，还要去讨论吧，去看文献吧。这些都是工作。

· 说这些的目的很简单，跟大家交流一下，尤其是没接触过数据库挖掘的朋友们，相互了解下。数据挖掘没有有些人想象中那么简单，如果你有一次请别人帮忙分析数据，记得尊重他们的劳动和付出，说一句谢谢其实他们也不容易，千万不要觉得他们只是在电脑上点了几下，点的每一下，每一行代码都是无数个日夜的积累和沉淀。

这次就聊到这里吧，下期再见，我是老朋友白介素2。

本期内容就到这里，我是白介素2，下期再见，点击下方框框留言。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：医科研 > 《待分类》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

医科研

关注对话

TA的最新馆藏

医学期刊，非预警，接受率50%！
这本期刊刚刚改名，官方承诺初审3天！
医学1区Top，最新影响因子跌破10分！
冷门免疫学期刊，首个决定3天，最新影响因子7.9分！
医学1区, 去年11分+，最新影响因子跌破10分!
Cell旗下子刊，年发文量破千，最新影响因子8.8分！

喜欢该文的人也喜欢更多

热门阅读换一换