分享

免疫组化和RNA-seq数据你更相信哪个

 健明 2021-12-12

目前的生命科学领域研究仍然是“草莽”阶段,基本上落脚点都需要是一个基因。可以是该基因在不同分组有差异,或者说该基因的高低跟肿瘤病人的生存情况关联起来了。有了基因,就可以对它进行敲减过表达各种干扰,看它的下游影响。但是会陷入一个有意思的玄学:过表达一个基因和敲除它的作用一定是相反的吗

虽然落脚点是一个基因,但是对它的量化也多层次的,比如某基因的突变情况咋样,是SNV还是CNV,该基因的表达量如何量化,该基因是否被甲基化修饰,该基因是否的蛋白产物是否正常。其中对我们来说,最简单的就是表达量啦,而在各个数据挖掘文章里面看到的量化表达量的技术目前以免疫组化和RNA-seq为主。

我们以2019年发表在《Cell Research》文章为例:《Protein C receptor is a therapeutic stem cell target in a distinct group of breast cancers》,链接是:https://www./articles/s41422-019-0225-9

比如下面的PROCR这个基因在乳腺癌的不同亚型表达量有差异,就是免疫组化技术的结果 :

免疫组化技术

上面的 tissue microarrays (TMAs) 病人队列主要是根据 ER, PR, and HER2 的状态对乳腺癌患者进行区分:

  • luminal A subtype (ER+ and/or PR+, low Ki67),
  • luminal B subtype (ER+ and/or PR+, high Ki67 or HER2+),
  • HER2+ subtype (HER2+, ER− and PR−),
  • triple-negative subtype (ER−, PR−, and HER2−)

基本的结论就是PROCR这个基因在乳腺癌的癌症组织里面的表达量是高于正常对照无癌组织的,而且是在TNBC这个癌症里面特异性的高表达。

而且同样是这个 tissue microarrays (TMAs) 病人队列,他们临床预后信息收集整理的很好,所以可以做生存分析,发现这个PROCR基因在TNBC这个癌症里面特异性的高表达而且是风险因子,表达量越高的病人死亡的风险越大 :

表达量越高的病人死亡的风险越大

多么完美的结论啊,一个基因在三阴性乳腺癌里面高表达,而且呢,它表达量越高病人死亡风险越大。其实这样的基因超级多,只要你收集好一个病人队列,有他们全部的基因的表达量矩阵,以及全部病人的临床信息!

以TCGA的RNA-seq数据为例子

我们可以去 https:///heatmap/ 简单的选取 TCGA Breast Cancer (BRCA) 队列,就可以看到,这个PROCR 首先并不是在肿瘤里面比正常对照高表达,其次也不是在TNBC亚型里面比其它乳腺癌表达量更高。最后生存分析也是一个玄学啊!

 

可以看到,其实它在TNBC或者说basal队列里面,反而去表达量越低,死亡的风险越大!

是这个2019年发表在《Cell Research》文章的免疫组化的结论更可靠呢,还是说TCGA数据库里面的RNA-seq更可靠呢?

如果是TCGA数据库更好,以后大家的科研经费就可以大批量的省下来了,毕竟在医院收集好几百人的病人队列,取样做实验费用都很高啊,如果同样的结果可以是有数据库来说明,就可以跳过这个实验阶段了吧?

学徒作业:

邵志敏科研团队发表了一个纯粹的TNBC队列, 在其文章:Multi-omics profiling reveals distinct microenvironment characterization and suggests immune escape mechanisms of triple-negative breast cancer 里面提到了数据:

The sequencing data is also available in GSE118527 (OncoScan), GSE76250 (HTA 2.0) and SRP157974  (WES and RNAseq)

有临床信息,也表达量矩阵,可以验证一下这个 个PROCR基因是不是在TNBC这个癌症里面特异性的高表达而且是风险因子,表达量越高的病人死亡的风险越大 。

完成我的100个学徒作业

我先列出来前面的71个题目,目录如下:

  1. 生信编程直播课程优秀学员作业展示1
  2. 生信编程直播课程优秀学员学习心得及作业展示3
  3. 生信编程直播课程优秀学员作业展示2
  4. 给学徒的GEO作业
  5. 这个WGCNA作业终于有学徒完成了!
  6. 上次说的gmt函数(学徒作业)
  7. 拖后腿学徒居然也完成作业,理解RNA-seq数据分析结果
  8. 肿瘤外显子视频课程小作业
  9. ChIPseq视频课程小作业
  10. Agilent芯片表达矩阵处理(学徒作业)
  11. 学徒作业:TCGA数据库单基因gsea之COAD-READ
  12. 学徒作业-在CCLE数据库里面根据指定基因在指定细胞系里面提取表达矩阵
  13. 学徒作业-指定基因在指定组织里面的表达量热图
  14. 学徒作业-我想看为什么这几个基因的表达量相关性非常高
  15. 学徒作业:给你8个甲基化探针, 你在tcga数据库进行任意探索
  16. 学徒作业-根据我的甲基化视频教程来完成2015-NPC-methy-GSE52068研究
  17. RNA芯片和测序技术的比较(学徒作业)
  18. 学徒作业-单基因的tcga数据挖掘分析
  19. ATCC终于出来了organoids资源
  20. 拿到7个DDR通路的基因集-学徒作业
  21. 绘图本身很简单但是获取数据很难
  22. 都说lncRNA只有部分具有polyA尾结构,请证明
  23. 学徒作业-hisat2+stringtie+ballgown流程
  24. 学徒任务-探索DNA甲基化的组织特异性
  25. 用WES和RNA-Seq数据提取到的somatic SNVs不一致
  26. 《GEO数据挖掘课程》配套练习题
  27. 一个甲基化芯片数据被挖掘好几次(学徒作业)
  28. 二十年前做科研你只需要检测一些基因在一些癌症细胞系表达量情况即可
  29. 仅提供bam文件的RNA-seq项目重新分析
  30. 乳腺癌和结直肠癌的基因分型居然可以应用于前列腺癌
  31. 我教程的第一个外国读者
  32. 10个细胞系仅1个表达你的基因
  33. 根据CNV信号对细胞系分组后看表达量差异(这就是多组学的一种方式)
  34. 狗也有乳腺癌(也有人研究)
  35. 怎么样成功看到影响病人生存的隐藏因素呢
  36. 把基因数量搞小的数据挖掘想法是好的但可能不现实
  37. 《GEO数据挖掘课程》配套练习题粗浅的答案
  38. RNA-seq的3的差异分析R包你选择哪个
  39. 不同样本的WES数据分析时多比对区域是否有差异
  40. 能重复出来图表,却不知自己正确与否?
  41. 10X的单细胞转录组原始数据也可以在EBI下载
  42. 文章的最高境界-让人无法重复出来???
  43. 单细胞RT-PCR表达量数据也可以差异分析
  44. 10X单细胞转录组的测序数据量这么少是为什么
  45. 什么,ENA和SRA数据库存放的单细胞转录组测序数据并不一致啊?
  46. SNV和INDEL仅仅是比较数量吗?(学徒作业)
  47. 哦别做梦了!
  48. BRCA1和BRCA2基因敲除小鼠的单细胞转录组
  49. 凭什么定位到UBR5基因
  50. 为何要劳民伤财做同样的数据
  51. 张泽民团队的单细胞研究把T细胞分的如此清楚
  52. 最适合ChIP-seq实战的文献推荐
  53. 常规转录差异建议都加上一个转录因子数据
  54. 并不一定要单细胞转录组才能看肿瘤免疫微环境个细胞亚群比例
  55. 为什么这个研究不使用inferCNV来判定细胞恶性与否呢
  56. 什么时候细胞周期的分类作用大于细胞类型呢
  57. 小RNA建库测序后的数据分析-实例讲解
  58. 新的ngs流程该如何学习(以CUT&Tag 数据处理为例子)
  59. 人人都能学会的单细胞聚类分群注释
  60. 新的ngs流程该如何学习之m6A学习大纲
  61. 看看这45篇文章有啥规律
  62. 把tcga大计划的CNS级别文章标题画一个词云
  63. 如今的测序和八年前的芯片差异大吗
  64. circRNA芯片也是同样的差异分析
  65. 拷贝数全景图聚类分群找差异
  66. 人鼠基因转换之首字母大写
  67. 带着文件夹结构的拷贝
  68. 谁说单细胞工具一定要应用于单细胞数据呢
  69. 10x单细胞表达矩阵你也敢用Excel打开
  70. 多个gsea数据集整合为什么一定要纠结批次效应
  71. 基于小鼠的基因集数据库资源

完成学徒作业,以markdown笔记的形式发到我邮箱,我会抽时间集中检查,挖掘其中足够优秀的小伙伴进行重点培养,给与更高级的学习资料或者个性化的学习指引,并且提供一定量的项目兼职测试一下你成为“数字游民”的潜力。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多