分享

我的单细胞学习之路

 健明 2022-04-06

生信技能树的老师们好:

我是“阿童木”,是生信技能树的铁粉之一,就读于上海交通大学医学院附属第六人民医院。作为一名临床医学出身的学生,之前一直在从事湿实验的工作;近来,由于研究方向的改变,开始涉足单细胞转录组领域。

说起R语言,大概在2019年(刚开始读研时)就开始接触。当时的想法是想要掌握一项新技能,于是跟着生信技能树的公众号与B站视频,了解了基本语法与应用;但由于不是目标导向,没有具体的研究项目,缺乏实战,后期便逐渐荒废了。

自今年3月份起,由于研究方向的改变,加之疫情期间去实验室的不便,我又开始学习生信,其中最主要的资料来源就是您所创建的生信技能树与单细胞天地平台。其广泛且靠谱的资料让我少走了很多弯路,大公无私的分享精神更让我敬佩不已,在此对生信技能树表示深深的感谢!同时,想向大家汇报一下我的学习进度,主要涉及R语言基础、GEO与bulk转录组、以及重头戏的单细胞转录组部分,并附上个人的浅薄见解。

目前已学习的内容

R语言基础

几年前曾跟过生信技能树的R语言B站教程生信人应该这样学R语言,但当时并未完成跟学下来。如今重新捡起来学习,主要学习途径有以下几个。

  • swirl包。交互式R语言学习,直接上手实操,每一步都有实时反馈,有学习的进度条,非常有成就感。目前已对感兴趣的部分进行学习,最大的收获在于数据清洗部分。

  • edX上的MOOC:哈佛的Statistics and R。是我学习的第一项英文课程。该课程非常非常基础,侧重统计原理及其在R中的实现,还配有英文字幕,很好上手,消除了我的畏难心理。

  • 购买了几本实体书籍。其中,《R数据科学》浅显易懂,我已系统性阅读,并就部分感兴趣的课后习题进行练习;《R语言实战》相对更厚,目前用于查阅。

  • 如今在不断的实操练习中,处处碰壁,在反复百度、反复head/str/help,摸索着不断前行。

GEO与bulk转录组

从GEO数据分析开始入门,到bulk转录组(下游)的探索,为单细胞转录组的学习打基础。此部分学习主要依靠生信技能树的教程,学习了数据下载、质量控制、差异分析、功能富集等步骤,其中id转换、差异分析是我主要学习的内容;而生存分析、GSEA、GSVA等后续分析没有涉及。目前,我已了解其原理与基本流程,可以跟着教程跑一遍,明白每条代码的含义;但是缺乏实战,没有真正做过项目。由于着急涉足单细胞的分析,所以此处没有花费太久的时间。(也可以说此处基础薄弱,日后早晚要回顾查漏补缺!)

单细胞转录组

单细胞方面,目前系统学习了一些课程,也跟着公众号进行了学习与了解,并开始逐步尝试复现。具体学习内容与进度如下。

  • 剑桥sanger单细胞课程:系统的单细胞课程。从实验设计和样品制备开始,到原始数据的处理,SCE对象的构建与探索、生物学分析。整体来讲更偏重原理介绍,穿插实操但比较简要。目前已完成大部分学习,还余最后一章数据整合待学习。
  • 哈佛单细胞课程:也是一个系统的单细胞课程,但比sanger的教程更为详细,实操也更多,主要基于Seurat包。主要涉及单细胞分析的基础部分,至cluster与gene marker;其更下游的分析只有subcluster与Pseudobulk differential expression ananlysis有介绍,其他几乎没有涉及。目前已完成学习。
  • 单细胞分析之bioconductor应用:目前看到的最系统最全面最详细的系统课程,原理与实操阐释都非常细致。是这个课程才让我真正明白了SCE对象的结构,各种方法的适用情况及选用原则。如在Normalization章节,会分别就不同方法(by library size, by deconvolution, by spike-ins)进行介绍;又如在Cluster章节,会详细阐释多种方法(by graph, by k-means, hierarchical clustering);并会对不同情境下的选用进行推荐,这是我在其他教程中没有学到的。但美中不足的是,该教程主要基于scater包,而非目前我更倾向使用的Seurat包。目前只学习了其basic部分,涉及质控、Normalization、降维、聚类分群、细胞类型注释等方面;而后续的Advanced部分尚未学习。计划先将基础部分进行实操练习后,再回来跟着此教程学习。
  • Seurat包官方教程:更侧重操作,对原理阐释不足。最初我在尚未学习以上课程的时候就开始尝试该教程,可以跟着代码一步步跑下来,却常常不知道自己在干什么,现在想想也是一种无效学习,只花费了时间,感动了自己,却没有太大成效。如今再跟着此教程跑一遍,才有了更深的理解与体会。同时,非常感谢生信技能树的《Seurat4.0官方文档的翻译稿》系列推文,在我的学习过程中起到了很大的帮助作用。目前,已完成Guided tutorial — 2,700 PBMCs与SCTransform部分,其他仍待学习。
  • scater在Bioconductor上的介绍:相对Seurat包而言比较简要,内容精简。初步跟着走完流程。目前计划将这个包的优先度靠后放,把主要精力放在Seurat包的学习上。
  • 生信技能树的全网第一的单细胞转录组实战演练,是我最早接触的单细胞教程。第一次听的时候云里雾里,很多地方听不懂,跟不下去;后来在学习了一些基础知识后重新来听,发现真是个宝藏课程,不拖泥带水,实战性强,不时可以穿插学到一些R语言的技巧与思想。值得一提的是配套的scRNA_smart_seq2-master文件,从bulk RNA-seq开始,对于我这种小白非常友好。目前已完成Section1部分的学习;已开启Section2部分,主要涉及Seurat、scater、monocle三个R包,从这里,我就转向Seurat与scater的官方教程进行学习了;后续Section3 复现文章图标与Section4 公共数据库整合分析,初步看了看感觉对我而言还有困难,先留个坑,待后边回来继续学习。
  • 单细胞天地的单细胞转录组基础十讲,一些复现推文如单细胞文献学习,以及生信技能树每晚的腾讯会议。尤其是腾讯会议,起初跟听的时候几乎听不懂,完全不知道在干什么,想放弃的心都有;但随着不断学习,开始可以逐渐跟上一些思路,开启期盼每晚的会议;不过现在到了更下游的分析时仍是云里雾里,需要继续充电与学习。另外,说个题外话,听闻最近的会议频率有所下降,我迫切的期盼自己可以早日出师,也可以自己复现出一篇文章,与大家学习交流。

目前待学习的内容

  • 单细胞基础分析(至降维聚类与细胞类型注释)实战,需要多加练习。
  • 单细胞更下游的分析,如拟时序等。
  • 单细胞文献阅读。之前重视基础技能学习,在文献阅读方面有所欠缺,对如今的研究方向与热点不甚了解,亟待加强。

学习感悟

最后,是我的一些学习感悟。

  • 系统性的学习很重要。学习一项知识或技能前,要先对整体框架有把握,才能有的放矢,细化学习,逐点攻克;不然如管中窥豹,盲人摸象,不得其全貌,更不必提学会与掌握。这里,我就走过很多弯路。之前跟着视频进行学习,刚开始起步就接触到”ID转换“,转录组的”上游“、”下游“,乃至技能树常说的”造轮子“,这些词汇耳熟能详,但我实际上并不知晓其具体含义,知其然却不知其所以然;另一个例子是起初盲目开始学习单细胞,下载了Cell Ranger,用一天时间配置好Linux环境,却发现自己什么分析也做不了,花了很多功夫学了个寂寞。如今在对基础知识进行系统学习与反复咀嚼后,我才感叹自己当时的无知与可笑,更明白知识框架的重要性。
  • 建立自己的知识体系。在学习过程中,要及时记录与总结,有自己的梳理与思考,并及时回顾,才能进步的更快。之前学习时,由于生信技能树的知识总结做得太好了,我经常大段大段的复制下来,从此尘封在某个文件夹里;这样虽然记录很全面,却也丧失了独立学习与总结的机会,印象不够深刻,学习也不到位。如今我会边学习边总结,将总体框架与重点要点进行记录;一是学习当时就印象更深,二是记录较原材料更为精简,便于日后翻阅与复习,以达到更好的学习效果;三是看到自己的学习材料时非常有成就感,形成学习的正反馈。但遗憾的是,我由于个人偏好选择了手写,而非电子版,缺少了”CTRL+F“的查询便利。但我相信学习效率第一位,具体形式都是实现途径,选择适合自己的即可。如果日后学习习惯有改变,我愿意进化到电子版的时代,更易于保存与分享。我也希望日后自己也可以成为知识分享型的人,在进步中分享,在分享中进步。
  • 独立思考很重要,同时也要适当求助。作为初学者,是会遇到很多问题,但遇到问题时,首先要自己想办法解决,再向别人求助。曾老师强调要把head,str,help敲1000遍以上,解决不了就搜帖子,这样确实可以解决大部分的问题。实在解决不了时,再去找内行咨询,在经过自己前期充分的思考后,此时一点就通,于己于人都是一件好事。拒绝”无脑求助“,也拒绝”闭门造车“,两者结合以获得最大进步。
  • 合理利用“经验贴”。之前我总是喜欢读一些别人的总结,如公众号的推文、知乎的解答等等,看似浅显易懂,如今想来,这并不是获取知识的最佳途径。一是因为任何经验分享与总结都只是个人之见,是博主个人的思考与消化,并非原原本本的原始学习材料,有参考意义但不可完全倚仗;二是其内容受字数限制往往比较精简,常限制在某一个小点,在尚未搭建起知识框架时就贸然接触,有盲人摸象之感;三是与官方教程或教科书相比,严谨性更差,可能存在错误,身为小白缺乏判断力,容易被误导。必须自己学习,拒绝吃别人嚼烂的食物。如今,我已不再将此作为主要学习途径,而是作为日常学习的补充,体会博主们的辛勤劳动与总结的精妙tips。在此,也对生信技能树的团队表示万分感谢!
  • 最好的学习方法就是行动起来!生信的学习过程是公认的陡峭,也常有畏难心理作祟。起初是对R语言的畏惧,然后是听到授课老师说”转录组数据都是自己分析,不必送公司“的愕然,再到听到”单细胞转录组“时满心的高大上之感;如今的我也开始入门,有了小小的进步,体会到”大佬“们的谈笑风生并不是凡尔赛,这些技术也并不是深涩难懂的大部头,也是自己可以企及的啊。所谓”零基础“,又有谁不是零基础呢,难道真有人是生下来就会生信的?只要一点一点学,日有新知,总会有收获。

最后,感谢生信技能树,感谢健明老师及各位同学的无私分享,给我榜样的力量,给我学习的平台与机会,给我进步的无限空间。在此,诚挚希望能成为一位新晋的单细胞学徒。之前的日子里没有发邮件,日后我会坚持学习与汇报,与技能树共成长、同进步。

文末友情宣传

强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多