分享

初入科研的几点心得——以交叉学科为例

 mynotebook 2022-09-18 发布于湖南

上一篇:密大生物统计第二学期就读体验

大家好!

在四月的时候我和我的小伙伴们还在感慨学校暑假有多长,结果一转眼就到了八月。在这几个月中我们虽然没有课程,但是依然过的十分的忙碌,而原因就是本篇文章的重点:Research Assistant (RA)。我们在上一篇文章中有简单的提到过究竟什么是RA,但是经过了一个暑假的RA之后,猹哥发现依然还是有必要在暑假快要结束的时候思考暑假RA期间的得失与教训,因为很多问题真的是很难发现却又很有必要提出的,同时很多学习或工作期间的优势有可能会变成劣势。所以这一篇文章我们以点带面,希望通过一些很小的细节来引入,来看看初入科研的时候,有哪些东西可能和之前想的不一样了。

值得一提的是,严格来说暑假期间是有两个短学期的(春季学期夏季学期),有的同学会在这两个学期上一些课(当然也得保证有权限,同时需要额外交钱,在生统系几乎没有这样做的人)。但是考虑到内容的连贯性,我们会将这一篇文章定位成番外,换句话说下学期的学习体验我们依然认为是第三学期的,而不是第四或第五学期的。

那么我们开始吧!

1. 导师更像是你的合作者

就像上班的时候会有个mentor一样,RA也会需要跟一个导师。这个导师往往经过多年的耕耘,已经形成了对一个或者一些领域的深度了解。而RA所对应的项目其实也会跟你日后的目的有关。一般来说如果RA项目仅仅只是为了项目本身,而不是为了后续的博士进度,那么主动权往往都在导师手上,导师与学生的关系就更像是公司里面的上下级关系,当完成了这个项目之后自然这一层师生关系也就解除了。但如果RA项目本身就是为了读博士做准备,情况就会完全不一样。一般来说,导师并没有权利全权把握科研项目的进度。但是反过来说,因为你跟着导师,就意味着导师对你存在约束,所以也并不能说科研项目的进度就完全由我们自己负责。所以不能理解导师和我们的关系就是一个二极管,而且根据导师和学生的性格不同,其实最后的处事方式也会千变万化

总体来说,我最愿意理解导师是一个具有约束的合作者,且约束会随着一个人科研进度的推进而慢慢放松。这就意味着在一开始的时候,导师会更希望安排你做一些比较机械化,比较基础,比较琐碎的事情,并且这些事情导师往往会在细节和要求上更加上心,要求更高。而到了后期(比方说博士的第四年,第五年),相比较导师的指导,学生的意见其实更加重要。总体来说随着科研进度的推进,学生的自由度会越来越大。

但无论自由度是大是小,听取导师的意见都是很重要的一环,无论前期还是后期。这是因为无论最后的博士论文的课题与导师的内容相关与否,导师的选择都有他自己的考虑。如果相关,那么导师的指导往往会比自己瞎摸索要高效很多。如果不相关,一个好的导师往往也能够找到一个团队来辅助学生完成论文,而不仅仅是袖手旁观。举个例子,我们这里有很多博士生都会被联合培养(即一个学生会被多个导师培养,由多个导师共同负责完成课题),这往往是因为某一个课题可能正好落在了两个导师研究方向的交叉点,因此这个时候两个导师共同培养往往会比一个导师要好很多。

最后我个人认为对于大部分人来说,主动性固然是很重要的,但是重要性其实不如听取导师的意见。这是因为主动虽然可以给导师带来一个signal说学生会非常motivated,非常容易被驱动和对课题感兴趣,但是主动如果只是完全照搬自己的经验,实际上工作的效率甚至会还不如被动接受,这一点我们后面还会再提。一个听起来有点残酷的现实是,最终博士论文的方向还是会很大程度上受限于导师和他合作者们的研究方向。对于极少数的天赋异禀的朋友,他们也许可以几乎不依靠导师的指导,但依然不可能脱离导师的人脉和研究大纲。基于这个原因,我们虽然依然推荐大家做课题的时候要主动,尤其是博士的后期,但是主动过了火其实很多时候不是好事。当然了,这是基于导师比较够格的情况下,对于尸位素餐的博士生导师除外。

图片

Mammoth Cave National Park, KY

2. 做课题讲究的是细节,无论它重要与否

博士期间一个很重要的点就是要做细节,无论这个idea是否新颖。简单来说就是所有的理论,实验和结论都要在一篇文章中形成闭环,并且避开所有可能的confusion。一般来说,导师都会推荐学生在有了一定的实验成果之后就开始着手paper的书写,而不会等到实验和结论完全结束之后再写。一个原因是达到课题最后发表期刊/会议的要求其实是相当高的,几乎不可能是在很短的时间可以完成的。还有一个原因是很多时候,审稿人会以各种理由来论证实验的不合理,将实验完全推翻的话基本上就宣告之前的实验和结论完全没用了。反过来说如果一个课题本身的支撑点,也就是方法论层面的内容足够完整和形成了闭环,那么实验更多的像是一个锦上添花的作用。这样的一个安排下实验设计会更加有的放矢,同时也会有更多的精力去攻克下一个课题(当然这是对于博士生来说的)。

有的人可能会说这也没什么大不了,理论我找几本好的书抄一抄拼一拼,实验我找别的论文参考参考稍微改改也就行了。先不提说照搬全抄是否会被判抄袭,也不提说一个论文的实验要支撑自己的idea和理论,光是符号使用是否合理,在各个领域就有各个领域的说法。举个例子,在做临床数据分析的时候,我们对于每一个人都会提取一些信息,例如每一个人的当时的年龄,在一个时间点提取出来的血压。一般来说可能就可以代表这么一个向量。但是对于临床数据分析,其实存在两种可能:拿到的这个信息是原始信息,还是经过处理后的信息。因此对于实际的分析,包括理论的推导,我们一般用来表示这个信息向量,这个就既可以表示处理前,也可以表示处理后的信息,包括增加交叉项和高阶项这些比较常见的统计处理方法,其实都可以被给表示,之前的就仅仅被用来表示“处理前“的信息了。

当然了,其实你是可以通过增加适当的说辞来声明表示处理后的信息,而不用。但是对于审稿人来说,一个领域有一个领域的习惯和声明,这种额外的声明和修改其实会给审稿带来负面的效应,因为审稿人看得很快的情况下,他们会自然而然的代入自己已有的认知,而不会认真看论文的每一个字。这也是为什么导师经常会说一个领域有一个领域的规则和习惯,统计领域有统计领域的规则,计算机领域有计算机的玩法。就像临床数据分析其实也是机器学习,深度学习等领域有所应用的地方,但是他们的论文写法就和统计系完全不同。

说到这里我们提一下交叉学科的情况,也是我目前所涉及的课题的特性。首先交叉学科要保证对于另一个学科的了解在自己的本专业领域中要达到顶尖,但不代表两个学科要同等程度的了解。以我目前的课题为例,我需要用深度学习来完成临床数据分析,那么如果我要发一篇统计系的论文,我所有的论文的写法都要照顾到统计系,而不是计算机,这就意味着我需要理解清楚对于统计系的人来说,有哪些深度学习层面的东西是他们非常关心的。这很多时候并不是一件容易的事情,包括我自己在这个方面也经常与导师意见相左,因为在这个时候,之前在其他领域所学习到的很多核心的知识往往并不是统计系领域所关心的,自己交叉学科的优势在论文书写中反而变成了劣势,过于主动往往会演变成无意义的发散。因此在这个时候,一个比较好的处理方案是,观察经典书籍和论文如何处理交叉学科的写法,并将所有的深度学习的细节都摆在目前的paper草稿中,再与导师讨论保留哪些,例如对于我们的数据集,我们有什么调参的选择和建议。虽然这一定程度上有些浪费时间,因为你需要将可能深度学习领域完全不关心的细节摆在台面上,要多做很多相关的实验。但是还是我老板说的那样,一个领域有一个领域的规则,如果避开这个规则,最终往往会浪费更多的时间。

所以从这一点来看,其实也不难看出导师的重要性,因为导师最为熟悉的是所擅长领域的一个全貌,所以自然也会了解这个领域的人更希望看到什么东西。对于交叉学科来说,导师很有可能对于另一个领域是不太了解的,例如对于我目前的课题,导师非常熟悉临床数据那一块的问题,但是不熟悉深度学习的具体细节,那么我所要做的就是把深度学习的具体细节里面与临床数据有关的部分找到并且展示在paper中,并且进行讨论。

图片

Kentucky航拍

3. 做课题看重的是新意,但不能只有新意

很多人(包括我自己)都会认为做科研就是拼一个idea,然后把这个idea实现出来再写paper就算大功告成了。但实际上对于一个课题来说,最重要的是要把它的story说的很清楚很有吸引力,而这所看重的其实是表达能力和这个课题本身的完整性。具体来说,可能一个问题的idea用1-2页纸就能够表达清楚。但是因为这个idea背后需要一些逻辑和概念,支撑这些逻辑和概念又需要一些实验,这就自然而然扩充了整篇paper的内容量,而且会使得最终新的idea的内容可能只占整篇paper的很小一部分。

看重完整性会使得一个课题需要不断的扩充,最终使得内容涵盖一个领域的方方面面,因此其实每一个课题对应到我们身上就是对一个领域的全面而细致的了解,这也一定程度上解释了为什么看起来好理解又很小的三个点,其背后对应的是一个博士生4-6年的博士生涯,因为其背后的整个领域相关的内容都是支撑一个idea所必需的。所以对于统计系来说,如果是做理论,那么一个课题背后的证明做个一两年根本就不是事,这其中可能光看懂其他文章的证明就已经很费功夫了。如果是做应用,那么最终对于所成型的实验代码的要求其实不亚于一个小的开源软件。

所以对于读博,我自己感觉相比较关注自己会解决什么问题,其实可以更多关注解决这个问题的过程中需要额外多涉及什么样的知识。对于应用的课题来说,实验过程中所遇到的可能的bugs还有编程所遇到的一些速度和空间的分配问题等等,都可以是以后用上,或者放在paper里的东西。而对于理论的课题来说,即使一个证明没有办法被直接应用到这一个课题中,了解这个证明和其背后的intuition也会对之后做其他的理论课题有很大的帮助。当然了,因为每一个课题都是非常漫长的旅程,所以还需要很有耐心,所以太主动和不主动都不是好事,太主动的话往往很容易没有耐心,不主动的话可能导师会很容易没有耐心(大雾)。

图片

University of Vanderbilt, Nashville, TN

4. 基础知识虽然不会直接影响课题进度,但有可能会卡你脖子

虽然在科研中,快速学习的能力非常重要,但是实际上一个领域背后的基础知识同样是不能够忽略的。一般来说快速学习往往针对的不是特别重要的内容,例如我们并不需要知道临床数据中怎么判断高血压和低血压,但我们需要知道某个数代表血压。而对于一个大领域的基础知识,如果不掌握的话其实会间接影响对于一个问题的解决进度,同时会直接影响课题的拓展和延伸。就像如果你根本不知道概率论里的变量代换,你就不可能知道怎么利用变量代换来建立样本分布,自然也就不可能搞清楚一个实验的数据是如何采样的。那么这样的话虽然可能已经有了现成的代码可以复用,却没有办法针对自己的paper需求做出对应的修改,这就相当于被“卡脖子了”。

不过究竟什么叫基础知识,其实每个人想法都不同,所以还是那句话,问问导师怎么想,看看导师给你推荐了什么书,要你去follow哪些经典的论文。就像如果我们要做统计中的优化问题(例如LASSO),那么统计推断和凸优化最优化自然是需要知道的,虽然不需要知道具体的每一个凸优化的方法究竟怎么做,但至少需要知道我们需要看凸优化,以及未来可能需要哪些方面的知识。一般来说,当我们把导师所布置的阅读任务完成,并且通过了他的检验,基本上就算是补齐了“基础知识”了。一般来说一开始需要补的基础知识不会特别多,因为导师会希望我们尽快开始一个课题。但这是在假设我们已经有了一些基础的情况下。比方说如果你不是数学系出身,却需要去看高等概率论,那所需要的时间相比较科班来说,就自然要多很多了。所以很多时候如果一开始的基础知识补充就感到很有压力,那么有可能说明研究方向的壁垒很高,那么这个时候就得权衡一下是否自己要多花点时间先看看书,再考虑科研了。

图片

Hattie B's, Nashville, TN

5. 读论文可快可慢,但不要快的太多

阅读论文就和公司里面阅读内部的doc一样,是科研的必修课。有的人读的快有的人读的慢,这都很正常。一般来说读论文一开始都会读的比较慢,然后随着经验增多会读的越来越快。但其实放细一点来说,有了经验之后读的很快其实不一定是一件好事,因为这个“经验”本身不一定是这个领域所认可的经验。这样的例子也是数不胜数,比方说经常出现一个同样的符号在两篇paper里代表两种不同的含义的情况,这样的话如果看完了第一篇,就很容易把第二篇理解成第一篇paper的含义,这样就会偏离作者所希望表达的意思。

所以一般来说我老板会推荐对经典的新paper的内容都慢读,精读,然后做一些必要的标记,用一个新的notes把论文里的各种细节都总结好,表达出来,并放上对应的参考文献。一方面这样做的话,至少一个领域的奠基性的内容我们都能够清楚明白,另一方面,我们可以从这些paper中了解到一些我们可能可以用到的东西作为拓展延伸(但这一般是课题有了雏形之后),并找到其对应的参考文献。

写到这里我想到之前问过系里的老师如何做research的建议,老师给的建议非常直接:精读100篇论文,主要参考经典论文的参考文献和参考它的文献。虽然实际上做一个课题不可能真的需要精读那么多,但是这其实说明了精读论文在研究初期的重要性。通过这种方式往往一开始会对一个完全没有概念的内容建立一个基本的框架,然后在这个框架下自然就会慢慢知道有哪些东西是已经自己了解过的,而有哪些东西是没有了解的。这也一定程度上凸显了论文完整性的重要性。如果一篇论文足够完整,那么其实读者阅读这一篇论文就已经足够建立起这样的框架,那么自然也会被人所欣赏,也会得到更多的引用。

另外其实还有一个很小的建议,也不一定适用于所有人,就是多留心书和论文中所提到的各种新名词和概念。这主要是为了交流和讨论的方便,因为如果某一个领域有一些术语你不知道,导师一方面不清楚你真正想表达的是什么意思,另一方面也很有可能会认为你的基础知识其实不够达标。所以说好记性不如烂笔头,这也是为什么我每一次都会把我认为迷惑的新名词都记下来,然后去反复看导师之前推荐过的一些书,这样时间长了之后,对于一个领域的各个名词和含义都有了很好的了解,也就自然很容易理解到论文所想表达的意思,达到事半功倍的效果。

图片

East Central Illinois Archery Club, Champaign, IL

6. 时常更新自己的进度

一般来说和导师都会有一个计划好的时间的meeting,这个meeting往往会由我们更新自己的东西,由导师来给出建议或者做后续的安排和延伸。但是实际上,很多导师和学生的交流都是随时产生的,大到对于整个课题的理解可能有误,小到一个图如何scale才更好看。因此确认自己每一周要做的事情,然后去随时向导师更新自己的进度,一方面可以展现出自己的motivation,另一方面也可以随时让导师更新自己的安排。

一个比较残酷的现实是,无论你和导师合作有多么愉快,导师有多么认可你,课题本身如果不够格,质量不过关,就只能延长毕业时间。这一定程度上也说明了时常更新的重要性,因为一方面,很多时候导师可能不一定在很长一段时间内都保持相同的想法,另一方面我们自己也不一定真的完全理解了导师的意思。如果我们只是闷头干活,那么很有可能出现一个问题做了很久,结果发现做的根本不是导师所关心的问题的情况。这种情况虽然好的导师会认可你的努力,但其实对于最终博士论文的进度是没有任何增益的。

所以总结下来,我觉得这一点建议的目的和之前差不多,也是为了保证自己所做的每一件事都是正确有效的,而不是费无用功。

图片

Art Institute of Chicago, Chicago, IL

7. 读者提问:如何才算达到博士毕业的要求?

什么才叫博士毕业其实每个学校有每个学校的要求。在我们这里的话一般来说导师会提供一个大的蓝图,然后根据蓝图和每一个项目的进度来决定下一个项目。在我们系一般来说是三个大的项目,一个项目对应博士论文中的1-2个章节。总体来说这三个大的项目都完成,通过导师的认可,就可以安排博士答辩了。

一般来说三个项目全部做完总共花费的时间大约是3-5年,但是很多人其实不会那么快毕业,在我们系如果考虑硕士的2年,一般平均毕业时长在5-6年的居多。除去个人原因以外,还有一个可能是硕士期间(或者说是博士的第一,二年)所做的RA工作并不能够当作博士论文的一部分。这个情况还挺常见,比方说可能做的工作本身就是一些相对不是那么有创新性的内容,或者为了拿到博士生所对应的奖学金而需要做一些杂活。但反过来说如果从一而终,每一个课题都能够被用来作为博士论文的一部分,那么自然毕业也就更快了。

不过用我老板的话来说,对于希望去学术界发展的人来说,毕业时间多长其实并不是一个特别重要的因素,即使一个工作做了非常长的时间,这个过程中学习和了解到的东西,甚至是走的弯路,都会是以后发展的财富。

图片

Carnegie Mellon Museum, Pittsburgh, PA

我们这一篇文章就到此为止啦。抱歉因为个人原因一直没有更新有关的内容,这一篇文章也是趁着休假期间赶制出来的(甚至懒得排版了)。希望对大家有所帮助!

图片

School of Public Health, Ann Arbor, MI

“整理不易,三连

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多