3次申请自科基金的经历和感慨

昵称22473147 2017-10-13

展开全文

随着8月17日评审结果发榜，今年国家自科基金的轮回又结束了，自我2014年入所以来，先后申请过三次，今年终于中了，细细回想这三次申请历程，尤其今年这次，无论在梳理思路、提炼问题、筹备撰写还是加工润色上，我都自认为做得很多工作（当然结果也不错），不总结一下殊为可惜，而且距离下一次自科申请还有三、四年时间，我相信现在不总结，到时候会忘得一干二净。

2014年

直接把博士毕业论文按照自科的格式改了下就扔出去了，那时候对自科基金完全没有概念，目的就是了解下自科的流程。这一年所里人品爆发，一举拿下五项本学科自科基金，虽然低于龙头老大武汉大学（七项）但已是前所未有的高度，尤其是我们团队小伙伴，入职第一年就有如此亮眼表现，着实对我触动很大，让我真真切切意识到只要踏实耕耘、精心准备，自科基金是有可能拿到的。

2015年

没有好idea，放弃申请。

2016年

2015年中间，开始知道知识图谱（KnowledgeGraph）这个东西，当时之所以感觉这东西重要，主要源自X兄极力推崇，X兄是我前同事，极其钻研的一个人，学术方向和我一个路数但学术水平高出我一个层次，是我崇拜的偶像，像他这种技术、工程、经验、insight兼具的人用了都说好，那知识图谱想必前途无量了，15年底我参加了CCF（中国计算机学会）举办的知识图谱前沿研讨会，会后遂将知识图谱和专利分析结合点作为自己16年自科申请的题目。

当时选这样一个点还有一个背景，就是已经搞了将近1年的主题模型在专利分析上的应用，期间虽然把概率图模型课程过了一遍，把一干常见主题模型如LDA、Labeled LDA、Author-Topic Model、Hierarchical LDA、Turbo Topic、Topic N-gram等从原理到推导到实现再到专利分析应用都过了一遍，无奈主题模型的分析粒度太粗，模型效果不好，后来自己又提了两个主题模型，可能比之前强点（之所以说可能，是因为验证数据集一个是量小，几千级别的专利数据，一个是技术领域单一，主要在硬盘磁头领域）但距离眼前一亮依然遥遥无期，然后我意识到想让主题模型和专利实际应用，如专利布局、侵权判定搭得上线，其实中间还缺着很大一块，甚至可以说当初想让主题模型和专利实际应用搭线并让知识产权企业趋之若鹜，这个想法就是不成熟的，主题模型启示了生成模型的建模思路是可以在语料库上产生实际效果的，它所产生的粗粒度的潜在语义表示，可以用来做一些事情比如分类、索引、推荐、标注、自动摘要和术语识别，但在专利分析这种拿分析结果的精准程度来体现价值的行当，这些还远远不够。So，既然主题模型给不了我想要的东西，那么我就得换个方向了。

基本想法有了未必说明申请书思路顺了，事实上情况恰恰相反，从16年1月份开始边学边想写本子到3月份提交，整个过程问题很多：

首先，KnowledgeGraph的来龙去脉我不知道，它和语义网、本体的关系如何，对比优势有哪些，当前行业中Knowledge Graph的主要标准和实现框架、开源工具都有哪些？

其次，KnowledgeGraph应用到专利文本上，现在有哪些研究成果，优势不足各是什么？难以解决的困难在哪里？你的方案是什么？能产生什么样的效果？这些效果解决应用上的什么问题？

最后，你打算怎样实现你的方案，实现完了要不要选择一个专利分析实际应用场景来展示下方案效果？怎样展示和验证方案效果？

经过两个多月的打磨或者折磨后本子终于提交了，坦白说写完后我是很心虚的，真正完完整整经历一次自科申请，才意识到这东西属于典型的厚积薄发，前期积累占大头，层次水平上不了境界，本子里的话你是说不到点上的；反观我的本子，从前期调研、研究基础、理论深度到方案实现都不扎实，而我也把自己最大的问题：“从未上过专利分析一线，不知道技术方案能否解决客户需求”暴露的彻彻底底。但当时我还抱着一线期望：如果大家整体水平都不好，没准我还有机会呢？

有希望就有失望，8月17日评审结果发布，还是有种当头一棒的感觉，8月22日五份评审意见下来，感触良多：

绝大多数评委抓点很准，点出的问题果然从前期调研绵延到方法实现，基本上都在我担心的范围之内，以为大家整体水平不好所以我的问题就不再是问题的想法理所当然破灭了；

对个别意见不太认同，比如有评委认为知识图谱应该是大连理工大学刘泽渊老师团队所研究的Mapping Knowledge Domain，我现在弄的Knowledge Graph从名称到内容都跟前者不搭边，属于对知识图谱理解不足，硬伤，其实对这两种知识图谱的区别我在申请书一上来就明确进行了界定，不过还是没起到作用；

有的评审意见说话还很难听，诸如“申请者创新思维一般”，直接说申请者笨蛋一个得了呗。

所以我说，刚拿到评审意见书时可谓百感交集，不屑、屈辱、莫名其妙各种感触纷至沓来。

2016年失败对我的打击相当沉重，实际上从当初写申请书时的吃力程度，我就明显意识到自己在这方面内功不足，如果想在知识图谱和专利分析的交叉点上申请到自科项目，我必须花费更多的时间去潜心修炼和积累家当。当然我也可以重新把主题模型捡起来，拿它和专利分析的结合当抓手来申请项目，但一旦这样做就彻底和个人研究兴趣无关、完全冲着基金能上的目的去了，我的想法是基金可以不中但知识图谱一定要做，所以就拿出上一年的本子和评审意见，重新梳理起该领域的知识结构和研究发展脉络，对里面拿不准、想不清的地方，查文献、收集数据、写代码、做实验一一验证，虽然这段时间做的活工程多学术少，但由于发文章经历的各种曲折，比如去年投的期刊文章今年见刊了、去年投的会议文章因为注册费晚交被挪到今年发表了等等，最后算下来2016年居然还是最高产一年，洋洋洒洒产出了8篇文章。

前期积累和思路梳理一旦差不多了，自科本子会好写很多，但也只是相对而言，问题还是很多：

首先，专利分析和KnowledgeGraph在哪个点上结合、怎样结合才是创新而不是堆积？怎样表述得让外行觉得明白，让内行觉得深刻？怎样打动评委，让他觉得你的研究必须得做、十万火急？

假设你已经在项目动机上说服评委了，下面说下研究思路？自然基金项目不是搞工程，你的科学问题是？创新点在？核心模型是？是否高大上（俗称NB）？证明下你能hold得住这个NB模型而不是吹NB？

假设评委已经完全相信你能hold住这个模型了，你的实现方案是？能否支撑起一个科学探索项目应用的厚度？还有就是最困难的一点，你是否善于做思维实验？（什么意思？项目申请书是在做事之前，要求你把实验方案、过程、可能碰到的困难以及应对方案写出来，是真正的科学幻想创作，你要在写方案过程中传递四个信息给评委，第一你有足够的学术能力和技术实力完成这个项目，第二你已经对要做的事进行了积极、全面、深入的思考，第三你的方案不是玄学或虚假广告，第四你还留了一部分东西没想清楚，但under control，亟需得到各位评委的支持，好让你继续研究）

我的本子里，核心模型出自概率图模型，这个不搞清楚本子是没法写的，于是去年11月到12月两个月期间，用业余时间（正好这段时间经常失眠，一觉醒来以为早上6点了，一看表才刚过1点）重新过了一遍COURSERA上的概率图模型课程（之前已经过了N遍了，不过这门课程比较艰深，常学常新），还把课后作业、结课考试全通了一遍混了几个结业证书，12月底动笔重写申请书，今年3月份最终版提交，整个时间非常紧张以至于进入三月份后不得不熬通宵修改本子。

经常在小木虫论坛或者自科申请微信群里见到有人说我的某某师姐师哥（或者直接是“我”），满打满算申请书也就写了两个星期，结果就中了，得意洋洋之情溢于言表，我觉得这事作为传说听听算了，我是没这本事，如果谁明年申请自科青年找我问经验，我的建议是前期积累不算，你至少要安排出三个月的时间打磨本子，以我为例，12月份到2月份春节前，对照着去年评审意见写完第一版本子，然后找单位专家过一遍；对照专家意见修改完毕，拿着第二版本子找中过基金的同学、单位领导和学术会议上认识的牛人，请他们过目，同时自己也别闲着，找一些自科基金申请书范例和与你题目相关的自科结题书（基金网站上有），打印出来学一下，第二版本子意见出来后邀请各位专家面谈然后修改完成第三版本子；临近提交时留出三、四天时间，再对照着去年的评审意见书过一遍。

这时候回想起来，往年的评审意见书真真是一笔财富，尤其当你觉得申请书已经写到费死扒活也没法提高的时候，它会告诉你进步的方向。虽然当初刚申请失败时看评审意见书可谓百感交集，不屑、屈辱、莫名其妙各种感触纷至沓来，但今年本子越写到后面越觉得评审意见书切中肯綮、一针见血，临提交时简直字字如金了。

拿着2017年本子和2016年的对比一下，完全是两个东西，虽然2017的本子也有问题，但这些问题的根源在于还没做的事(虽然有一些基础)，你再怎么写都写不出做过的感觉，这本身就是申请书本身的一大特色，但2016本子直接就不堪入目了。

最后，想说两点：

第一，一直以来情报学的年轻研究者中有种声音，说只要技术强这情报专业的自科基金不是随便拿么？听得多了我都信以为真了，直到2016年底和东南大学漆桂林教授的一番谈话，彻底颠覆了我这种想法，当时是在我所咖啡厅偶遇，我赶忙上去打招呼，得知漆教授有时间，我连忙上去发问：“我想在专利分析和知识图谱结合点上申请个项目，现在的想法是知识图谱的自动生成，当前现状是实体抽取效果还可以，F1能达到88%左右，但关系抽取效果很差，F1值40%左右，最终生成的知识图谱完全不能用，所以想来想去，打算以专利实体关系抽取作为研究点申请自科。”

漆：“研究点太大了，更具体点？”

我：“现在专利关系抽取存在的一个问题是，标引数据不好找，有人提出一种远程监督方法，利用知识图谱生成标引数据，我也打算这么做一下。”

漆：“继续。”

我：“他们之前提出的假设是，如果两个实体同时出现在语料库的若干句子中，而且这两个实体在知识图谱中是有语义关联关系的，那么语料库中这若干句子中，至少有一个句子表达了知识图谱中这种语义关联关系，我想对这个假设做一个改良，毕竟这个假设太强了。”

漆：“可以改良没错，不过这块有人做过了。”

我：“现在的大规模知识图谱都是机器自动生成的，但这就有一个问题，自动生成的知识图谱中必然存在错误或者相互矛盾的地方，拿着这样的知识图谱来生成标引数据，效果肯定不好，所以可以考虑提出一个具有容错能力的远程监督方法，无论知识图谱是否包含噪音，都可以使用。”

漆：“这个也有人做过了。”

。。。被否。。。被否。。。被否。。。

我：“那如果我先从语料库中抽取实体，用********做一个框架，然后把*********整合一下，最后形成一种新的远程监督方法怎么样？”

漆：“这个不错，你下来再好好想想。”

短短不到10分钟的谈话结束后，除了惊叹教授广博的知识面和强大的秒懂能力，我最大的感触是，情报学的自科基金，往大了说信息管理专业的自科基金，显然不是说你一个懂技术的人可以随便拿的，以我为例，首先，关系抽取领域别人都做过什么你门清不，这都不了解，你费死扒活做出的东西很可能是别人早完成了而且做的比你好的，你可能还不服气，说这块纯技术的事虽然有人做了，但在专利分析领域的应用为零啊，没用，如果仅是一项技术在新领域的简单套用，你提不出有价值的科学问题和创新点，显然自科基金不会支持你的，那不简单套用呢？你得先明白问题出在哪儿才能根据领域特点搞方法改良吧，你不得关系抽取和专利分析兼通？想做到这一点，你至少得浸淫个一两年把理论、方法、实现、实证、复盘、问题定位弄几个来回吧？懂技术自科基金随便拿？还差得很远。

第二，写申请书跟踢足球打比赛似的，不是说你拿着研究基础、论文成果、创新点等一干武器来打几个冲锋、进几个球就拿下基金了，还需要做好防守，什么意思？还是拿自己举个例子，去年申请自科题目上直接写“基于知识图谱的专利内容表示方法研究”，但知识图谱这个词在情报学和人工智能上的定义是截然不同的，它是一个在学科交叉地带有争议的术语，我这么写题目相当于直接把要害暴露出去了，这个题目误导了有些不熟悉该领域的评审专家，让他们认为是自己的地盘，那么我收到莫名其妙的审核意见也就再正常不过了。

【后记】

这只是自己申请自科基金的一点经历和感慨，限于眼界、知识、经历有限，有些观点也不一定正确，把这些东西写出来，一是给自己这段经历留下一点痕迹，二是供后来者参考，三是供各位前辈、同仁批评指正。