编者按 今天,我们已跨入“大数据”时代,数据的价值蕴含在“数”里行间,让数据说话,将成为人们的“习惯”做法。上海科学院和上海产业技术研究院基于自主开发的“科技发展动态分析平台”,聚焦制造、信息、能源和健康四大领域,应用大数据技术在互联网上收集相关数据信息,对产业技术发展动态进行跟踪和分析。 一、 研究工作概述 1、基本思路 基于平台“热词分析”功能,以一千五百多万条舆情数据为基础,通过数据挖掘与分析,及时发现捕捉热点,对领域技术变化发展做出研判。热词分析就是对舆情数据源进行分词,精准的分词是热词分析的基础;通过关键词提取、词关联计算,再综合考虑信息的转发量、浏览量和评论量等各种因素得到领域技术热词列表,来研判领域技术发展态势。 2、 健康领域范围界定 由五个一级关键词界定涉及范围,它们分别是:健康医疗、 数字健康、基因检测、生物医学和转化医学等。 二、数据信息汇总 1、热词列表 统计数据的时间点为五个(2017年1月1日、2017年7月1日、2018年1月1日、2018年7月1日和2019年1月1日),总时间跨度为二年。在此设定:人们的关注点与热词排序对应,热词排序越高、则人们关注度也越高。本表汇总了TOP2000的热词,作为研究分析基础数据。 2、领域技术发展态势 对于领域发展态势描述,需要由相应时间点上的关键词来标注,在此以特定领域热词为关键词。为定量反映领域技术发展态势,以上述列表为依据,逐个分析有效热词(删除无关词),以2017年1月1日为基准点,标注出相应排序变化;各TOP-X榜单反映领域大小不同覆盖面,因而可选取不同权重值来表述。此案例分析围绕TOP20领域热词列表展开。 3、 领域内若干关注点 热词列表内涵丰富信息,类别种类繁多、无效数据不少,作为数据清洗方法,根据分析研究者需要,对TOP300领域热词列表进行取舍梳理,汇总得如下若干关注点列表。 三、 结果分析与情况说明 1、结果分析 我国健康领域技术发展态势 基于Top20领域热词列表,根据前面提出算法原则,设定不同权重值,计算得到我国健康领域技术发展态势图:2017-2018年间前六位热词排序不变,总体发展态势呈现平稳变化。 领域内若干关注点 基于若干关注点列表,具有代表性的关注点呈现三种情景:上升、持平和下降。值得重视是排序上升的关注点:医学工程、材料、体检、视频、耳聋和干细胞等,特别是疫苗的排序上升最大;在城市关注点方面,北京、南京等排序上升,其中香港的排序上升最大,而上海、成都等排序则下降。 2、情况说明 基准点:上海科学院/上海产业技术研究院“科技发展动态分析平台”是2016年初投入试运行,较为完整采集互联网数据信息从2016年下半年起。所以,本项研究工作以2016年底为基准时点。 本研究局限性:就数据来源而言,本研究仅仅是社会舆情的分析,是众多分析维度中的一种。结合其他专业数据源,可构成综合型技术分析指数,也是我们今后努力的方向。 (责任编辑:沈跃栋) 作者简介 |
|
来自: Tomsp360lib > 《医学》