二十年来,全球大数据研究经历了一个从起步到活跃的过程。基于大数据相关的4573 篇文献和8571 项专利,对其研究进展、分布和前沿进行分析,可以得出如下结论:1、美国是大数据研究的中心地带,技术创新活跃,国际间合作频繁。2、我国对大数据研究的资助力度较大,学术论文较多,但与国外创新合作较少。3、系统、性能和算法是大数据研究的重点方向和核心基础。4、大数据产业创新不仅聚焦软件技术研发,还在硬件技术上重点布局。 一、大数据研究文献的国别和机构分布 1、美国是大数据研究的中心地带,我国紧随其后。美国是研究者最多的国家,约占总数的34%,中国紧随其后,占23%,美中两国合计占到总数的一半以上。其余的前10 位国家包括:德国、英国、日本、印度、加拿大、法国、澳大利亚和韩国。 2、大数据研究文献发展的“三阶段”特征显著。第一阶段是1994-2001 年,年均文献不超过50 篇,研究文献主要为“美国籍”。第二阶段为2002-2010 年,年均文献超过100 篇,且以年均20%的幅度稳步增长,突出特点是我国文献开始出现,并在2008-2009 年超过了美国。第三阶段为2011-2013 年,研究文献出现爆发式增长,3 年文献共达到2053 篇,占20 年累计总数的44.9%;主要原因是美国文献的再次崛起,3 年内贡献了735 篇,而我国为489 篇。 3、我国政府对大数据研究的资助力度较大。文献数前25 位的研究机构中,美国16 所大学上榜,共发表论文559 篇,占美国文献总数的36.4%。中国则有6 所大学机构上榜,其中中科院发表论文数居世界第一,达到109 篇,之后依次是清华大学、上海交通大学、哈尔滨工业大学、浙江大学和华中科技大学。6 所大学机构共计发表论文244 篇,约占我国大数据文献总数的四分之一。 从资助机构上看,资助5 篇以上的机构一共有36 家,大多为国家基金组织和政府部门。其中,中国国家自然科学基金、美国国家科学基金和国立卫生研究院是三家资助发表文献最多的机构,分别达到122 篇、109 篇和57 篇。而企业更多聚焦专利领域进行布局,仅有谷歌和微软两家公司资助的研究文献超过5 篇。 4、我国大数据研究的质量有待进一步提升。一方面,从合作关系上看,我国的大数据研究与世界联系不多,仅与台湾地区、德国有少量合作,而美国与韩国、澳大利亚、法国、瑞典、瑞士、土耳其等国家保持着密切的合作关系,德国、加拿大、英国之间也有不少合作。另一方面,从文献被引频次来看,研究文献的质量低于美国,美国1537 篇论文平均引用次数达到14.20 次,高引用指数为66,而我国文献的高引用指数仅有20。 二、大数据研究的学科领域分布 1、大数据研究开始渗透进入应用领域。文献涉及的学科领域超过100 个。在排名前15 位的学科领域中(图5),除了数学、物理学等基础学科外,更是出现了微生物学、环境生态学、运筹学与管理科学等应用学科,说明大数据技术已经渗透进入各个基础和应用学科领域。 2、系统、性能和算法是大数据研究的重点方向。从大数据涉及的主要学科领域分布中可以看到,大量文献集中在数据处理的系统、性能和算法上,如数据挖掘、机器学习、主成分分析与分类等方向位于核心层,其次为神经网络、降维运算、数据存储、关联规则、数据集等。 3、核心基础技术文献被大量引用。以谷歌公司的Mapreduce 为例,作为大数据的基础技术,该文献后续被近700 篇论文所引用,切实推动了分布式计算、Hadoop 等热点研究的开展。 三、大数据产业技术创新的重点方向 与学术文献研究不同的是,从企业专利布局角度出发,更有利于分析大数据产业技术创新的重点方向。为此,基于Orbit 专利数据库和VOSviewer 软件,对14 家国际性的IT 企业、互联网企业以及新兴大数据企业自2006 年以来的8571 项专利进行分析: 1、大数据软件技术已趋于体系化。在数据的基本框架、采集传输、存储、处理分析等各个环节上,都有不同于以往抽样、封闭、小规模条件的新技术予以支撑,大数据软件技术体系逐步趋于完整。在此基础上,传统的IT 企业、互联网企业纷纷开发了基于大数据的行业解决方案和商业应用平台,一批新兴大数据企业加快发展并进行商业模式创新,产业创新生态系统所需的各项条件日趋完备。 2、企业在大数据硬件技术上的布局不亚于软件。与学术研究侧重于软件技术不同,企业十分重视相关硬件设备的技术布局。一方面,按照国际专利进行分类,数据处理、存储和相关设备依然是专利较为集中的领域,如大数据专利数量较多的G06F-017、G06F-015、G06F-007、G06F-003、G06F-009、G06F-021 等分类号,均侧重于计算机数据的处理、存储、控制、接口、安全等硬件电路、设备和零部件。另一方面,8571 项专利集聚形成几个较大的专利群,包括采集显示和传输、处理分析、记录存储、数据管理、共享与协作等,其中规模最大的专利群,依然是与采集、显示和传输相关的外围信息硬件设备。 值得一提的是,14 家国际性企业大数据技术专利的一部分贡献来自于其在华分公司。8571 项专利中,公开国为中国的有1757 项,优先权国在中国的有170 项,说明了我国研究人员在大数据领域研究水平的不断提升。 来源:上海科技发展研究中心《科技发展研究》
|
|