配色: 字号:
Splunk学术发展分析报告 Analysis on Splunk of Academic Development
2017-08-11 | 阅:  转:  |  分享 
  
1

Splunk学术发展分析报告AnalysisonSplunkofAcademicDevelopment方建勇1(余姚,浙江315400)摘要:Splunk公司成立于2004年,2012年在纳斯达克上市,是大数据时代专注于机器日志的数据分析公司,重点发力数据安全和异常监控领域,友好的可视化界面设计为大数据处理降低了以前只有专业工程师才能介入的门槛。通过Splunk大数据分析软件,管理人员可以通过简洁明了的可视化显示结果,对大数据分析结果进行快速解读,并可以据此作出实际管理上的适当反应,为企业级的数据安全和异常处理提供了良好的指引。关键词:

Splunk大数据可视化数据安全异常发现机器日志Abstract:Splunkwasfoundedin2004andlistedontheNasdaqin2012.Itisadataanalysiscompanyfocusedonthemachinelogintheeraoflargedata,focusingonthefieldofdatasecurityandabnormalmonitoring,andthefriendlyvisualinterfacedesignforlargedataprocessingPreviouslyonlyprofessionalengineerscaninterveneinthethreshold.WithSplunk''slargedataanalysissoftware,managerscanquicklyinterprettheresultsoflargedataanalysisthroughaconcise,visualdisplayoftheresults,andcanreactappropriatelytotheactualmanagement,providingenterprise-classdatasecurityandexceptionhandlingGoodguidance.Keywords:

Splunk;Largedata;Visualization;Datasecurity;Anomalydiscovery;MachinelogSplunk公司成立于2004年,2012年在纳斯达克上市,是大数据时代专注于机器日志的数据分析公司,重点发力数据安全和异常监控领域,友好的可视化界面设计为大数据处理降低了以前只有专业工程师才能介入的门槛。通过Splunk大数据分析软件,管理人员可以通过简洁明了的可视化显示结果,对大数据分析结果进行快速解读,并可以据此作出实际管理上的适当反应,为企业级的数据安

1方建勇,男,1978年-,中国工业与应用数学学会会员,中国物流学会会员,资深IT项目经理,资深IT工程师,资深DBA(大型数据库管理员),浙江大学历史系硕士研究生学历,浙江大学数学与应用数学专业本科毕业,理学学士学位。

2

全和异常处理提供了良好的指引。一、Splunk学术发展趋势超星发现系统收录的Splunk历年发表的外文学术成果,总量为1587篇,其中包括图书10册、期刊915篇、学位论文5篇、会议论文11篇、专利640项、科技成果5篇、信息资讯1篇。按发表的时间段来看,2017年48篇2、2016年207篇、2015年347篇、2014年342篇、2013年295篇、2012年155篇、2011年53篇、2010年16篇、2000-2009年94篇、1990-1999年1篇、1989年以前29篇。美国Splunk公司成立于2004年,那我们重点关注2004年以后的统计数字,依次为基准,关于Splunk最早的

期刊论文是2005年发布6篇,随后每年都有期刊论文发表,但是数量维持在每年30篇以下,2012年达到92篇,2013年达到单年峰值的192篇,随后每年发表的期刊论文一直维持在130篇以上,2017年截至发稿时发表的单年期刊论文已经达到182篇,按照这个趋势,应该会超过2013年峰值的192篇;2006年开始有专利申请,当年3项,2007年12项,2008年、2009年、2010年申请的专利数量都为0,估计与2008年全球经济危机有关系,到了2010年,申请的专利数量为20项,随后数量逐年上升,2015年达到单年峰值的214项,2016年64项,2017年截至发稿时为48项,有所减少。

2为方便起见,这里单位统一为篇。

Splunk-各类型学术发展趋势曲线序号年份图书(数量)期刊(数量)学位学术成果(数量)会议学术成果(数量)专利(数量)科技成果(数量)1199401000021995000000319960000004199700000051998000000619990000007200000002082001000000

3

二、Splunk学术成果统计31、关键词关键词涉及searchengines(44)、awards&honors(2)、computerindustry(2)、productintroduction(2)、newproducts(2)、it(2)、IBm(2)、google(2)、Microsoft(2)、security(2)、morelikethis(1)、websites(1)、congresses&conventions(1)、bookreviews(1)、corporateprofiles(1)、europeanunion(1)、businessgrowth(1)、children''sliterature(1)、computersystems(1)、computerperipherals(1)、computersoftwareindustry(1)、computerinput-outputequipment(1)、electronicsystems(1)、energyindustry(1)、medicalequipment(1)、vendors(1)、fordmotorco.(1)、technological

planning(1)、salesmanagement(1)、electronicinformationresources(1)、MATLAB(1)、computercenters(1)、NETWORK(1)、apache(1)、ebaY(1)、Instruments(1)、AUTOMATION(1)、CSA(1)、information(1)、APPLE(1)、mit(1)等,最多的关键词searchengines也仅出现4次,大多是出现2次与1次的关键词,说明有关Splunk研究的集中度不高。

3数据来源于超星发现系统。4括号内数字为出现频次,下同。

920020000001020030000001120040000001220050600001320060210030142007090012015200822100001620090180000172010114010018201103201200192012092016112020135192009802120140189141480

2220150130032140232016114010640242017018200480

4

图1Splunk关键词频次泡型图2、学科、作者、机构和刊种分布学科分布依次为Technology(17)、Socialsciences(4)、Science(2)、others(844)等,最多的学科分布在Technology,出现17次,最多集中在2次或1次频率的学科,学科集中度也较分散。发表作者依次为John.(1)、Bunge,Jacob(1)、ElisaBertino(1)、Ovide,Shira(1)、BenWorthen(1)、Yi-MingChen(1)、Hassan,AE(1)、TarekEl-Ghazawi(1)等,都只有1篇在手,作者的集中度也是分散的。

作者所在的机构依次为NewMexico(3)、SandiaNationalLaboratories(3)、GeorgetownUniversity(1)、DartmouthUniversity(1)、DartmouthCollege(1)等,最多的机构NewMexico和SandiaNationalLaboratories都为出现3次,与作者的分散性是一致的。发表的刊物分布依次为BusinessWire(English)(351)、PRNewswireUS(110)、InvestorsBusinessDaily(96)、NetworkWorld(21)、eWeek(17)、WirelessNews(16)、FairDisclosureWire(QuarterlyEarningsReports)(16)、WallStreetJournal(Eastern

5

Edition)(15)、Forbes.com(9)、CIO:Chiefinformationofficer(7)、InfoWorld(7)、ComputerWeeklyNews(7)、InternationalBusinessTimes(6)、TheJournalofAllergyandClinicalImmunology:InPractice(5)、InformationWeek(4)、M2PressWIRE(4)、ComputerWeekly(3)、NetworkComputing(3)、ProductivitySoftware(2)、ComputerSecurityUpdate(2)、RevueFrancaised''OrnithologieScintifiqueetPratique(2)、PRNewswire(2)、Baseline(2)、PhysicalReviewSpecialTopics:AcceleratorsandBeams(2)、AmericanBanker(2)、WindowsITPro(2)、Hill(2)、TheNewYorkTimes(2)、Australian,The(2)、ScholasticParentandChild(1)、HornBookMagazine(1)、IntheBlack(1)等,排名前三的刊物BusinessWire(English)(351)、PRNewswireUS(110)、InvestorsBusinessDaily(96)占了35.1%,相对来说很集中。三、参考文献

[1]超星发现系统[EB/OL].http://www.chaoxing.com/[2]美国知识产权局[EB/OL].https://www.uspto.gov/四、附录Splunk公司专利序号专利号标题19,715,329提供服务的云网络29,699,205网络安全系统39,667,641计算机网络数据的复杂事件处理

49,667,640根据在查询处理系统中从搜索结果获取的信息自动生成警报59,660,930动态数据服务器节点69,648,037使用访问模式和域名注册的安全威胁检测79,646,398最小化模糊操作,为图像创建模糊效果89,645,975通用数据中实数的近似订单统计99,614,736使用从机器数据派生的关键性能指标,沿着基于时间的图形通道定义图形可视化109,609,011具有可选择的交互视图的界面,用于评估潜在的网络妥协119,609,009用户/用户实体行为分析的网络安全威胁检测

129,607,414三维点对多边形操作,以方便显示三维结构

6

139,596,254机床数据处理平台数据采集阶段的小型图捕获捕获网络数据的触发器149,596,253159,596,252使用事件组摘要识别可能的安全威胁169,596,146将从机器数据导出的关键性能指标映射到仪表板模板179,594,828对非结构化数据的文本记录执行结构化查询时间序列搜索主要和次要记忆199,594,545用于显示组件实例之间的通知依赖关系的系统209,591,010双路径分布式架构,用于网络安全分析219,590,877服务监控界面

229,589,012应用于对象查询的数据模型生成239,584,374使用从机器数据导出的聚合关键性能指标监控整体服务级别性能249,582,585发现字段以过滤响应搜索返回的数据259,582,557用过程选择进行规则创建的抽样事件269,521,047具有每个实体状态的机器数据导出的关键性能指标279,516,053用户/用户实体行为分析的网络安全威胁检测289,516,052网络安全调查事件的时间线显示299,516,046分析从机器数据事件中提取的一组相对于这些值的人口统计量的值309,516,029根据用户角色搜索索引数据

319,514,189处理包括外部数据源的系统搜索请求329,514,175标准化事件数据的时间戳339,514,021移动应用性能测量系统349,509,765来自多个搜索对等体的消息的异步处理359,497,199存储在云数据存储中的事件数据的访问控制369,495,187从虚拟机管理程序环境的架构和性能的自上而下的介绍379,491,059IT服务拓扑导航仪389,471,362将虚拟机的虚拟机管理程序数据与关联的操作系统数据相关联399,442,981使用图形用户界面预览解析的原始数据

409,442,789识别机床数据的异常情况419,437,022基于时间的可视化场景的各种值的事件数429,432,396使用域名注册的安全威胁检测

7

439,430,574显示事件字段的许多唯一值449,430,488文件更新跟踪459,426,172使用域名访问的安全威胁检测469,426,045具有严重性状态排序的主动监视树479,419,870具有状态分配环的主动监视树489,417,774具有节点固定用于并发节点比较的主动监视树499,384,261自动创建用于识别机器数据中的事件边界的规则509,363,149网络安全调查的管理控制台519,361,357使用字段和关键字标准搜索从机器数据导出的事件

529,356,934存储索引数据的数据量缩放539,355,006测量在移动设备上运行的应用程序的用户满意度549,323,557在一段时间内基于相关子组件的性能状态确定虚拟机环境中父组件的性能状态559,317,582识别与机床数据相匹配的与机床数据特定部分匹配的事件569,298,805使用提取来搜索从机器数据导出的事件579,294,361使用关键性能指标(KPI)相关搜索来监控服务级别的性能589,292,590根据第一个事件的提取部分识别从机器数据导出的事件599,286,413使用从机器数据派生的关键性能指标来呈现服务监控仪表板

609,280,594从不同来源的机器数据导出的事件的统一存储和搜索619,276,946将安全相关事件列入黑名单629,275,338机器数据事件模式的预测分析639,256,501高可用性调度程序,用于调度map-reduce搜索649,251,221根据搜索查询结果为对象分配分数659,248,068新注册域名的安全威胁检测669,245,057使用从机器数据派生的关键性能指标,沿着基于时间的图形通道呈现图形可视化679,245,039跨多个搜索会话的事件记录跟踪

689,229,985使用动态指针绑定特征的中央注册表699,225,724弹性资源缩放709,215,240从大数据中的事件调查和动态检测潜在的安全威胁指标

8

719,210,056业务监控接口729,208,463从机床数据得出的主要性能指标的阈值739,208,206选择基于数据分析的解析规则749,208,000根据应用事件计算计算机应用的质量指标759,185,007具有严重性状态排序的主动监控树769,177,002使用分布式索引器系统中的中间结果报告加速度,用于搜索事件779,173,801基于访问新注册域的指示,图形显示安全威胁789,164,786根据一段时间内相关子组件的性能状态确定虚拟机环境中父组件的性能状态799,160,798高可用性和灾难恢复的集群

809,158,811事件审查界面819,152,929实时显示所选正则表达式的统计信息和值829,152,682作为一系列命令对表中的列进行跟踪元数据在表上运行839,146,962使用信息字段识别事件849,146,954从搜索结果集创建实体定义859,142,049主动监控树提供分支叠加的分布流图869,130??,971基于站点的搜索关联879,130??,860使用从机床数据导出的关键性能指标监控服务级别性能889,130??,832从文件创建实体定义

899,129,041更新有助于评估定性搜索词的上下文的技术909,129,028事件字段分布式搜索显示919,128,995使用从机器数据派生的关键性能指标,沿着基于时间的图形通道定义图形可视化929,128,985补充高性能分析商店,评估各种事件以响应事件查询939,128,980应用于查询的数据模型生成949,128,916机床数据网959,128,779用于检索补充工作信息的分布式任务969,124,612多站点聚类

979,122,746对非结构化数据执行结构化查询989,087,090促进包含定性搜索术语的概念查询的执行999,055,075项目资源访问控制

9

1009,052,938虚拟机数据和存储性能数据的相关和相关显示1019,047,246高可用性调度程序1029,047,181集群数据的可视化1039,043,717机器数据事件的多通道时间同步可视化1049,043,332集群性能监控1059,037,562数据量的弹性缩放1069,036,979根据名称信息确定媒体内容的位置1079,031,955用于开发用于事件搜索的字段的字段提取规则的事件抽样1089,015,716具有节点固定用于并发节点比较的主动监视树

1099,009,539识别和分组程序运行时错误1109,002,854内插时间戳的时间序列搜索1118,990,637计算和访问计算机应用的质量指标1128,990,245确定和显示为分布式数据存储中的事件定义的字段的唯一值的数量1138,990,184时间序列搜索引擎1148,983,994生成用于搜索机器数据的数据模型1158,978,036从外部来源收集和处理数据的任务的动态调度1168,977,638文件识别管理和跟踪1178,972,992具有状态分配环的主动监视树

1188,943,056机床数据网1198,909,642根据样本事件中的选择自动生成字段提取规则1208,904,389根据相关子组件的性能状态确定虚拟机环境中组件的性能状态1218,874,755为服务提供云网络1228,849,779数据量的弹性缩放1238,826,434基于大数据访问新注册域的指示进行安全威胁检测1248,825,664索引预览1258,806,361机器数据事件的多通道时间同步可视化1268,793,225处理包括外部数据源和混合模式的系统搜索请求

1278,788,526用于语义搜索的机器数据的数据模型1288,788,525用于语义搜索的机器数据的数据模型1298,788,459高可用性和灾难恢复的聚类

10

1308,756,614使用动态指针绑定特征的中央注册表1318,756,593用于表示由动态指针伪造的应用程序功能之间的相互关系的地图生成器1328,756,262通用数据中实数的近似订单统计1338,752,178将安全相关事件列入黑名单1348,751,963正则表达式之前提取的数据字段的实时指示1358,751,529分布式数据的可扩展交互式显示1368,751,499资源限制下的变量代表抽样1378,751,486对非结构化数据执行结构化查询1388,745,109通用数据中实数的近似订单统计

1398,738,629外部结果提供用于检索使用不同配置或协议存储的数据的进程1408,738,587通过从本机索引和虚拟索引检索结果来处理系统搜索请求1418,694,450机床数据网1428,683,467根据相关子组件的性能状态确定虚拟机环境中父组件的性能状态1438,682,930数据量管理1448,682,925分布式高性能分析商店1458,682,906基于手动编辑正则表达式实时显示数据字段值1468,682,886使用中间事件摘要报告加速1478,682,860数据量管理

1488,589,876检测影响动态指针和应用程序功能依赖关系的中心注册表事件1498,589,432实时搜索和报告1508,589,403用于元数据恢复和复制的事件跟踪文件中的压缩日记1518,589,375实时搜索和报告1528,589,321机床数据网1538,589,304控制网络设备之间音量索引的系统和方法1548,583,631流水线搜索语言的元数据跟踪(字段的数据建模)1558,566,336文件识别管理和跟踪1568,548,961快速文件跟踪和更改监控的系统和方法

1578,516,008灵活模式列存储1588,515,963索引预览1598,412,696实时搜索和报告

11

1608,112,425时间序列搜索引擎1617,937,344机床数据网

献花(0)
+1
(本文系方建勇首藏)