配色: 字号:
基于云计算的物联网数据挖掘模型
2013-03-29 | 阅:  转:  |  分享 
  
第2O卷第6期

2012年12月

电脑与信息技术

ComputerandInformationTechnology

Vo1.20No.6

Dce.2012

文章编号:1005—1228(2012)06—0049—04

基于云计算的物联网数据挖掘模型

卜范玉,王鑫。,张清辰

(1.内蒙古财经大学职业学院,内蒙古呼和浩特010051;2.内蒙古农业大学信息与网络中心,内蒙古呼和浩特010018;

3.大连理工大学软件学院,辽宁大连116620)

摘要:物联网中的数据具有数据量大、数据类型复杂、高度动态性与异构性、复杂时空特性等特点,为数据挖掘带来新的

挑战。传统的数据挖掘方法无法直接应用于物联网之中。基于此,提出一种基于云计算的物联网数据挖掘模型,以云计算

作为技术支持平台,在构建面向物联网的分布式时空数据库的基础上,搭建面向物联网海量数据的数据挖掘模型。通过分

析表明该模型能够有效地完成物联网中的数据挖掘任务。

关键词:物联网;云计算;数据挖掘;并行算法

中图分类号:TP391.1文献标识码:A

DataMingModelBasedonCloudComputingintheInternetofThings

BUFan—yu,WANGXin,ZHANGQing—chen。

(1.VocationalCollege,InnerMongoliaUniversityofFinanceandEconomics,Huhhot010051,China;

2.InformationandNetworkCenter,InnerMongohaAgriculturalUniversity,Huhhot010018,China;

3.SchoolofSoftwareTechnology,DalianUniversityofTechnology,Dalian116620,China)

Abstract:IoTbringsaboutgreatchallengestodatamining.Forexample,thesampleddataisofhugesizeandtheirtypes

areincreasinglycomplex.Besides,thedataarehighlydynamicandheterogeneous,complicatedspatial—temporaland

incomplete,etc.Traditionaldataminingmethodscannotbedirectlyusedintheintemetofthings.Inthepaper,we

proposeanoveldataminingmodelwhichissupportedbycloudcomputingtechnology.Aanlysisshowsthepresented

modelcanfinishallkindsofdataminingtasksinloTeffectively.

Keywords:loT;cloudcomputing;datamining;parallelalgorithms

近年来,物联网产业发展迅猛ll''21,越来越多的应用

终端被接人物联网中,用以监控现实世界的各种对象,

包括交通设施、建筑物、湖泊等。随着各种异构终端设

备的接人,物联网采集到的数据量越来越大,数据类

型、格式越来越复杂,除此之外,物联网中的数据还具

有高度的动态性与异构性、复杂的时空特性以及不完

整特性等。这些特点极大的增加了人们从海量数据中

挖掘有用知识的难度。传统的数据挖掘方法无法直接

应用到物联网系统中。

如今云计算和海计算的发展为物联网中数据挖掘

提供了新的解决思路和方案。云计算I3】是一种基于互联

网的计算方式,通过这种方式,共享的软硬件资源和信

息可以按需提供给计算机和其他设备。云计算的核心

思想是将大量用网络连接的计算资源统一管理和调

度,构成一个计算资源池向用户按需服务。海计算通

过在物理世界的物体中融入计算与通信设备以及智能

算法,让物物之间能够互连,在事先无法预知的场景中

进行判断,实现物物之间的交互作用。海计算一方面通

过强化融人在各物体中的信息装置,实现物体与信息

装置的紧密融合,有效地获取物质世界信息;另一方面

通过强化海量的独立个体之间的局部即时交互和分布

式智能,使物体具备自组织、自计算、自反馈的海计算

功能。海计算的本质是物物之间的智能交流,实现物物

之间的交互。云计算是服务器端的计算模式,而海计算

是物理世界各物体与物体之间的一种的计算模式。

根据物联网中数据的特点,本文提出一种基于云

计算的物联网数据挖掘模型。首先结合海计算技术建

立基于云计算存储构架的面向物联网的分布式时空数

据库,用以存储物联网中的数据,以此数据库为基础

构建保存历史记录的面向主题的数据仓库。在此基础

上,构建面向物联网的数据挖掘框架。结合并行数据挖

掘算法,完成各项数据挖掘任务,包括数据抽取、分类

收稿日期:2012—09—12

基金项目:大连市科学技术局科技计划项目资助(项目编号:2011A17GX076)

作者简介:范玉(1981一),男,内蒙古人,讲师,博士研究生,研究方向:无线传感器网络;王鑫(1979一),女,内蒙古人,工程师,硕士,研究方向:计

算机网络。

·50·电脑与信息技术2012年12月

预测、聚类、关联规则发现等。

1物联网数据挖掘的关键问题

1.1物联网系统中数据的特点

(1)数据量大。每个物联网系统拥有成千上万甚至

更多的传感设备,这些传感设备不断向数据中心传输

采集到的数据。数据中心不仅要存储当前接收到的采

集数据,同时需要保存历史数据,用以支持对象的状态

跟踪、数据统计分析及数据挖掘。因此,物联网系统中

数据挖掘任务面临的第一个关键问题是数据量大。

(2)数据类型复杂。物联网系统监控的对象种类繁

多,包括交通、生物、森林、建筑等。不同监控对象所采

集的信息各不相同,例如交通系统中需要采集视频信

息,医学监控系统需要采集诸如脉搏、血压等生理信息

以及医学立体影响信息等。可见物联网系统采集的数

据类型复杂,包括文本类型、图像类型、视频类型等。

(3)数据具有异构性。物联网系统中包含多种传感

终端,如GPS传感终端、RFID传感终端、视频传感终

端、无线传感器等。不同的传感终端采集到的数据的格

式和语义均不相同。数据的异构性为数据存储与挖掘

增加难度。

(4)高度动态性。每个时刻都有不同的传感终端添

加到物联网中或者从物联网中移除。随着传感节点的

增加,其采集到的数据要插人数据库中。同样当一个传

感节点从物联网中移除后,数据库不应再记录该传感

节点采集到数据。一个物联网系统含有大量的传感节

点,每个传感节点动态变化频繁,因此物联网系统中的

数据具有高度动态性。

(5)时空特性。物联网系统的传感终端分布在不同

地区,每个传感终端采集到的数据均反应该时刻监控

对象的状态及其他信息。感知数据在特定时间和特定

空间内才有意义,如果不在这个地点或过了这个时间,

数据的意义可能就不大了。因此,复杂的时空特性是物

联网系统中数据的一个显著特点。

(6)不完整性。物联网系统的传感终端在无人工监

控状态下工作,每个传感终端随时可能受到自然因素

或者人为因素的攻击,包括雷电破坏、人工恶意破坏

等,导致传感终端数据接收不完整。另一方面,尽管传

感终端可以被广泛的部署在不同地理位置,但是依然

无法覆盖每一个角落,因此空间数据收集不完整也是

物联网系统数据的特点之一。

1.2物联网对数据挖掘的要求

(1)实时高效数据挖掘l5_。物联网系统中任何一个

控制端均需要对环境进行实时分析并做出正确决策。

因此实时、高效是物联网系统对数据挖掘最为关键的

要求之一。

(2)分布式数据挖掘[吲。物联网计算设备和数据天

然分布,不得不采用分布式并行数据挖掘。

(3)数据质量控制。多源、多模态、多媒体、多格式

数据的存储与管理是控制数据质量,获得真实结果的

重要保证。

(4)决策控制。挖掘出的模式、规则、特征指标用于

预测、决策和控制。

(5)挖掘任务。主要包括数据抽取、分类预测、聚

类、关联规则发现等。

1.3物联网环境数据挖掘存在的挑战

(1)数据挖掘算法的选择。选择合适的算法,并采

取适当的并行策略,然后才能提高并行效率。因此算法

的设计变得非常重要,参数的调节变得必不可少,而且

参数的调节直接影响最终的结果。

(2)不确定性。首先数据挖掘任务的描述具有不确

定性,数据采集和预处理也是带有很多的不确定性。其

次是数据挖掘方法和结果有不确定性。最后由于每个

用户所关注的最终的挖掘目标不一样,这就导致了对

挖掘结果的评价也有不确定性。不确定性是数据挖掘

在物联网系统中面临的最大挑战。

(3)可信性与安全性。在云计算环境下做数据挖掘

会导致数据挖掘云服务软件可信性问题。首先是服务

的正确性和服务的安全性;其次是服务的质量,服务质

量由可用、可靠和商l生能这三个方面来度量。

2基于云计算的物联网数据挖掘模型

基于云计算的物联网数据挖掘模型构架分为五

层,分别是物联网数据接人层、数据集成层、数据挖掘

平台层、业务控制层和交互层,如图1所示。

2.1结构层次

(1)物联网数据接人层

物联网接人层实现数据采集、提取关键数据、将关

键数据传输到数据集成层作用。物联网数据接人层包

括各种传感终端,如GPS传感终端、RFID传感终端、

视频传感终端、无线传感器等。利用这些传感终端监控

现实世界对象,采集反应监控对象的状态及其他信息

并发送到相应的海计算节点。采集数据包括文本数据、

图像数据、视频数据等。海计算节点对传感数据进行预

处理,提取键数据并传输到数据集成层,即面向物联

网的分布式时空数据库。

(2)数据集成层

数据集成层存储物联网系统传感终端采集到的关

第20卷第6期卜范玉等:基于云计算的物联网数据挖掘模型

(—\\)用户管理模块业务模块结果展示模块

\一一

t

、任务调度控制模块j领域知识库Il工作流程控制模块l

\一/L

,,厂、Jr

I,/数据挖掘、并行数据挖掘I并行ETL模块『模式评估模块j数据提取模块『

平台层』算法模块l{\/I

\~

一/t

/———、1

///数据集成、面向物联网的分布式数据

层//时空数据库仓库



、—



。/

,—\/

//、、1海计算模块l】海计算模块1海计算模块1

f\

、据接入层fff

、一『S…。IfSensorsJlS…f

图1基于云计算的物联网数据挖掘模型框架

键数据,为数据挖掘提供数据源。面向物联网的分布式

时空数据库存储物联网系统的关键数据,并为数据仓

库的构造提供数据源。数据仓库中的数据是按照主题

来组织的,存储的数据可以从历史的观点提供信息,面

对多数据源,经过清晰和转换后的数据仓库可以为数

据挖掘提供面向历史的发现知识的数据环境。

(3)数据挖掘平台层

数据挖掘平台层是整个构架的核心之一,提供数

据挖掘阶段业务需要的各个模块,并具有较细的粒度。

如数据预处理,模式评估,数据挖掘等功能模块。这一

层的主要任务是实现各种任务过程中算法的并行化,

并将挖掘结果返回给业务控制层。

(4)业务控制层

这一层提供业务逻辑并实现对各种业务流程的控

制和调度。根据用户提交的业务请求,任务控制调度模

块结合领域知识库指导工作流程控制模块控制和调度

数据挖掘层的多个模块来完成挖掘任务,并将挖掘结

果返回给交互层。

(5)交互层

这一层主要提供系统和用户之间的接口。通过提

供具有良好表现形式的图形界面,使得用户可以登录

系统定制各种细粒度的业务,查看或者保存各种输出

结果。’

2.2功能模块

(1)物联网数据接人层模块

海计算模块:海计算模块包含大量

海计算节点。主要用以存储传感终端采

集的各种数据,并对数据进行预处理,主

要包括去除噪声数据和重复数据、处理

不完整数据、识别并提取关键数据、统一

数据格式。最后将预处理后的关键数据

传输给数据集成层。在物联网数据接人

层对数据进行预处理有利于节省网络带

宽,同时有利于数据集成层的存储和进

一步应用。

(2)数据挖掘平台层模块

并行数据挖掘算法模块:为数据挖

掘各种任务提供并行算法。作为数据挖

掘引擎,包含一个能够提供各种基于云

计算进行并行数据挖掘算法的库,用于

完成各种数据挖掘任务。

并行ETL模块:对数据进行预处理。

输入的数据来源于面向物联网的分布式

时空数据库与数据仓库,为数据挖掘过

程进行数据清理,提取,转换和加载。

模式评估模块:对产生的模式进行评估。符合用户

要求的结果存人领域知识库,领域知识库可以辅助业

务控制逻辑指导数据挖掘过程。

数据提取模块:根据挖掘任务的不同,在面向物联

网的时空数据库或数据仓库中提取相关的数据。

(3)业务控制层模块

任务调度控制模块:响应上层的业务模块,对完成

业务所需的子业务进行调用、管理,并通过调用底层模

块完成业务。

工作流程控制模块:对业务状态进行监控、管理。

可将具体的信息参数返回给本层的任务调度控制模

块。’

(4)交互层

用户管理模块:实现用户身份的识别以及相应权

限的设置,同时也包括对用户登录或者注销等常用的

管理。

业务模块:实现细粒度的用户业务需求的提交。用

户提交的各种业务通过业务模块得到。

结果展示模块:实现用户对业务结果的查看,分析

和保存等功能。用来将系统的返回结果交付给用户。

3结论

数据挖掘是物联网应用的重要环节,针对物联网

数据的特点,本文提出一种基于云计算的物联网数据

‘52‘电脑与信息技术

挖掘模型。其中,数据挖掘平台是整个模型的关键。下

一步的工作重点在于设计各种面向物联网的数据挖掘

算法的并行化,以完成物联网的各种数据挖掘任务。【4】

参考文献:

[1]王瑞刚.物联网主要特征与基础理论研究[J】_计算机科学,2012,39

(6A1:201-203.

[2]李志宁.物联网技术研究进展『J].计算机测量与控制,2012,20(6):

1445—1448.

[3]ArnonRosenthal,PeterMork.Cloudcomputing:Anewbusiness

paradigmforbiomedicalinformationsharing[J1.FutureGeneration

ComputerSystems,2010,26(7):947-970.

ZhikuiChen,HaozheWang.AContext—AwareRoutingProtocolon

InternetofThingsBasedonSeacomputingModel【J】.Journalof

Computers,2012,7(1):96—105.

BinLiu,Shu—GuiCao.MachineLearningandCybernetics[C】.

InternationalConferenceonMachineLearningandCybernetics.Guilin,

China,2011.40-44.

HongYuehua,XuShuang,WuHuajian.Studyondistributeddatamining

modelinWirelessSensorNetworks[C】.InternationalConferenceon

IntelligentComputingandIntegratedS~stemsGuilin,China,2010.866—869.

(上接第44页)

建立相应的函数库:根据系统状态评价的要求,建

立满足业务需求的配电生产运行状态风险管控评价的

数据集,供数据的过滤、换算等加工待处理过程使用。

数据处理:处理并形成满足配电生产运行状态风

险管控评价的数据,为后续提供决策的数据支持。

(4)数据处理模块的输出

数据处理模块的输出主要模块输出的是符合平台

停电检修

计划

生产管理

系统

在线监测

系统

构建标准的配电生产运行风险管控的模型数据,以及

反映配电生产运行状态的数据集。

3总结

本文通过利用ETL模型,成功实现了将不同业务

系统的数据接入和集成到配电生产运行风险管控支撑

平台,整个实现的过程如图4所示:

数据抽取配数据抽取控系统监控

置与管理制与触发管理

——3一-C一

—l运行状态监测预警L

所需数据集

数据抽取数据转换—r\厂鞴『j日隧

原始数据集/,1所需数据集

分析状态精信息(基础数捌、实时数数据预处理

r—N状态预测评估扶取数据描、其它数据)处理方法库所需数据集

扶取图肜信息处娜加数据

—『\}停电检修安排决策

L岫所需数据集

图4配电生产运行风险管控信息平台的数据接入和集成

整个过程通过利用ETL模型,解决了业务系统分

散,数据类型不一致的问题,实现了从不同业务的初始参考文献:

数据经过转化成配电生产风险管控数据的转换,为对[1]朱重吉.ETL技术在监测中心数据集成中的应用【J1_广西电力,2010,

配电生产管理中的风险管控提供了有力的数据依据。33(6).28_29·

在以后的研究工作中,需要对数据处理的算法进行进乏海省电力公司数据系统的应用Ⅲ。青海电九

一步研究和应用,有效提高数据抽取转换效率,此外,[3]武剑’

.集成平台中ETL的研究与设计fD1.华北电力大学(北

加强平台的可扩展性、灵活配置管控平台的数据抽取京),硕士学位论文,2007

.5—8.

机制,也是接下来研究重点。

献花(0)
+1
(本文系文山书院首藏)