配色: 字号:
基于云计算的海量数据挖掘
2012-02-02 | 阅:  转:  |  分享 
  
基于云计算的海量数据挖掘基于云计算的海量数据挖掘

清何清

中科学院计算技术究所中国科学院计算技术研究所

http://jscaseducationcn/JS/~heqing..

Email:heq@ics.ict.ac.cn

1中国科学院计算技术研究所2010-5-24

内容提要

算起?云计算的兴起

数据挖掘发展历程?数据挖掘发展历程

?云数据挖掘实践云数据挖掘实践

?云数据挖掘未来走向云数据挖掘未来走向

2中国科学院计算技术研究所

2010-5-24

云计算的定义

WikidiCldiiIbd?pea:oucomputngsnternet‐based

computing,wherebysharedresources,software

andinformationareprovidedtocomputersand

otherdeviceson‐demand,liketheelectricitygrid.

It?describes?a?new?supplement,?consumption?and?

delivery?model?for?IT?services?based?on?the?Internet,?

and?it?typically?involves?the?provision?of?dynamically?

scalableandoftenvirtualizedresourcesasaservice????????

over?the?Internet?

3中国科学院计算技术研究所

2010-5-24

云计算的定义

云计算是种基于互联网的大众参与的计算模式?一种基于互联网的、,

其计算资源(计算能力、存储能力、交互能力)是

动态、可伸缩、且被虚拟化的,以服务的方式提供动态、可伸缩、且被虚拟化的,

?云计算是并行计算(ParallelComputing)、分布式计算

(DiibdCi)和网格计算(GidCi)stributeComputingrComputing

的发展,或者说是这些计算机科学概念的商业实现

?云计算是虚拟化(Virtualization)、效用计算(Utility

Computing)、IaaS(基础设施即服务)、PaaS(平台即服

务)SS(软件即服务)等概念混合演进并跃升的结务、SaaS(



4中国科学院计算技术研究所

2010-5-24

云计算的兴起

云计算风起云涌云计算风起云涌

5中国科学院计算技术研究所

2010-5-24

云计算的大事件候选

6中国科学院计算技术研究所

2010-5-24

2008年底中科院计算所开年底中科院计算所开

发出基于云计算的并行数据

挖掘平台PDMiner

7中国科学院计算技术研究所

2010-5-24

机遇

大大降低中小企业购昂贵设备的成本?大大降低了中小企业购买昂贵IT设备的成本,

且可以享受大企业级的技术

?为服务器、PC、EU的销售带了机遇

提供种新的并行计算技术服务云服务?提供一种新的并行计算技术服务—

–无需购买硬件

–无需开发软件

在网络上就可以得到并行计算服务并能在线实–在网络上就可以得到并行计算服务并能在线实

时监控

2010-5-24中国科学院计算技术研究所

8

云计算的应用

马逊网络服务?亚马逊网络服务(Amazon?WebServices,?AWS)

?Google应用软件引擎(GoogleAppEngine,GAE),(gp

Google地球、地图、Gmail、Docs等

?Salesforce的网络应用软件平台Force.com,这一平的网络应用软件平台这平

台可作为其他企业自身软件服务的基础

?IBM在2007年11月推出了“改变游戏规则”的“在年月推出了改变游戏规则的

蓝云”计算平台,为客户带来即买即用的云计算

平台平台

?微软在2008年10月推出了Windows?Azure操作系统

9中国科学院计算技术研究所

2010-5-24

内容提要

算起?云计算的兴起

数据挖掘发展历程?数据挖掘发展历程

?云数据挖掘实践云数据挖掘实践

?云数据挖掘未来走向云数据挖掘未来走向

10中国科学院计算技术研究所

2010-5-24

数据挖掘软件的发展

代特征数据挖掘算法集成分布计算模型数据模型

第一代

作为一个独

立的应用

支持一个或者多个

算法

独立的系统单个机器向量数据

第二代

和数据库以

及数据仓库

集成

多个算法:能够挖

掘一次不能放进内

存的数据

数据管理系统,

包括数据库和

数据仓库

同质、局部区

域的计算机群



有些系统支持

对象,文本和

连续的媒体数



第三代

和预测模型

系统集成

多个算法

数据管理和预

测模型系统

Intranet/extra

net网络计算

支持半结构化

数据和web数

据据

第四代

分布式数据

挖掘

多个算法分布在多

个节点

算法、调度系



网格计算

普遍存在的数

据模型

第五代

基于云计算

的并行数据

挖掘与服务

同一个算法分布在

多个节点;多个算

法之间也可以并行

计算资源按需

分配

云计算BigTable

DFS

11

Map/reduceonmulticore??‐

?Map‐Reduce?for?Machine?Learning?on?Multicore(NIPS?2006)

–LocallyWeightedLinearRegression(LWLR),

NaiveBayes(NB)–Bayes,

–GaussianDiscriminativeAnalysis(GDA),

–k-means,LogisticRegression(LR),,g),

–NeuralNetwork(NN),

–PrincipalComponentsAnalysis(PCA),

–IndependentComponentAnalysis(ICA),

–ExpectationMaximization(EM),

SupportVectorMachine(SVM)–(SVM)

目前基于hadoop的数据挖掘工作

////?Mahout(?https:cwiki.apache.orgMAHOUTalgorithms.html)

–Classification:?Logistic?Regression,?Bayesian,?SVM,?Neural?Network,?

RandomForests?,?……

–Clustering:?k‐Means,?Fuzzy?K‐Means,?Expectation?Maximization?(EM),?

Hierarchical?Clustering,?……

–Pattern?Mining:?Frequent?Itemset?mining,?……

–Dimension?reduction:?SVD,?PCA,?ICA,?GDA

海量数据挖掘需求

海量数据挖掘?海量数据挖掘

–从数据中获取有效的、可理解的知识

–大规模数据挖掘是数据挖掘追求的目标

互联网网页数量随时间成倍增长数千亿乃至–互联网网页数量随时间成倍增长,数千亿乃至

上万亿的网页索引

数据挖掘任务远比搜索任务复杂–数据挖掘任务远比搜索任务复杂

14中国科学院计算技术研究所

2010-5-24

为什么基于云计算平台?

低成本分布式并行计算环境



?低成本分布式并行计算环境

–适应规模不同的组织,为中小企业数据处理带来

了新型低成本计算环境

–大企业“云计算”平台对于某些特定数据计算将

不再完全依赖大型高性能机

?开发方便:屏蔽掉了底层开发方便屏蔽掉了底层

–数据的划分无需用户考虑

–数据分配加载到节点无需考虑数据分配加载到节点无需考虑

–计算任务调度无需考虑

15中国科学院计算技术研究所

2010-5-24

为什么基于云计算平台??

数据处规模大幅度提高?数据处理规模大幅度提高

–由于并行化在利用原有设备的条件下就可以有大幅

度提高

?扩展性好扩展性好

–可以很方便地增加节点

?容错计算健壮性强容错计算健壮性强

–可自动处理失败节点,具有高容错能力

–个别节点down掉,仍能完成计算任务

16中国科学院计算技术研究所

2010-5-24

问题与挑战

需求?需求

–个性化个性化

–多样化

数据?数据

–海量数据:数据量TB级乃至PB级

–高维数据:采集数据项很多

–噪声数据:网络来源、侦测不准、采集失当噪声数据:网络来源、侦测不准、采集失当

–动态数据:股票数据、业务数据

2010-5-24中国科学院计算技术研究所

17

问题与挑战

算法?算法

–算法选择算法选择

–并行策略

算法设计–算法设计

–参数调节

–性能提高

2010-5-24中国科学院计算技术研究所

18

问题与挑战

不确定性?不确定性

–数据挖掘任务描述的不确定性数据挖掘任务描述的不确定性

–数据采集和预处理的不确定性

–数据挖掘方法和结果的不确定性

–数据挖掘结果评价的不确定性数据挖掘结果评价的不确定性

2010-5-24中国科学院计算技术研究所

19

问题与挑战

信?可信

–服务的正确性:正确性是指没有不当的系统状服务的正确性:正确性是指没有不当的系统状



–服务的安全性:没有灾难性的环境后果服务的安全性:没有灾难性的环境后果

–服务的质量:

?可用性准备好提供正确服务的概率可用性:准备好提供正确服务的概率

?可靠性:在给定的一段时间内提供正确服务的概率

?高性能响应时间和吞吐量高性能:响应时间和吞吐量

–隐私安全:不允许未授权的访问

2010-5-24中国科学院计算技术研究所

20

问题与挑战

安全?安全

–数据安全数据安全

?隐私数据保护

–过程安全过程安全

?模型与需求一致

?算法可检验算法可检验

?过程对用户可控、可视

?结果仅对用户可理解结果仅对用户可理解

–公共安全

云计算安全的本质是信任管理?云计算安全的本质是信任管理

2010-5-24中国科学院计算技术研究所

21

对策

基础建设数据挖掘服务平台?基础建设:数据挖掘云服务平台

–专业人士成为服务的提供者

–大众和各种组织成为服务的受益方

–按领域、行业构建按领域、行业构建

?虚拟化:计算资源自主分配调度

需求大众参与应对个性化多样化的需求?需求:大众参与应对个性化多样化的需求

?可信:算法通用、可查、可调、可视

?安全:隐私数据由客户自己在平台终端完成加

密保护密保护

2010-5-24中国科学院计算技术研究所

22

内容提要

算起?云计算的兴起

数据挖掘发展历程?数据挖掘发展历程

?云数据挖掘实践云数据挖掘实践

?云数据挖掘未来走向云数据挖掘未来走向

23中国科学院计算技术研究所

2010-5-24

已完成的工作PDMiner―?

在计算平台基础上在云计算平台Hadoop基础上,2008

年底我们为中国移动开发了基于云年底我们为中国移动开发了基于云

计算的并行数据挖掘系统

24中国科学院计算技术研究所

2010-5-24

已完成的工作PDMiner―?

具有以下特点?PDMiner具有以下特点:

–提供一系列并行挖掘算法和ETL操作组件

–开发的并行ETL操作达到了线性加速比

–可实现TB级海量数据的预处理及之后的并行挖可实现级海量数据的预处及之后的并行挖

掘分析处理

–挖掘算法随节点数线性增加,加速比随之增加挖掘算法随节点数线性增加加速随增加

–可稳定运行在256个节点组成的Linux集群环境

下,具有高可扩展性下具有高可扩展性

25中国科学院计算技术研究所

2010-5-24

已完成的工作PDMiner―?

多个工作流任务可在云计算环境下的任意节点–多个工作流任务可在云计算环境下的任意节点

同时启动,互不干扰

可自动处理失败节点具有高容错能力–可自动处理失败节点,具有高容错能力

–开放式架构,算法组件可通过简单配置方便地

封装加载到平台中封装加载到平台中

–Java开发,提供系统日志进行管理,具有较好

的可移植性的可移植性

26中国科学院计算技术研究所

2010-5-24

已完成的工作PDMiner―?

实验

结果结果

(ETL)

27中国科学院计算技术研究所

2010-5-24

已完成的工作PDMiner―?

实验结果

(PKMeans)

28中国科学院计算技术研究所

2010-5-24

与商用软件比较

?达到了商用软件的精度,数据处理规模远远

超出商用软件

–在商用软件能承受的相同数据规模下、采用相同方

法和相同参数设置、并且商用软件有结果的条件下,

新开发的基于云计算平台的并行数据挖掘系统获得

了一致的挖掘结果

上述比较是在同样成本购买的小型机和云计?上述比较是在同样成本购买的小型机和云计

算平台所需硬件设备基础上作的比较,未考

虑占地能耗管维护费用虑占地、能耗、管理、维护费用

29中国科学院计算技术研究所

2010-5-24

30中国科学院计算技术研究所

2010-5-24

已完成的工作PDMiner―?

的意义?PDMiner的意义

–开发出中国第一个基于云计算平台的并行数据

挖掘系统用中国移动级实数据的挖掘挖掘系统用于中国移动TB级实际数据的挖掘

–特别谈一下数据挖掘。我们开发了一些基于

的算法其中有些是经典的数据挖掘Hadoop的算法,其中有一些是经典的数据挖掘

算法,目前我们已经成功将它们使用在实际生

产运行中试图挖掘各种用户使用行为和用户产运行中,试图挖掘各种用户使用行为和用户

关系。与传统系统相比,这个系统使用了1/6的

成本却实现了6倍的性能成本却实现了倍的性能

——黄晓庆于中国2009云计算大会

htt//lbhibil/bl/4740345–htp:as.chinamobile.commblog/47_

31中国科学院计算技术研究所

2010-5-24

云数据挖掘的实践

近期进展―?面向Web基于云计算数

据挖掘服务系统WPDMiner据挖掘服务系统

32中国科学院计算技术研究所

2010-5-24

面向Web的WPDMiner的

开发了面向Wb的基于云计算的并行数据?开发了面向Web

挖掘服务系统WPDMiner

硬件资源管

理子系统

?分配和管理用分配和管理用

户申请和使用

的硬件资源

前台Web

界面

三个子系统

后台并行挖掘

界面

?与用户交互

子系统

?提供并行数据挖

掘服务

33中国科学院计算技术研究所

2010-5-24

面向Web的WPDMiner(续)面向的续

?硬件资源管理子系统和后台并行挖掘子系统紧密结合

?对用户透明,抽象成提供数据挖掘服务的“云”

?用户通过前台的Web交互界面定制数据挖掘任务

34中国科学院计算技术研究所

2010-5-24

面向Web的WPDMiner(续)的?续

35中国科学院计算技术研究所

2010-5-24

面向Web的WPDMiner?(续)面向的续

数据管理

2010-5-24中国科学院计算技术研究所36

面向Web的WPDMiner?(续)



面向的续

数据管理

2010-5-24中国科学院计算技术研究所37

面向Web的WPDMiner?(续)面向的续

任务管理

2010-5-24中国科学院计算技术研究所38

面向Web的WPDMiner?(续)面向的续

配置工作流任务

2010-5-24中国科学院计算技术研究所39

面向Web的WPDMiner?(续)面向的续

执行任务

2010-5-24中国科学院计算技术研究所40

面向Web的WPDMiner?(续)面向的续

查看任务结果和日志查看任务结果和日志

2010-5-24中国科学院计算技术研究所41

内容提要

算起?云计算的兴起

数据挖掘发展历程?数据挖掘发展历程

?云数据挖掘实践云数据挖掘实践

?云数据挖掘未来走向云数据挖掘未来走向

42中国科学院计算技术研究所

2010-5-24

未来走向

数据挖掘务将兴起?数据挖掘云服务将兴起

–专业人士成为服务的提供者专人成为服务的提供者

–大众和各种企业、组织机构成为服务的受益方

数据挖掘研究受计算环境影响降低–数据挖掘研究受计算环境影响降低

–数据挖掘应用范围将大大拓宽

2010-5-24中国科学院计算技术研究所

43

未来走向

物联网中的基计算的数据挖掘?物联网中的基于云计算的数据挖掘

–云计算是物联网中普适的计算模式云计算是物联网中普适的计算模式

–云计算是物联网的基石

数据挖掘在物联网中是不可缺少的–数据挖掘在物联网中是不可缺少的

?高可信的基于云计算的数据挖掘软件与服



44中国科学院计算技术研究所

2010-5-24

参考资料

?JDeanandSGhemawat:Mapreduce:SimplifiedData.???.?????

Processing?on?Large?Clusters,?OSDI’04

?C.?T.?Chu,?S.?K.?Kim,?Y.A.?Lin,?Y.?Y.?Yu,?G.?Bradski,?A.?Y.?Ng:?Map‐

Reduce?for?Machine?Learning?on?Multicore,?NIPS’06

?C.?Ranger,?R.?Raghuraman,?A.?penmetsa,?G.?Bradski,?C.?

Kozyrakis:?Evaluating?MapReduce?for?Multi‐core?and?

Multiprocessor?System,?HPCA’07

?E.?Y.?Chang,?K.Z.?Zhu,?H.?Wang,?H.?Bai:?Psvm:?Parallelizing?

support?vector?machines?on?distributed?computers,?NIPS’07

dd?H.?C.?Yang,?A.?Dasan,?R.?L.?Hsiao,?D.?S.?P:?Map‐reuce‐

merge:simplified?relational?data?processing?on?large?clusters,?

Sigmod07

45中国科学院计算技术研究所

2010-5-24

参考资料

?T.?Elsayed,?J.?Lin,?D.?W.?Oard:?Pairwise?Document?Similarity?in?y,

Large?Collections?with?MapReduce,?ACL’08

?W.Z.?Zhao,?H.?F.?Ma,?Q,?He:?Parallel?K‐Means?Clustering?Based?

on?MapReduce,?CloudCom’09

?C.?Liu,?H.?C.?Yang,?J.?L.?Fan,?L.?W.?He,?Y.?M.?Wang:?Distributed?

Nonnegative?Matrix?Factorization?for?Web‐Scale?Dyadic?Data?

Analysis?on?MapReduce,?WWW’10

h//lbl//dhl?ttp:as.googe.compapersmapreuce.tm

?http://lucene.apache.org/hadoop

h//kd/k/ld?http://en.wiipeia.orgwiiCou_computing

46中国科学院计算技术研究所

2010-5-24

参考资料

?http://csrc.nist.gov/groups/SNS/cloud‐computing/index.htmlp///gpg/

?http://rgrossman.com/about‐cloud‐computing/

?http://www.ibm.com/developerworks/cn/java/j‐mahout///

?http://www.infoq.com/news/2010/04/mahout‐03

47中国科学院计算技术研究所

2010-5-24

谢谢!欢迎大家提问!!!

http://www.intsci.ac.cn/pdm/pdminer.html

Email:heqing@ict.ac.cna:

Tel:13910062653

2010.5.22

48中国科学院计算技术研究所2010-5-24

献花(0)
+1
(本文系绿源科讯图...首藏)