配色: 字号:
并行数据库系统
2022-02-13 | 阅:  转:  |  分享 
  
并行数据库

并行数据库系统ParallelDatabaseSystem)属于新一代高性能的数据库系统,是在MPP和集群并行计算环境的基础上建立的数据库系统。

并行数据库技术起源于20世纪70年代的数据库机DatabaseMachine)研究研究内容主要集中在关系代数操作的并行化和实现关系操作的专用硬件设计上希望通过硬件实现关系数据库操作的某些功能,该研究以失败而告终。20世纪80年代后期,并行数据库技术的研究方向逐步转到了通用并行机方面研究的重点是并行数据库的物理组织、操作算法、优化和调度策略。从20世纪90年代至今,随着处理器、存储、网络等相关基础技术的发展,并行数据库技术的研究上升到一个新的水平研究的重点也转移到数据操作的时间并行性和空间并行性上。MPP

MPP(MassivelyParallelProcessing,或MassiveParallelProcessor,大规模并行处理系统是由许多松耦合处理单元组成的要注意的是这里处理单元而不是处理器。每个单元内的CPU都有自己私有的资源,如总线、内存、硬盘等。在每个单元内都有操作系统和管理数据库的实例复本。这种结构最大的特点在于不共享资源适合多指令流多数据流处理。计算机体系结构中MPP在20世纪90年代盛行。如今世界上排名靠前的大型机都是MPP。

并行数据库系统的目标是高性能HighPerformance)和高可用性HighAvailability);通过多个处理节点并行执行数据库任务,提高整个数据库系统的性能和可用性。性能指标

性能指标关注的是并行数据库系统的处理能力具体表现可以统一总结为数据库系统处理事务的响应时间。

并行数据库系统的高性能可以从两个方面理解一个是速度提升SpeedUp);一个是范围提升ScaleUp)。

速度提升是指通过并行处理,可以使用更少的时间完成样多的数据库事务。

范围提升是指通过并行处理,在相同的处理时间内,可以完成更多的数据库事务。

并行数据库系统基于多处理节点的物理结构,将数据库管理技术与并行处理技术有机结合,来实现系统的高性能。可用性指标

可用性指标关注的是并行数据库系统的“健壮性”,也就是当并行处理节点中的一个节点或多个节点部分失效或完全失效时,整个系统对外持续响应的能力。

高可用性可以同时在硬件和软件两个方面提供保障。

在硬件方面,通过冗余的处理节点、存储设备、网络链路等硬件措施,可以保证当系统中某节点部分或完全失效时,其它的硬件设备可以接手其处理,对外提供持续服务。

在软件方面,通过状态监控与跟踪、互相备份、日志等技术手段,可以保证当系统中某节点部分或完全失效时,由它所进行的处理或由它所掌控的资源可以无损失或基本无损失地转移到其它节点,并由其它节点继续对外提供服务。可扩充性

为了实现和保证高性能和高可用性,可扩充性也成为并行数据库系统的一个重要指标。可扩充性是指并行数据库系统通过增加处理节点或者硬件资源处理器、内存等,使其可以平滑地或线性地扩展其整体处理能力的特性。

三、主要问题

随着对并行计算技术研究的深入和SMP、MPP等处理机技术的发展,并行数据库的研究也进入了一个新的领域,集群已经成为并行数据库系统中最受关注的热点。目前,并行数据库领域主要还有下列问题需要进一步研究和解决。



SMP

SMP(SymmetricalMulti-Processing对称多处理机),是指在一计算机上汇集了一组处理器多CPU,各个CPU之间共享内存子系统及总线结构。它是一种相对于非对称多处理技术而言的、应用十分广泛的并行技术。在这种架构中,一台电脑不再由单个CPU组成,而同时由多个处理器运行操作系统的单一复本,并共享内存和一台计算机的其他资源。虽然同时使用多个CPU,但是从管理的角度来看,它们的表现就像一台单机一样。系统将任务队列对称地分布于多个CPU之上,从而极大地提高了整个系统的数据处理能力。所有的处理器都可以平等地访问内存、I/O和外部中断。在对称多处理系统中,系统资源被系统中所有CPU共享,工作负载能够均匀地分配到所有可用处理器之上。从而提高整个系统的数据处理能力。



并行体系结构及其应用

这是并行数据库系统的基础问题。为了达到并行处理的目的,参与并行处理的各个处理节点之间是否要共享资源、共享哪些资源、需要多大程度的共享这些就需要研究并行处理的体系结构及有关实现技术。并行数据库的物理设计

主要是在并行处理的环境下,数据分布的算法研究、数据库设计工具与管理工具的研究。处理节点间通讯机制研究

为了实现并行数据库的高性能,并行处理节点要最大程度地协同处理数据库事务因此,节点间必不可少地存在通讯问题如何支持大量节点之间消息和数据的高效通讯,也成为了并行数据库系统中一个重要的研究课题。并行操作算法

为提高并行处理的效率,需要在数据分布算法研究的基础上,深入研究联接、聚集、统计、排序等具体的数据操作在多节点上的并行操作算法。并行操作的优化和同步

为获得高性能,如何将一个数据库处理事务合理地分解成相对独立的并行操作步骤、如何将这些步骤以最优的方式在多个处理节点间进行分配、如何在多个处理节点的同一个步骤和不同步骤之间进行消息和数据的同步这些问题都值得深入研究。并行数据库中数据的加载和再组织技术

为了保证高性能和高可用性,并行数据库系统中的处理节点可能需要进行扩充或者调整这就需要考虑如何对原有数据进行卸载、加载,以及如何合理地在各个节点重新组织数据。







4







献花(0)
+1
(本文系胡经国图书...原创)