1信息世界的基本概念

afskd 2011-04-23

展开全文

　　1.实体（Entity）
　　一个实体是现实世界客观存在的一个事物。可以是一个具体的事物，如一所房子、一个元件、一个人等，也可以是抽象的事物，如一个想法、一个计划、或一个工程项目等等。实体由它们自己的属性值表示其特征。实体分为强实体和弱实体。
· 强实体：独立于其他实体而存在的实体称为强实体。
· 弱实体：假如实体只能存在于与其他实体的一个联系中，称这些实体为弱实体。当弱实体赖以联系的实体被删除时，该弱实体也要从数据库中删除之。弱实体常用于描述动态的关系。
　　例如：设有职工和职工的家属两类实体，两者之间存在联系，家属总是属于某一职工的。这种联系就属"所有"关系。
　　家属实体集的属性可能有姓名、性别、出生日期、与职工的关系等，但这些属性不足以识别一个家属实体。必须把职工的实体键(例如职工号)和家属名组合起来才能识别一个家属。家属构成弱实体。
　　2．实体集：
　　结构和特性相同的实体组成的集合称为实体集。例如，学生实体集，班级实体集等。
　　3．实体类型:
　　描述实体集的信息结构,通常包括类型名和实体的属性名集合。例如，学生（学号，姓名，性别，年龄，班级）。
　　4．属性:
　　描述实体或联系的特性。实体的每个特性称为一个属性。属性有属性名、属性类型、属性定义域和属性值之分。
　　5.实体标识（码或键）：
　　其值能唯一地标识每个实体的属性集称为实体的标识。在关系数据库中实体的标识称为码或键，其标识码是实体的单个属性或属性子集的值。
　　例如，学生的学号，既是学生的属性又是学生的标识码，研究所的标识可以是研究所的所名或所的编号。
　　6．联系：
　　现实世界中，事物之间的相互联系是客观存在的，联系反映实体间的相互关系。这种联系必然要在信息世界中进行描述。而且，联系除用作属性外，联系本身也可以有属性值。
　　例如，每个教师隶属一个研究所，每个教师和其隶属的一个研究所之间有一个隶属联系。
　　7.联系集：
　　实体间相同类型的联系也构成联系集合。例如，多个教师和他们隶属的研究所之间就形成隶属联系集。
　　8.联系类型：
　　描述具有共同特性的实体之间联系集的信息结构，通常包括联系的类型名、联系的属性等。
　　例如，每个教师和其隶属的一个研究所之间是"属于"联系；每个教师和其所教授的学生之间是"教与学"的联系；零件供应商和其供应的零件之间有"供应"联系，"供应"联系的属性有供应数量等。

· 数据（Data）：
反映客观世界的事实，并可以区分其特征的符号：字符、数字、文本、声音、图形、图像、图表、图片等，它们是现实世界中客观存在的，可以输入到计算机中进行存储和管理的。
· 信息（Information）：
由原始数据经加工提炼而成的、用于决定行为、计划或具有一定语义的数据称为信息。
· 数据库DB（Data Base）：
是现实世界中相互关联的大量数据及数据间关系的集合。
· 数据库管理系统DBMS（Data Base Management System）：
是对数据库中的数据进行存储和管理的软件系统。包括存储、管理、检索和控制数据库中数据的各种语言和工具，是一套系统软件。
· 数据库系统DBS（Data Base System）：
是对数据库和数据库管理系统的总称。是指相互关联的数据集合与操纵数据的软件工具集合。DBS = DB+DBMS
· 数据库应用程序接口API（Application Programming Interface）：
是由DBMS为开发应用程序提供的操纵和访问数据库中数据的接口函数、过程或语言。
· 数据库应用程序AP（Application Program）：
满足某类用户要求的操纵和访问数据库的程序。
· 数据仓库（Data Warehouse）
一个数据仓库就是一个自带数据库的商业应用系统。利用现有的数据资源，把数据转换为信息，从中挖掘出知识，提炼成智慧，创造出效益。
· 数据发掘（Data Mining）
数据发掘可帮助商业用户处理大量存在的数据，以期发现一些"意外的关系"，以便增加市场份额和利润。
· 信息发掘（Information Mining）：
信息发掘是指在文档、地图、照片、声音和影像之汪洋大海中发现相关信息，即面向内容的检索。
· 数据模式（Data Model）：
在数据库中，对数据(实体)的描述称为数据库模式。用相应的模式定义语言来描述。
· 数据模型（Data Model）：
是对现实世界特征的数字化的模拟和抽象。
· 字段( Field)：
层次数据模型中数据的最小单位，描述实体的属性。
· 片段(Segment)：
是IMS层次数据模型中描述实体的单位，由字段集合组成的记录。也是应用程序访问数据库数据的单位。
· 数据项(Data Item)：
是DBTG命名的网状数据模型中的最小数据单位, 表示实体的属性。
· 记录(Record )：
是DBTG命名的网状数据模型中描述实体的单位，是数据项的有序集合。

· 域(Domain)：
域是值的集合，即值的取值范围。
· 关系(Relation)：
一个关系就是一张二维表, 每张表有一个表名。
· 元组(Tuple)：
关系表中的一行称为一个元组。元组可表示一个实体或实体之间的联系。
· 属性( Attribute)：
关系表中的一个列称为关系的一个属性，即元组的一个数据项。属性有属性名、属性类型、属性值域和属性值之分。属性名在表中是唯一的。

· 关键字( Primary Key )：
表中的一个属性或几个属性的组合、其值能唯一地标识关系中的一个元组。关键字属性不能取空值。
· 外部关键字(Forgien Key)：
在一个关系中含有的与另一个关系的关键字相对应的属性组称为该关系的外部关键字。外部关键字取空值或为外部表中对应的关键字值。
· 网络库（Net-Library）：
一个通信软件包，对数据库请求和结果打包，由网络协议传送。也称Net-Library，在客户机和服务器上都要安装。
· 主数据文件：
SQL Server数据库管理系统中，主数据文件用于存储指向其他数据库文件的指针和启动信息。SQL Server的每个数据库只有一个主数据文件，扩展名为.mdb。
· 辅数据文件：
SQL Server数据库管理系统中，所有不适合存储在主数据文件中的数据都存储在辅数据文件中。如果主数据文件可以包含所有的数据，可不用辅数据文件。大规模的数据库可以有分布在多个磁盘驱动上的辅文件。文件的扩展名为.ndf。
· 日志文件（LOG File）：
存储数据库的事务日志信息，必要时利用日志恢复数据库。每个数据库至少需要一个日志文件。SQL Server日志文件的扩展名为.ldf。
· 开放数据库互连ODBC(Open Database Connection)
这是一个调用级的数据库访问接口，而且是标准的数据库通用接口，通过使用不同的数据库管理系统提供的ODBC驱动程序，应用程序可以访问不同的数据库系统，而不必随数据库的改变而改变。
· OLE DB:
这是一个基于组件对象模型(COM)的数据访问接口。
· ADO（ActiveX Data Object ）
封装了OLE DB，降低了应用程序开发和维护的成本，可以在VC、VB以及ASP(Active Server Pages)和Microsoft Internet Explorer等脚本对象模型中使用。
· RDO（Remote Data Object）
远程数据对象，它封装了ODBC，可以在VC、VB等中使用。
· SQL(Structured Query Language):
SQL是结构化查询语言(Structured Query Language)的缩写，是关系数据库的标准语言。
· 视图(View)：
视图是查询结果的关系，是被存储的查询定义。因此，视图数据在物理上是不存在的，但是可以查看，也可以通过视图修改基本表中的数据，故称为视图。
· 游标（CURSOR）
游标是系统为用户的查询结果开辟的数据缓冲区，存放 SQL的查询结果集合。
· 完整性约束（Integrity Constraint）：
对数据库数据的正确性和有效性的约束。假如在任何时刻，一个数据库满足显式指定的验证规则集合，就说该数据库是满足完整性约束的。
· 触发器（Trigger）：
触发器是一种特殊类型的存储过程，它由一系列的命令组成。当关系表中数据被修改时，系统自动执行触发器定义的操作。
· T-SQL（Transaction - SQL）：
T-SQL是SQL Server的数据库语言，它是对标准SQL语言的扩充。T-SQL以函数、数据类型、逻辑运算符及流程控制语句等扩充了SQL语言的功能。
· 存储过程（Stored Procedure）：
存储过程是存放在服务器上的预先定义与编译好的SQL语句。可以提供给有权限的用户共享调用，提高系统的执行效率。
· 数据模式（Data Schema）:
对某一类数据的结构、属性、联系和约束的描述称为数据模式。
· 关系模式(Relation Schema):
对关系的描述称为关系模式。关系模式可以形式化地表示为：
R(U, F)或R(U)，
其中R为关系名, U为组成该关系的属性名集合, F为属性间数据的依赖关系集合。
· 数据依赖(Data Dependency):
是说明在一个关系中属性值之间的相互关系，它是现实世界属性间相互联系的抽象，是数据内在的性质，是语义的体现。

· 函数依赖(Functional Dependency)
所谓函数依赖是指关系中一个或一组属性的值可以决定其它属性的值。函数依赖正象一个函数 y = f(x) 一样，x的值给定后，y的值也就唯一地确定了。
· 规范化（Normalization）：
关系模式需要满足一定的条件，不同程度的条件称作不同程度的规范化。对关系的最基本的规范化要求是每一个分量必须是不可分的数据项。
· 原子聚合（Atom Aggregation）：
原子聚合是用实体表示联系。即把实体之间的联系看作是更高层次的一个实体，对较低层次实体不予考虑。
· 数据流图(Data Flow Diagram)：
是从"数据"和"对数据的加工"两方面表达数据处理系统工作过程的一种图形表示法, 具有直观、易于被用户和软件人员双方理解的特点。
· 数据字典(Data Dictionary)
是各类数据描述的集合，通常包括数据项、数据结构、数据流、数据存储和加工过程等五个部分。
· Asp：
ASP是一套微软开发的服务器端脚本环境，ASP内含于IIS 3.0和 4.0 之中,通过ASP我们可以结合HTML网页、ASP指令和ActiveX元件建立动态、交互且高效的Web服务器应用程序。
· 数据库操纵语言DML：
数据操纵语言DML是终端用户、应用程序实现对数据库中的数据进行各种操纵的语言。DML包括的基本操作功能有：增加、删除、更新、检索等。
· 事务(transaction)：
是用户定义的一个数据库操作序列，这些操作要么全做，要么全不做，是一个不可分割的工作单元。
· 共享锁(shared lock) ：
共享锁只用于并发的只读数据操作。任何试图修改某数据的事务，如果该数据上有共享锁，那么该事务就会被阻塞，直到所有的共享锁被释放。
· 独占锁(exclusive lock) ：
任何写操作均要使用独占锁。独占锁被授予已经准备好进行数据修改的事务，确保其它事务不能访问该独占锁锁定的数据。
· 角色（role）：
角色是数据库访问许可的管理单位，其成员继承角色所拥有的访问许可。角色是为方便管理而设置的权限管理单位，类似于Windows NT中用户组的概念。
· 数据传输（Data Transformation）:
数据传输就是把数据从一个数据源(数据库或文件)转到另外一个数据源。
· 复制(replication):
复制是将一组数据通过网络从一个数据源拷贝到多个数据源的技术。使数据分布式的存放多个数据备份。
· 快照复制 (Snapshot Replication)：
快照复制是指出版服务器在指定的时刻把发表数据的变化更新到分发服务器上，改写原来存在的任何数据。
· 事务复制 (Transaction Replication) ：
事务复制发布的是修改发表数据的语句，如INSERT，UPDATE，DELETE，而实际的数据并不会传输。事务复制需要连续监视出版服务器事务日志的改变。
· 合并复制 (Merge Replication)：
合并复制修改出版服务器中的出版数据库和订阅服务器中的订阅数据库，它能够自动监视这些数据库中的数据变化，并定期将这些修改操作进行合并，把合并后的结果提交给所有订阅者。
· 客户机/服务器系统（Client/Server System）:
软件应用系统，其处理过程由两个有明显区别的结构分量共同提供，即客户机和服务器。
· 数据市场(Data Mart)：
服务于一个单位的某个部门的数据仓库和对数据限制较少的数据仓库工具。一个单位通常有若干个数据市场。
· 决策支持系统DSS（Decision Support System）：
能够帮助企业单位制定与商业有关的决策的一种自动化应用系统。
· 维度（Dimension）：
数据仓库用于组织大量运作数据和历史数据的一种形式，例如时间是一个重要的维度。
· 粒度（Granularity）：
数据仓库中用于表达信息详细程度的一个术语。粒度越高，详细的程度越低（高级抽象）。
· 索引：（Indexing）：
用于提高查找与检索数据库记录的数据访问方法，是改善数据库查询性能的一种经常使用的技术。
· 多维数据分析（Multidimensional data analysis）：
对多个数据维同时进行分析。
· 在线事务处理OLTP (On-Line Transaction Processing)：
连机对事务数据库中数据进行增、删、改操作，及查询和报表等处理。
· 在线分析处理OLAP（On-Line Analytical Processing）：
连机对多维数据进行分析、查询和报表等处理。
· 面向主题（Subject Oriented）：
按照商业主题或者题目所进行的分类。
· 对称多处理器SMP（Symmetric MultiProcessors）：
在一个CPU上按多个处理器来分解任务。
· 同义词（Synonyms）：
内容相同而名字不同的两个数据元素。
· 胖客户（Fat client）：
用于客户机/服务器结构中，其中客户工作站管理信息的处理（商业逻辑）以及图形用户界面。
· 瘦客户（Thin client）：
用于客户机/服务器结构中，其中客户工作站主要管理用户图形界面。
· 瀑布开发方法（Waterfall Development Method）：
一般用于软件开发工程中的传统开发生存期。该名称来源于以下事实：在瀑布中水流的方向总是单一的，因此这种方法的流程也是从需求收集和分析到系统开发和交付，每个阶段都要产生一箩文档，形似瀑布。

问题：
1．不同的Cax之间数据集成和交换的三个级别的含义是什么?

2．层次数据模型的定义?

3．网状数据模型的定义?

4．关系数据模型的定义?

5．什么是数据完整性？关系数据库中数据完整性约束的分类。

6．什么是存储过程？存储过程的优点是什么？

7．有关系模式R(U,F)，属性集U={A,B,C,D,E}，函数依赖集合F={AB?C, C?D, B?E}，请回答：R最高属于第几范式？说明理由；如果R不属于第三范式？说明理由并转换为第三范式。

8．什麽是数据字典？

9．视图集成中，主要解决的冲突有哪些？

10．什么是事务，简述事务主要特性。

11．并发控制的目的和意义？并发操作可能产生的主要问题有哪些？

12．数据库系统可能发生的主要故障有哪些？简述DBMS恢复数据库的措施和方法。

13．DBMS的体系结构分几种？

14．在分布式事务的控制中采用了哪两阶段提交协议（Two-Phase Commit Protocol）？

15．面向对象数据库独立的对象标识的特性?

16．简述数据仓库的定义。

17．数据仓库的分析型的数据与传统数据库的操作型数据的主要差别有哪些？

18．图书馆管理系统中管理员与图书之间的管理关系，如图书上架、借出图书等管理工作的联系是否在E-R模型中画出？

19．图书馆管理系统中借阅人（学生）查询图书的联系是否需要在E-R模型中画出？

20．SQL Server中服务器分组的目的？

答案1：
　不同系统间数据集成与交换的方式有三种：
　（1）点到点的集成：有N个应用程序模块，就要 N*(N-1)个前后处理器转换接口。
　（2） BUS总线集成：N个不同的应用程序只需2×N个前后处理器转换程序，每个应用程序都转换为采用国际数据交换标准格式中性文件结构。
　（3）用统一的数据模型集成：所有的应用程序都采用统一的数据模型和数据结构、统一的标准接口，一个应用程序的数据可由其他应用程序共享。
　返回题目>>
答案2：
　在数据库中定义满足下面两个条件的基本层次联系的集合为层次模型：
· 有且只有一个结点没有双亲结点，这个结点称为根结点
· 根以外的其他结点有且只有一个双亲结点。
　返回题目>>
答案3：
　在数据库中定义满足下面两个条件的基本层次联系的集合为网状模型：
· 允许一个以上的结点没有双亲结点
· 至少有一个结点可以有多于一个的双亲结点。
　返回题目>>
答案4：
　关系数据模型是由若干关系组成的集合。每个关系从结构上看实际上是一张二维表格，表中的每行表示一个实体对象，表的每列对应一个实体属性, 实体之间的关系用关键字来表示，这样的一张表称为一个关系。
　返回题目>>
答案5：
　(1) 数据的完整性是指存储在数据库中的数据的一致性和正确性。关系模型数据完整性的分类有
· 域完整性：列的值域的完整性。
·实体完整性：表中记录的完整性。
·?引用完整性：被引用表中的主关键字和引用表中的外部主关键字之间的关系。
· 用户自定义完整性：
　返回题目>>
答案6：
　(1) 存储过程是存放在服务器上的预先定义与编译好的T_SQL语句。存储过程在第一次执行时进行语法检查和编译。编译好的版本存储在过程高速缓存中用于后续调用，执行速度快。存储过程由应用程序激活，而不是由SQL Server自动执行。
　(2) 存储过程特点：
· 使多个应用程序可以共享应用程序的处理逻辑，所有的客户机程序使用同一个存储过程进行各种操作，从而确保数据访问和操作的一致性，也提高了应用程序的可维护性。
· 由于存储过程在第一次执行之后，就驻存在高速缓存存储器中，因此可以提高系统的执行效率。
· 提供一种安全机制。如果用户被授予执行存储过程的权限，那么既使该用户没有执行访问在该存储过程中所参考的表或者视图的权限，该用户也可以完全执行该存储过程。
· 减少了网络的流量负载。由于存储过程是存在服务器端的，因此客户端要执行存储过程时，只需要传送一条命令即可，如果不使用存储过程，则需要传送许多条SQL语句。
· 因为存储过程提供该前端应用程序共享的处理逻辑，若要改变业务规则或策略，只需改变存储过程和参数。
　返回题目>>
答案7：
　(1) R最高属于第一范式；
　(2) R的候选码是：（A,B） (A,C)
　(3) 分解R为第三范式:
　　oR1(A,B,C)
　　oR2(C,D)
　　oR3(B,E)
　返回题目>>
答案8：
　数据字典是系统中各类数据描述的集合，是进行详细的数据收集和数据分析所获得的主要成果。数据字典在数据库设计中占有很重要的地位。
　数据字典通常包括数据项、数据结构、数据流、数据存储和处理过程五个部分。其中数据项是数据的最小组成单位，若干个数据项可以组成一个数据结构，数据字典通过对数据项和数据结构的定义来描述数据流、数据存储的逻辑内容。
每个数据库中至少要存储两部分内容：数据的描述和对应每个描述的若干值。
　返回题目>>
答案9：
　(1) 命名冲突：在不同的视图中，可能有：
　· 同名异义冲突
　· 异名同义冲突
　· 相同属性的取值单位冲突。
　(2) 结构冲突：
　· 同一对象在一个视图中作为实体，在另一个视图中可能作为属性或联系。
　· 同一实体在不同的分E-R图中所包含的属性个数和属性排列次序不完全相同。
　· 不同的视图对同一个联系可能有不同的约束。
　返回题目>>
答案10：
　(1) 事务(transaction)是用户定义的一个数据库操作序列，是数据库中不可分割的最基本的工作单元，也是数据库恢复和并发控制的基本单元。
　(2) 事务具有四个特性：
　· 原子性(Atomicity)，事务的原子性指的是，事务中包含的程序作为数据库的逻辑工作单位，它所做的数据修改操作要么全部执行，要么完全不执行。这种特性称为原子性。
　· 一致性(Consistency)，事务的一致性指的是在一个事务执行之前和执行之后数据库都必须处于一致性状态。这种特性称为事务的一致性。
　· 分离性(Isolation)，分离性指并发的事务是相互隔离的。即一个事务内部的操作及正在操作的数据必须封锁起来，不被其它企图进行修改的事务看到。分离性是DBMS针对并发事务间的冲突提供的安全保证。DBMS可以通过加锁在并发执行的事务间提供不同级别的分离。
　· 持久性(Durability)，持久性意味着当系统或介质发生故障时，确保已提交事务的更新不能丢失。即一旦一个事务提交，DBMS保证它对数据库中数据的改变应该是永久性的，耐得住任何系统故障。持久性通过数据库备份和恢复来保证。
　返回题目>>
答案11：
　（1）并发控制的目的：改善系统的资源利用率，充分利用数据库共享数据的特点；在保证事务的特性和数据库一致的前提下，提高多用户的并发程度；
　（2）事务如果不加控制地并发执行，会产生下列三个问题：
　· 丢失更新 (lost update)
　· 读脏数据 (dirty read)
　· 读值不可复现 (unrepeatable read)
　返回题目>>
答案12：
　(1) 数据库系统的主要故障有以下三种:
　· 事务故障
　· 系统故障
　· 存储介质故障
(2) DBMS采用相应策略进行数据库恢复:
　· 事务提交
　· 数据库转储
　· 日志和日志文件
　返回题目>>
答案13：
　DBMS的三种体系结构：
　（1）物理中心数据库；一台大型的中心计算机存放数据库管理系统和数据库，通过网络连接大量终端。
　（2）分布式数据库：一个分布式数据库是由分布于计算机网络上的多个逻辑相关的数据库组成的集合，网络中的每个结点具有独立处理的能力（称为场地自治），可执行局部应用，同时，每个结点通过网络通讯系统也能执行两个结点以上的全局应用。
　（3）客户/服务器结构：一台大型的服务器计算机存放数据库管理系统和数据库，通过网络连接大量客户端计算机；数据库服务器提供客户端的服务请求，存储和管理数据库，把局部数据传送到客户端进行处理，处理后的数据再写回服务器；客户端的DBMS没有并发控制要求，功能比较简单。客户端和服务器端分工明确，各司其职。
　返回题目>>
答案14：
　即分布式事务的提交分为两个阶段：
　· 预提交阶段(Pre-Commit Phase)
　· 决策后阶段（Post-Decision Phase）
　返回题目>>
答案15：
　独立的对象标识符 OID具有下面特性：
　(1) 每个对象在产生时得到一个唯一的标识符。
　(2) 标识符在对象的整个生命周期内是固定不变的。
　(3) 一个被删除对象的标识符不可再用。
　(4) 对象标识独立于对象的存储位置和对象的状态。
　(5) 用户定义的关键字仍然可以存在。
　返回题目>>
答案16：
　数据仓库的定义是："数据仓库是支持决策过程的、面向主题的、集成的、随时间变化的、持久的数据集合。"
　返回题目>>
答案17：

操作型数据	分析型数据
细节的	综合的
在存取的瞬间是正确的	代表过去的数据
可更新，由录入人员或经过专门培训的输入事务而更新	不可更新，终端用户的访问权限常常是只读的
处理细节问题	受到更多关注的是结论性的数据，是综合的，或是提炼的
操作需求事先可知道，系统可按预计的工作量进行优化	操作需求事先不知道，永远不知道下一步用户要做什么
事务驱动	分析驱动
对性能要求高	对性能要求宽松
面向日常业务操作应用	面向分析决策，支持管理需求
一次操作数据量少	一次操作数据量多
对响应时间要求高	对响应时间要求低

　返回题目>>

答案18：

　（1）凡是E_R模型中出现的联系，都应该反映在数据库中，就是说，数据库中应该存储在E-R模型图中画出的所有联系信息。
　（2）根据用户对系统的要求，判断是否需要建立管理员与图书之间的管理关系。例如，假如用户要求记录每个管理员的工作情况：如每个管理员每天借出了多少图书？接收还回图书多少次？购进图书多少？上架多少等等，领导可以根据每个人的工作情况评价工作人员的业绩，这就需要在数据库中记录这些管理工作。否则，就不需要建立这种联系。
　返回题目>>
答案19：

　查阅操作是否需要在数据库中有关的信息，也根据用户对系统的要求，决定是否需要建立查阅人员与查阅图书之间的关系。对于保密的资料，必须记录每个查阅人的情况，包括查阅人的信息、查阅时间、查阅内容等。对于不需要记录查阅过程的系统，就不需要建立这种联系。
　返回题目>>
答案20：
　一个企业的数据可能分布在多个服务器上，为了便于管理和使用，把所有的服务器按管理的内容分组。如财务部门使用两个服务器，设计部门使用三个服务器，人事部门使用一个个服务器等等，可把服务器分为财务组服务器，设计组服务器，人事组服务器等等。
　返回题目>>