7 数据库设计

2024-04-20 00:53| 来源: 网络整理| 查看: 265

一、数据库设计概述1. 数据库设计的特点“三分技术，七分管理，十二分基础数据”结构（数据）设计和行为（处理）设计相结合2. 数据库设计方法新奥尔良（New Orleans）方法基于E-R模型的设计方法3NF的设计方法面向对象的数据库设计方法统一建模语言3. 数据库设计的基本步骤

分为以下6个阶段：

需求分析概念结构设计逻辑结构设计物理结构设计数据库实施数据库运行和维护

数据库设计各个阶段的数据设计描述：

数据库设计过程中的各级模式

二、需求分析1 需求分析的方法

首先是调查清楚用户的实际需求，与用户达成共识，然后分析与表达这些需求

调查用户需求的具体步骤是：

调查组织机构情况调查各部门的业务活动情况在熟悉业务活动的基础上，协助用户明确对新系统的各种要求，包括信息要求、处理要求、安全性与完整性要求确定系统的边界

常用的调查方法有：

跟班调查开调查会请专人介绍询问设计调查表请用户填写查阅记录2 数据字典

数据字典由数据项、数据结构、数据流、数据存储和处理过程组成

1. 数据项：数据项是不可再分的数据单位。

对数据项的描述通常包括以下内容：

数据项描述={数据项名，数据项含义说明，别名，数据类型，长度，取值范围，取值含义，与其他数据项的逻辑关系，数据项之间的联系}

“取值范围”、“与其他数据项的逻辑关系”定义了数据的完整性约束条件，是设计数据检验功能的依据。可以用关系规范化理论为指导，用数据依赖的概念分析和表示数据项之间的联系。

2. 数据结构

数据结构反映了数据之间的组合关系。

一个数据结构可以由若干个数据项组成，也可以由若干个数据结构组成，或由若干个数据项和数据结构混合组成。

对数据结构的描述通常包括以下内容：

数据结构描述={数据结构名，含义说明，组成：{数据项或数据结构}}

3. 数据流 数据流是数据结构在系统内传输的路径。

对数据流的描述通常包括以下内容：

数据流描述={数据流名，说明，数据流来源，数据流去向，组成：{数据结构}，平均流量，高峰期流量}

数据流来源：说明该数据流来自哪个过程数据流去向：说明该数据流将到哪个过程去平均流量：在单位时间（每天、每周、每月等）里的传输次数高峰期流量：在高峰时期的数据流量

4. 数据存储

数据存储是数据结构停留或保存的地方，也是数据流的来源和去向之一。

对数据存储的描述通常包括以下内容：

数据存储描述={数据存储名，说明，编号，输入的数据流，输出的数据流，组成：{数据结构}，数据量，存取频度，存取方式}

存取频度：每小时、每天或每周存取次数及每次存取的数据量等信息存取方式：批处理/ 联机处理；检索/ 更新；顺序检索/随机检索输入的数据流：数据来源输出的数据流：数据去向

5. 处理过程

处理过程的具体处理逻辑一般用判定表或判定树来描述。数据字典中只需要描述处理过程的说明性信息。

处理过程说明性信息的描述通常包括以下内容：

处理过程描述={处理过程名，说明，输入：{数据流}，输出：{数据流}，处理：{简要说明}}

简要说明：说明该处理过程的功能及处理要求。

功能：该处理过程用来做什么处理要求：处理频度要求，如单位时间里处理多少事务，多少数据量、响应时间要求等这些处理要求是后面物理设计的输入及性能评价的标准

把需求收集和分析作为数据库设计的第一阶段是十分重要的。第一阶段收集的基础数据（用数据字典来表达）是下一步进行概念设计的基础。强调两点：

（1）设计人员应充分考虑到可能的扩充和改变，使设计易于更改、系统易于扩充

（2）必须强调用户的参与

三、概念结构设计1. 概念模型

概念模型的主要特点：

（1）能真实、充分地反映现实世界，包括事物和事物之间的联系，是现实世界的一个真实模型

（2）易于理解，可以用它和不熟悉计算机的用户交换意见。

（3）易于更改，当应用环境和应用要求改变时容易对概念模型修改和扩充。

（4）易于向关系、网状、层次等各种数据模型转换。

2. E-R模型

描述概念模型的工具：E-R 模型

2.1 实体之间的联系

（1）两个实体型之间的联系

① 一对一联系（1:1）

如果对于实体集 A 中的每一个实体，实体集 B 中至多有一个（也可以没有）实体与之联系，反之亦然，则称实体集 A 与实体集 B 具有一对一联系，记为 1:1。

例如，学校里一个班级只有一个正班长，而一个班长只在一个班中任职，则班级与班长之间具有一对一联系。

② 一对多联系（1:n）

如果对于实体集 A 中的每一个实体，实体集 B 中有 n 个实体($n \ge 0$)与之联系，反之，对于实体集 B 中的每一个实体，实体集 A 中至多只有一个实体与之联系，则称实体集 A 与实体集 B 有一对多联系，记为 1:n。

例如，一个班级中有若干名学生，而每个学生只在一个班级中学习，则班级与学生之间具有一对多联系。

③ 多对多联系（m:n）

如果对于实体集 A 中的每一个实体，实体集 B 中有 n 个实体（n⩾0 ）与之联系，反之，对于实体集 B 中的每一个实体，实体集 A 中也有 m 个实体（n⩾0 ）与之联系，则称实体集 A 与实体集 B 具有多对多联系，记为 m:n。

例如，一门课程同时有若干个学生选修，而一个学生可以同时选修多门课程，则课程与学生之间具有多对多联系。

（2）两个以上的实体型之间的联系

一般地，两个以上的实体型之间也存在着一对一、一对多、多对多联系。

例如，对于课程、教师与参考书 3 个实体型，如果一门课程可以有若干个教师讲授，使用若干本参考书，而每一个教师只讲授一门课程，每一本参考书只供一门课程使用，则课程与教师、参考书之间的联系是一对多的，如图(a)所示。

例如，有三个实体型：供应商、项目、零件，一个供应商可以供给多个项目多种零件，而每个项目可以使用多个供应商供应的零件，每种零件可由不同供应商供给，由此看出供应商、项目、零件三者之间是多对多的联系，如图(b)所示。

（3）单个实体型内的联系

同一个实体集内的各实体之间也可以存在一对一、一对多、多对多联系。

例如，职工实体型内部具有领导与被领导的联系，即某一职工（干部）“领导”若干名职工，而一个职工仅被另外一个职工直接领导，因此这是一对多的联系。

联系的度：参与联系的实体型的数目

两个实体型之间的联系度为 2，也称为二元联系；三个实体型之间的联系度为 3，称为三元联系；N个实体型之间的联系度为 N，也称为 N 元联系。

2.2 E-R图

E-R 图提供了表示实体型、属性和联系的方法。

（1）实体型：用矩形表示，矩形框内写明实体名。

（2）属性：用椭圆形表示，并用无向边将其与相应的实体型连接起来。

（3）联系：用菱形表示，菱形框内写明联系名，并用无向边分别与有关实体型连接起来，同时在无向边旁标上联系的类型（1:1、1:n 或 m:n）。

如果一个联系具有属性，则这些属性也要用无向边与该联系连接起来。

3. 概念结构设计

3.1 实体与属性的划分规则

为了简化 E-R 图的处置，现实世界的事物能作为属性对待的，尽量作为属性对待。

两条准则：

（1）作为属性，不能再具有需要描述的性质，即属性必须是不可分的数据项，不能包含其他属性。

（2）属性不能与其他实体具有联系，即 E-R 图中所表示的联系是实体之间的联系。

例1：职工是一个实体，职工号、姓名、年龄是职工的属性

职称如果没有与工资、福利挂钩，即没有需要进一步描述的特性，则根据准则（1）可以作为职工实体的属性如果不同的职称有不同的工资、住房标准和不同的附加福利，则职称作为一个实体更恰当

3.2 E-R图的集成

E-R 图的集成一般需要分两步：

合并。解决各分 E-R 图之间的冲突，将分 E-R 图合并起来生成初步 E-R 图。修改和重构。消除不必要的冗余，生成基本 E-R 图。

（1）合并 E-R 图，生成初步 E-R 图

各个局部应用所面向的问题不同，各个子系统的 E-R 图之间必定会存在许多不一致的地方，称之为冲突。

各子系统的 E-R 图之间的冲突主要有三类：属性冲突、命名冲突和结构冲突。

① 属性冲突

属性域冲突，即属性值的类型、取值范围或取值集合不同。例如零件号，有的部门把它定义为整数，有的部门把它定义为字符型。例如年龄，某些部门以出生日期形式表示职工的年龄，而另一些部门用整数表示职工的年龄。属性取值单位冲突。例如零件的重量有的以公斤为单位，有的以斤为单位，有的以克为单位。

属性冲突理论上好解决，但实际上需要各部门讨论协商，解决起来并非易事。

② 命名冲突

同名异义，即不同意义的对象在不同的局部应用中具有相同的名字。异名同义（一义多名），即同一意义的对象在不同的局部应用中具有不同的名字。

如对科研项目，财务科称为项目，科研处称为课题，生产管理处称为工程。

命名冲突可能发生在实体、联系一级上，也可能发生在属性一级上，通过讨论、协商等行政手段加以解决。

③ 结构冲突主要包含以下三类冲突：

同一对象在不同应用中具有不同的抽象。例如，职工在某一局部应用中被当作实体，而在另一局部应用中则被当作属性。解决方法：把属性变换为实体或把实体变换为属性，使同一对象具有相同的抽象。同一实体在不同子系统的 E-R 图中所包含的属性个数和属性排列次序不完全相同。解决方法：使该实体的属性取各子系统的 E-R 图中属性的并集，再适当调整属性的次序。实体间的联系在不同的 E-R 图中为不同的类型。实体 E1 与 E2 在一个 E-R 图中是多对多联系，在另一个 E-R 图中是一对多联系。解决方法：根据应用的语义对实体联系的类型进行综合或调整。

（2）消除不必要的冗余，设计基本 E-R 图

在初步 E-R 图中可能存在一些冗余的数据和实体间冗余的联系。所谓冗余的数据是指可由基本数据导出的数据，冗余的联系是指可由其他联系导出的联系。消除冗余主要采用分析方法，即以数据字典和数据流图为依据，根据数据字典中关于数据项之间逻辑关系的说明来消除冗余。并不是所有的冗余数据与冗余联系都必须加以消除，有时为了提高效率，不得不以冗余信息作为代价。

除分析方法外，还可以用规范化理论来消除冗余，即求最小依赖集

四、逻辑结构设计1. E-R图向关系模型的转换

需要转换的内容：

关系模型的逻辑结构是一组关系模式的集合。 E-R 图是由实体型、实体的属性和实体型之间的联系三个要素组成的。将 E-R 图转换为关系模型，实际上就是要将实体型、实体的属性和实体型之间的联系转化为关系模式

转换原则：一个实体型转换为一个关系模式，关系的属性就是实体的属性，关系的码就是实体的码。

实体型间的联系有以下不同情况：

（1）一个 1:1 联系可以转换为一个独立的关系模式，也可以与任意一端对应的关系模式合并

（2）一个 1:n 联系可以转换为一个独立的关系模式，也可以与 n 端对应的关系模式合并

（3）一个 m:n 联系转换为一个关系模式

（4）三个或三个以上实体间的一个多元联系转换为一个关系模式

（5）具有相同码的关系模式可合并

2. 数据模型的优化

需要优化的原因：

数据库逻辑设计的结果不是唯一的。得到初步数据模型后，还应该适当地修改、调整数据模型的结构，以进一步提高数据库应用系统的性能，这就是数据模型的优化。关系数据模型的优化通常以规范化理论为指导

优化数据模型的方法：

（1）确定数据依赖

（2）对于各个关系模式之间的数据依赖进行极小化处理，消除冗余的联系

（3）按照数据依赖的理论对关系模式逐一进行分析，考察是否存在部分函数依赖、传递函数依赖、多值依赖等，确定各关系模式分别属于第几范式。

（4）根据需求分析阶段得到的处理要求，分析对于这样的应用环境这些模式是否合适，确定是否要对某些模式进行合并或分解。

（5）对关系模式进行必要分解，提高数据操作效率和存储空间的利用率。

3. 设计用户子模式

定义数据库全局模式主要是从系统的时间效率、空间效率、易维护等角度出发。

定义用户外模式时应该更注重考虑用户的习惯与方便。包括三个方面：

（1）使用更符合用户习惯的别名

合并各分 E-R 图曾做了消除命名冲突的工作，以使数据库系统中同一关系和属性具有唯一的名字。这在设计数据库整体结构时是非常必要的。用视图机制可以在设计用户视图时重新定义某些属性名，使其与用户习惯一致，以方便使用。

（2）针对不同级别的用户定义不同的视图，以保证系统的安全性。

假设有关系模式产品（产品号，产品名，规格，单价，生产车间，生产负责人，产品成本，产品合格率，质量等级），可以在产品关系上建立两个视图：

为一般顾客建立视图：产品1（产品号，产品名，规格，单价）为产品销售部门建立视图：产品2（产品号，产品名，规格，单价，车间，生产负责人）

（3）简化用户对系统的使用

如果某些局部应用中经常要使用某些很复杂的查询，为了方便用户，可以将这些复杂查询定义为视图。

五、物理结构设计

为一个给定的逻辑数据模型选取一个最适合应用要求的物理结构的过程就是数据库的物理设计

数据库的物理设计通常分为两步：

1. 确定数据库的物理结构，在关系数据库中主要指存取方法和存储结构

2. 对物理结构进行评价，评价的重点是时间和空间效率

1. 关系模式存取方法选择

数据库管理系统常用存取方法：B+树索引存取方法（索引方法）、hash 索引存取方法（索引方法）、聚簇存取方法（聚簇方法）

1. B+树索引存取方法的选择

根据应用要求确定对关系的哪些属性列建立索引、哪些属性列建立组合索引、哪些索引要设计为唯一索引一般规则：

（1）如果一个（或一组）属性经常在查询条件中出现，则考虑在这个（或这组）属性上建立索引（或组合索引）

（2）如果一个属性经常作为最大值和最小值等聚集函数的参数，则考虑在这个属性上建立索引

（3）如果一个（或一组）属性经常在连接操作的连接条件中出现，则考虑在这个（或这组）属性上建立索引

关系上定义的索引数并不是越多越好，系统为维护索引要付出代价，查找索引也要付出代价。例如，若一个关系的更新频率很高，这个关系上定义的索引数不能太多。因为更新一个关系时，必须对这个关系上有关的索引做相应的修改。

2. hash索引存取方法的选择

如果一个关系的属性主要出现在等值连接条件中或主要出现在等值比较选择条件中，而且满足下列两个条件之一，则此关系可以选择 hash 存取方法。

（1）该关系的大小可预知，而且不变

（2）该关系的大小动态改变，但所选用的数据库管理系统提供了动态 hash 存取方法。

3. 聚簇存取方法的选择

聚簇：为了提高某个属性（或属性组）的查询速度，把这个或这些属性上具有相同值的元组集中存放在连续的物理块中。该属性（或属性组）称为聚簇码（cluster key）。

2. 确定数据库的存储结构

确定数据库物理结构主要指确定数据的存放位置和存储结构，包括确定关系、索引、聚簇、日志、备份等的存储安排和存储结构，确定系统配置等。确定数据的存放位置和存储结构要综合考虑存取时间、存储空间利用率和维护代价三方面的因素。这三个方面常常是相互矛盾的，因此需要进行权衡，选择一个折中方案。

1. 确定数据的存放位置 为了提高系统性能，应该根据应用情况将数据的易变部分与稳定部分、经常存取部分和存取频率较低部分分开存放。例如：

可以将比较大的表分别放在两个磁盘上，以加快存取速度，这在多用户环境下特别有效可以将日志文件与数据库对象（表、索引等）放在不同的磁盘上，以改进系统的性能。

2. 确定系统配置

关系数据库管理系统产品一般都提供了一些系统配置变量和存储分配参数，供设计人员和数据库管理员对数据库进行物理优化。初始情况下，系统都为这些变量赋予了合理的默认值。但是这些值不一定适合每一种应用环境，在进行物理设计时需要重新对这些变量赋值，以改善系统的性能。

六、数据库的实施和维护

数据库的维护工作：

1. 数据库的转储和恢复

2. 数据库的安全性、完整性控制

3. 数据库性能的监督、分析和改造

4. 数据库的重组织与重构造

【本文地址】

7 数据库设计

7 数据库设计

今日新闻

推荐新闻