[高等教育]第2章关系数据理论与数据库设计一

[高等教育]第2章关系数据理论与数据库设计一第2章关系数据库设计理论本章概要前面已经讲述了关系数据库、关系模型的基本概念以及关系数据库的标准语言。如何使用关系模型设计关系数据库，也就是面对一个现实问题，如何选择一个比较好的关系模式的集合，每个关系又应该由哪些属性组成。这属于数据库设计的问题，确切地讲是数据库逻辑设计的问题本章讲述关系数据库规范化理论，这是数据库逻辑设计的理论依据。要求了解规范化理论的研究动机及其在数据库设计中的作用掌握函数依赖的有关概念第一范式、第二范式、第三范式的定义重点掌握并能够灵活运用关系模式规范化的方法和关系模式分解的方法，这也是本章...

第2章关系数据库设计理论本章概要前面已经讲述了关系数据库、关系模型的基本概念以及关系数据库的标准语言。如何使用关系模型设计关系数据库，也就是面对一个现实问题，如何选择一个比较好的关系模式的集合，每个关系又应该由哪些属性组成。这属于数据库设计的问题，确切地讲是数据库逻辑设计的问题本章讲述关系数据库规范化理论，这是数据库逻辑设计的理论依据。要求了解规范化理论的研究动机及其在数据库设计中的作用掌握函数依赖的有关概念第一范式、第二范式、第三范式的定义重点掌握并能够灵活运用关系模式规范化的方法和关系模式分解的方法，这也是本章的难点。2.1规范化问题的提出2.1.1规范化理论的主要内容关系数据库的规范化理论最早是由关系数据库的创始人E.F.Codd提出的后经许多专家学者对关系数据库理论作了深入的研究和发展，形成了一整套有关关系数据库设计的理论在该理论出现以前，层次和网状数据库的设计只是遵循其模型本身固有的原则，而无具体的理论依据可言，因而带有盲目性，可能在以后的运行和使用中发生许多预想不到的问题在关系数据库系统中，关系模型包括一组关系模式，各个关系不是完全孤立的，数据库的设计较层次和网状模型更为重要。如何设计一个适合的关系数据库系统，关键是关系数据库模式的设计，一个好的关系数据库模式应该包括多少关系模式，而每一个关系模式又应该包括哪些属性，又如何将这些相互关联的关系模式组建一个适合的关系模型，这些工作决定了到整个系统运行的效率，也是系统成败的关键所在，所以必须在关系数据库的规范化理论的指导下逐步完成。关系数据库的规范化理论主要包括三个方面的内容：函数依赖范式（NormalForm）模式设计其中，函数依赖起着核心的作用，是模式分解和模式设计的基础，范式是模式分解的标准。2.1.2关系模式的存储异常问题数据库的逻辑设计为什么要遵循一定的规范化理论？什么是好的关系模式？某些不好的关系模式可能导致哪些问题？下面通过例子进行分析:例如，要求设计教学管理数据库，其关系模式SCD如下：SCD(SNO,SN,AGE,DEPT,MN,CNO,SCORE)其中，SNO表示学生学号，SN表示学生姓名，AGE表示学生年龄，DEPT表示学生所在的系别，MN表示系主任姓名，CNO表示课程号，SCORE表示成绩。根据实际情况，这些数据有如下语义规定：1.一个系有若干个学生，但一个学生只属于一个系；2.一个系只有一名系主任，但一个系主任可以同时兼几个系的系主任；3.一个学生可以选修多门功课，每门课程可有若干学生选修；4.每个学生学习课程有一个成绩。在此关系模式中填入一部分具体的数据，则可得到SCD关系模式的实例，即一个教学管理数据库，如图2.1所示。图2.1关系SCD根据上述的语义规定，并分析以上关系中的数据，我们可以看出：(SNO,CNO)属性的组合能唯一标识一个元组，所以(SNO,CNO)是该关系模式的主关系键。但在进行数据库的操作时，会出现以下几方面的问题。1.数据冗余。每个系名和系主任的名字存储的次数等于该系的学生人数乘以每个学生选修的课程门数，同时学生的姓名、年龄也都要重复存储多次，数据的冗余度很大，浪费了存储空间2.插入异常。如果某个新系没有招生，尚无学生时，则系名和系主任的信息无法插入到数据库中。因为在这个关系模式中，(SNO,CNO)是主关系键。根据关系的实体完整性约束，主关系键的值不能为空，而这时没有学生，SNO和CNO均无值，因此不能进行插入操作。另外，当某个学生尚未选课，即CNO未知，实体完整性约束还规定，主关系键的值不能部分为空，同样不能进行插入操作。3.删除异常。某系学生全部毕业而没有招生时，删除全部学生的记录则系名、系主任也随之删除，而这个系依然存在，在数据库中却无法找到该系的信息。另外，如果某个学生不再选修C1课程，本应该只删去C1，但C1是主关系键的一部分，为保证实体完整性，必须将整个元组一起删掉，这样，有关该学生的其它信息也随之丢失。4.更新异常。如果学生改名，则该学生的所有记录都要逐一修改SN又如某系更换系主任，则属于该系的学生记录都要修改MN的内容，稍有不慎，就有可能漏改某些记录，这就会造成数据的不一致性，破坏了数据的完整性。由于存在以上问题，我们说，SCD是一个不好的关系模式。产生上述问题的原因，直观地说，是因为关系中“包罗万象”，内容太杂了。那么，怎样才能得到一个好的关系模式呢？我们把关系模式SCD分解为下面三个结构简单的关系模式，如图2.2所示。学生关系S(SNO,SN,AGE,DEPT)选课关系SC(SNO,CNO,SCORE)系关系D(DEPT,MN)SSC图3.2分解后的关系模式在以上三个关系模式中，实现了信息的某种程度的分离，S中存储学生基本信息，与所选课程及系主任无关D中存储系的有关信息，与学生无关SC中存储学生选课的信息，而与所学生及系的有关信息无关与SCD相比，分解为三个关系模式后，数据的冗余度明显降低。当新插入一个系时，只要在关系D中添加一条记录当某个学生尚未选课，只要在关系S中添加一条学生记录，而与选课关系无关，这就避免了插入异常当一个系的学生全部毕业时，只需在S中删除该系的全部学生记录，而关系D中有关该系的信息仍然保留，从而不会引起删除异常同时，由于数据冗余度的降低，数据没有重复存储，也不会引起更新异常。经过上述分析，我们说分解后的关系模式是一个好的关系数据库模式。从而得出结论，一个好的关系模式应该具备以下四个条件：1.尽可能少的数据冗余。2.没有插入异常。3.没有删除异常。4.没有更新异常。但要注意，一个好的关系模式并不是在任何情况下都是最优的如何按照一定的规范设计关系模式，将结构复杂的关系分解成结构简单的关系，从而把不好的关系数据库模式转变为好的关系数据库模式，这就是关系的规范化，规范化又可以根据不同的要求而分成若干级别我们要设计的关系模式中的各属性是相互依赖、相互制约的，这样才构成了一个结构严谨的整体。因此在设计关系模式时，必须从语义上分析这些依赖关系2.2函数依赖2.2.1　函数依赖的定义及性质关系模式中的各属性之间相互依赖、相互制约的联系称为数据依赖。数据依赖一般分为函数依赖、多值依赖和连接依赖。其中,函数依赖是最重要的数据依赖。函数依赖（FunctionalDependency）是关系模式中属性之间的一种逻辑依赖关系。例如在上一节介绍的关系模式SCD中，SNO与SN、AGE、DEPT之间都有一种依赖关系。由于一个SNO只对应一个学生，而一个学生只能属于一个系，所以当SNO的值确定之后，SN，AGE，DEPT的值也随之被唯一的确定了。这类似于变量之间的单值函数关系。设单值函数Y=F(X)，自变量X的值可以决定一个唯一的函数值Y。在这里，我们说SNO决定函数（SN，AGE，DEPT），或者说（SN，AGE，DEPT）函数依赖于SNO。下面给函数依赖的形式化定义。2.2.1.1　函数依赖的定义定义2.1　设关系模式R(U，F)，U是属性全集，F是U上的函数依赖集，X和Y是U的子集，如果对于R(U)的任意一个可能的关系r，对于X的每一个具体值，Y都有唯一的具体值与之对应，则称X函数决定Y，或Y函数依赖于X，记作X→Y。我们称X为决定因素，Y为依赖因素。当Y不函数依赖于X时，记作：XY。当X→Y且Y→X时，则记作：XY。对于关系模式SCDU={SNO,SN,AGE,DEPT,MN,CNO,SCORE}F={SNO→SN，SNO→AGE，SNO→DEPT}一个SNO有多个SCORE的值与其对应，因此SCORE不能唯一地确定，即SCORE不能函数依赖于SNO，所以有：SNOSCORE。但是SCORE可以被（SNO，CNO）唯一地确定。所以可表示为：（SNO，CNO）→SCORE。有关函数依赖的几点说明：1．平凡的函数依赖与非平凡的函数依赖。当属性集Y是属性集X的子集时，则必然存在着函数依赖X→Y,这种类型的函数依赖称为平凡的函数依赖。如果Y不是X的子集，则称X→Y为非平凡的函数依赖。若不特别声明，我们讨论的都是非平凡的函数依赖。2．函数依赖是语义范畴的概念。我们只能根据语义来确定一个函数依赖，而不能按照其形式化定义来证明一个函数依赖是否成立。例如，对于关系模式S，当学生不存在重名的情况下，可以得到：SN→AGESN→DEPT这种函数依赖关系，必须是在没有重名的学生条件下才成立的，否则就不存在函数依赖了。所以函数依赖反映了一种语义完整性约束。3．函数依赖与属性之间的联系类型有关。（1）在一个关系模式中，如果属性X与Y有1:1联系时，则存在函数依赖X→Y，Y→X，即XY。例如，当学生无重名时，SNOSN。（2）如果属性X与Y有m:1的联系时，则只存在函数依赖X→Y。例如，SNO与AGE，DEPT之间均为m:1联系，所以有SNO→AGE，SNO→DEPT。（3）如果属性X与Y有m:n的联系时，则X与Y之间不存在任何函数依赖关系。例如，一个学生可以选修多门课程，一门课程又可以为多个学生选修，所以SNO与CNO之间不存在函数依赖关系。由于函数依赖与属性之间的联系类型有关，所以在确定属性间的函数依赖关系时，可以从分析属性间的联系类型入手，便可确定属性间的函数依赖。4．函数依赖关系的存在与时间无关。因为函数依赖是指关系中的所有元组应该满足的约束条件，而不是指关系中某个或某些元组所满足的约束条件。当关系中的元组增加、删除或更新后都不能破坏这种函数依赖。因此，必须根据语义来确定属性之间的函数依赖，而不能单凭某一时刻关系中的实际数据值来判断。例如，对于关系模式S，假设没有给出无重名的学生这种语义规定，则即使当前关系中没有重名的记录，也只能存在函数依赖SNO→SN，而不能存在函数依赖SN→SNO，因为如果新增加一个重名的学生，函数依赖SN→SNO必然不成立。所以函数依赖关系的存在与时间无关，而只与数据之间的语义规定有关。5．函数依赖可以保证关系分解的无损连接性。设R（X，Y，Z），X，Y，Z为不相交的属性集合，如果X→Y或X→Z,则有R(X，Y，Z)=R[X，Y]*R[X，Z]，其中，R[X，Y]表示关系R在属性（X，Y）上的投影，R[X，Z]表示关系R在属性（X，Z）上的投影。即R（X，Y，Z）等于其投影在X上的自然连接，这样便保证了关系R分解后不会丢失原有的信息，称作关系分解的无损连接性。例如，对于关系模式SCD，有SNO→（SN，AGE，DEPT，MN），SCD（SNO，SN，AGE，DEPT，MN，CNO，SCORE）=SCD[SNO，SN，AGE，DEPT，MN]*SCD[SNO，CNO，SCORE]，也就是说，用其投影在SNO上的自然连接可复原关系模式SCD。2.2.1.2函数依赖的基本性质1．投影性。根据平凡的函数依赖的定义可知，一组属性函数决定它的所有子集例如，在关系SCD中，（SNO，CNO）→SNO和（SNO，CNO）→CNO。2．扩张性。若X→Y且W→Z，则（X，W）→（Y，Z）。例如，SNO→（SN，AGE），DEPT→MN，则有（SNO，DEPT）→（SN，AGE，MN）。3．合并性。若X→Y且X→Z则必有X→（Y，Z）。例如，在关系SCD中，SNO→（SN,AGE），SNO→（DEPT,MN），则有SNO→（SN,AGE，DEPT，MN）。4．分解性。若X→（Y，Z）,则X→Y且X→Z。很显然，分解性为合并性的逆过程由合并性和分解性，很容易得到以下事实：X→A1，A2，…,An成立的充分必要条件是X→Ai（i=1,2,…,n）成立。2.2.2函数依赖的逻辑蕴涵定义2.2设F是关系模式R上的一个函数依赖集合，X、Y是R的属性子集，如果从F的函数依赖能推倒出X→Y，则称F逻辑地蕴涵X→Y，或称X→Y可以从F中导出，或X→Y逻辑蕴涵于F。定义2.3被F逻辑蕴涵的函数依赖的集合称为F的闭包（Closure），计为F+。一般情况下，F+包含或等于F。如果两者相等，则称F是函数依赖的完备集。2.2.3完全函数依赖与部分函数依赖定义2.4设关系模式R(U)，U是属性全集，X和Y是U的子集，如果X→Y，并且对于X的任何一个真子集X′,都有X′Y，则称Y对X完全函数依赖（FullFunctionalDependency），记作XY。如果对X的某个真子集X′，有X′→Y，则称Y对部分函数依赖（PartialFunctionalDependency），记作XY。例如，在关系模式SCD中，因为SNOSCORE，且CNOSCORE，所以有：（SNO，CNO）SCORE。而SNO→AGE，所以（SNO，CNO）AGE。由定义2.4可知：只有当决定因素是组合属性时，讨论部分函数依赖才有意义当决定因素是单属性时，只能是完全函数依赖。例如，在关系模式S（SNO，SN，AGE，DEPT），决定因素为单属性SNO，有SNO→（SN，AGE，DEPT），不存在部分函数依赖。2.2.4传递函数依赖定义2.5设有关系模式R（U），U是属性全集，X，Y，Z是U的子集，若X→Y，但YX，而Y→Z（YX，ZY），则称Z对X传递函数依赖（TransitiveFunctionalDependency），记作：X　Z。如果Y→X，则XY，这时称Z对X直接函数依赖，而不是传递函数依赖。例如，在关系模式SCD中，SNO→DEPT，但DEPTSNO，而DEPTN→MN，则有SNOMN。当学生不存在重名的情况下，有SNO→SN，SN→SNO，SNOSN，SN→DEPTN，这时DEPT对SNO是直接函数依赖，而不是传递函数依赖。综上所述，函数依赖分为完全函数依赖、部分函数依赖和传递函数依赖三类，它们是规范化理论的依据和规范化程度的准则，下面我们将以介绍的这些概念为基础，进行数据库的规范设计。2.3范式规范化的基本思想是消除关系模式中的数据冗余，消除数据依赖中的不合适的部分，解决数据插入、删除时发生异常现象。这就要求关系数据库设计出来的关系模式要满足一定的条件。我们把关系数据库的规范化过程中为不同程度的规范化要求设立的不同标准称为范式（NormalForm）。由于规范化的程度不同，就产生了不同的范式。满足最基本规范化要求的关系模式叫第一范式，在第一范式中进一步满足一些要求为第二范式，以此类推就产生了第三范式等概念。每种范式都规定了一些限制约束条件。范式的概念最早由E.F.Codd提出。从1971年起，Codd相继提出了关系的三级规范化形式，即第一范式（1NF）、第二范式（2NF）、第三范式（3NF）。1974年，Codd和Boyce以共同提出了一个新的范式的概念，即Boyce-Codd范式，简称BC范式。1976年Fagin提出了第四范式，后来又有人定义了第五范式。至此在关系数据库规范中建立了一个范式系列：1NF,2NF,3NF,BCNF,4NF,5NF,一级比一级有更严格的要求。各个范式之间的联系可以表示为：5NF4NFBCNF3NF2NF1NF如图2.3所示。图2.3各种范式之间的关系下面逐一介绍各级范式及其规范化。2.3.1第一范式第一范式（FirstNormalForm）是最基本的规范形式，即关系中每个属性都是不可再分的简单项。定义2.6如果关系模式R，其所有的属性均为简单属性，即每个属性都城是不可再分的，则称R属于第一范式，简称1NF，记作R1NF。在第2章讨论关系的性质时，我们把满足这个条件的关系称为规范化关系。在关系数据库系统中只讨论规范化的关系，凡是非规范化的关系模式必须化成规范化的关系。在非规范化的关系中去掉组合项就能化成规范化的关系每个规范化的关系都属于1NF，这也是它之所以称为“第一”的原因。然而，一个关系模式仅仅属于第一范式是不适用的。在2.1节中给出的关系模式SCD属于第一范式，但其具有大量的数据冗余，具有插入异常、删除异常、更新异常等弊端。为什么会存在这种问题呢？让我们分析一下SCD中的函数依赖关系，它的关系键是（SNO，CNO）的属性组合，所以有：（SNO，CNO）SCORESNO→SN，（SNO，CNO）SNSNO→AGE，（SNO，CNO）AGESNO→DEPT，（SNO，CNO）DEPTSNOMN，（SNO，CNO）MN我们可以用函数信赖图表示以上函数依赖关系，如图2.4所示。由此可见，在SCD中，既存在完全函数依赖，又存在部分函数依赖和传递函数依赖。这种情况往往在数据库中是不允许的，也正是由于关系中存在着复杂的函数依赖，才导致数据操作中出现了种弊端。克服这些弊端的方法是用投影运算将关系分解，去掉过于复杂的函数依赖关系，向更高一级的范式进行转换。T2.3.2第二范式2.3.2.1第二范式的定义定义2.7如果关系模式R1NF，且每个非主属性都完全函数依赖于R的每个关系键，则称R属于第二范式（SecondNormalForm），简称2NF，记作R2NF。在关系模式SCD中，SNO，CNO为主属性，AGE，DEPT，SN，MN，SCORE均为非主属性，经上述分析，存在非主属性对关系键的部分函数依赖，所以SCD2NF。而如图2.2所示的由SCD分解的三个关系模式S，D，SC，其中S的关系键为SNO，D的关系键为DEPT，都是单属性，不可能存在部分函数依赖。而对于SC，（SNO，CNO）SCORE。所以SCD分解后，消除了非主属性对关系键的部分函数依赖，S，D，SC均属于2NF。经以上分析，可以得到两个结论：1．从1NF关系中消除非主属性对关系键的部分函数依赖，则可得到2NF关系。2．如果R的关系键为单属性，或R的全体属性均为主属性，则R2NF。2.3.2.22NF规范化2NF规范化是指把1NF关系模式通过投影分解转换成2NF关系模式的集合。分解时遵循的基本原则就是“一事一地”，让一个关系只描述一个实体或者实体间的联系。如果多于一个实体或联系，则进行投影分解。下面以关系模式SCD为例，来说明2NF规范化的过程例2.1将SCD(SNO,SN,AGE,DEPT,MN,CNO,SCORE)规范到2NF。由SNO→SN，SNO→AGE，SNO→DEPT，（SNO，CNO）SCORE，可以判断，关系SCD至少描述了两个实体，一个为学生实体，属性有SNO、SN、AGE、DEPT、MN；另一个是学生与课程的联系（选课），属性有SNO、CNO和SCORE。根据分解的原则，我们可以将SCD分解成如下两个关系，如图2.5所示。SD(SNO,SN,AGE,DEPT，MN)，描述学生实体；SC(SNO,CNO,SCORE)，描述学生与课程的联系。SDSC图3.5关系SD和SC对于分解后的两个关系SD和SC，主键分别为SNO和（SNO，CNO），非主属性对主键完全函数依赖。因此，SD2NF，SC2NF，而且前面已经讨论，SCD的这种分解没有丢失任何信息，具有无损连接性。分解后，SD和SC的函数依赖分别如图2.6和2.7所示。图2.6SD中的函数依赖关系图2.7SC中的函数依赖关系1NF的关系模式经过投影分解转换成2NF后，消除了一些数据冗余。分析图2.5中SD和SC中的数据，可以看出，它们存储的冗余度比关系模式SCD有了较大辐度的降低。这样便可在一定程度上避免数据更新所造成的数据不一致性的问题。由于把学生的基本信息与选课信息分开存储，则学生基本信息因没选课而不能插入的问题得到了解决，插入异常现象得到了部分改善。同样，如果某个学生不再选修C1课程，只在选课关系SC中删去该该学生选修C1的记录即可，而SD中有关该学生的其它信息不会受到任何影响，也解决了部分删除异常问题。因此可以说关系模式SD和SC在性能上比SCD有了显著提高。下面对2NF规范化作形式化的描述。设关系模式R（X，Y，Z），R1NF，但R不是2NF，其中，X是键属性，Y，Z是非键属性，且存在部分函数依赖，X　Y。设X可表示为X1、X2，其中X1Y。则R（X，Y，Z）可以分解为R[X1，Y]和R[X，Z]。因为X1→Y，所以R(X，Y，Z)=R[X1，Y]*R[X1，X2，Z]=R[X1，Y]*R[X，Z]，即R等于其投影R[X1，Y]和[X，Z]在X1上的自然连接，R的分解具有无损连接性。由于X1Y，因此R[X1，Y]2NF。若R[X，Z]不是2NF，可以按照上述方法继续进行投影分解，直到将R[X，Z]分解为属于2NF关系的集合，且这种分解必定是有限的。2.3.2.32NF的缺点2NF的关系模式解决了1NF中存在的一些问题，2NF规范化的程度比1NF前进了一步，但2NF的关系模式在进行数据操作时，仍然存在着一些问题：1．数据冗余。每个系名和系主任的名字存储的次数等于该系的学生人数。2．插入异常。当一个新系没有招生时，有关该系的信息无法插入。3．删除异常。某系学生全部毕业而没有招生时，删除全部学生的记录也随之删除了该系的有关信息。4．更新异常。更换系主任时，仍需改动较多的学生记录。之所以存在这些问题，是由于在SCD中存在着非主属性对主键的传递依赖。分析SCD中的函数依赖关系，SNO→SN，SNO→AGE，SNO→DEPT，DEPT→MN，SNOMN，非主属性MN对主键SNO传递依赖。为此，对关系模式SCD还需进一步简化，消除这种传递依赖，得到3NF。2.3.3第三范式2.3.3.1第三范式的定义定义2.8如果关系模式R2NF，且每个非主属性都不传递依赖于R的每个关系键，则称R属于第三范式（ThirdNormalForm），简称3NF，记作R3NF。第三范式具有如下性质：1．如果R3NF，则R也是2NF。2．如果R2NF，则R不一定是3NF。2.3.3.23NF规范化3NF规范化是指把2NF关系模式通过投影分解转换成3NF关系模式的集合。和2NF的规范化时遵循的原则相同，即“一事一地”，让一个关系只描述一个实体或者实体间的联系。下面以2NF关系模式SD为例，来说明3NF规范化的过程。例2.2　将SD(SNO,SN,AGE,DEPT,MN)规范到3NF。分析SD的属性组成，可以判断，关系SD实际上描述了两个实体：一个为学生实体，属性有SNO，SN，AGE，DEPT；另一个是系的实体，其属性DEPT和MN。根据分解的原则，我们可以将SD分解成如下两个关系，如图2.8所示。S(SNO,SN,AGE,DEPT)，描述学生实体；D(DEPT，MN)，描述系的实体。SD对于分解后的两个关系S和D，主键分别为SNO和DEPT，不存在非主属性对主键的传递函数依赖。因此，S3NF，D3NF。图3.8关系S和D分解后，S和D的函数依赖分别如图2.9和2.10所示。由以上两图可以看出，关系模式SD由2NF分解为3NF后，函数依赖关系变得更加简单，既没有非主属性对键的部分依赖，也没有非主属性对键的传递依赖，解决了2NF中存在的四个问题。1．数据冗余降低。系主任的名字存储的次数与该系的学生人数无关，只在关系D中存储一次2．不存在插入异常。当一个新系没有学生时，该系的信息可以直接插入到关系D中，而与学生关系S无关3．不存在删除异常。要删除某系的全部学生而仍然保留该系的有关信息时，可以只删除学生关系S中的相关学生记录，而不影响系关系D中的数据4．不存在更新异常。更换系主任时，只需修改关系D中一个相应元组的MN属性值，从而不会出现数据的不一致现象但是，3NF只限制了非主属性对键的依赖关系，而没有限制主属性对键的依赖关系。如果发生了这种依赖，仍有可能存在数据冗余、插入异常、删除异常和修改异常。这时，则需对3NF进一步规范化，消除主属性对键的依赖关系，为了解决这种问题，Boyce与Codd共同提出了一个新范式的定义，这就是Boyce-Codd范式，通常简称BCNF或BC范式。它弥补了3NF的不足。2.3.4BC范式2.3.4.1BC范式的定义定义2.9如果关系模式R1NF，且包含函数依赖X→Y（YX）,如果决定因素X都包含了R的一个候选键，则称R属于BC范式（Boyce-CoddNormalForm），记作RBCNF。现举例说明。设关系模式SNC（SNO，SN，CN0，SCORE），其中SNO代表学号，SN代表学生姓名并假设没有重名，CNO代表课程号，SCORE代表成绩。可以判定，SNC有两个候选键（SNO，CNO）和（SN，CNO），其函数依赖如下：SNOSN（SNO，CNO）→SCORE（SN，CNO）→SCORE。唯一的非主属性SCORE对键不存在部分函数依赖，也不存在传递函数依赖。所以SNC3NF。但是，因为SNOSN，即决定因素SNO或SN不包含候选键，从另一个角度说，存在着主属性对键的部分函数依赖：（SNO，CNO）SN，（SN，CNO）SNO，所以SNC不是BCNF。正是存在着这种主属性对键的部分函数依赖关系，造成了关系SNC中存在着较大的数据冗余，学生姓名的存储次数等于该生所选的课程数。BCNF具有如下性质：1．满足BCNF的关系将消除任何属性（主属性或非主属性）对键的部分函数依赖和传递函数依赖。也就是说，如果RBCNF，则R也是3NF。2．如果R3NF，则R不一定是BCNF。2.3.4.2BCNF规范化BCNF规范化是指把3NF关系模式通过投影分解转换成BCNF关系模式的集合。下面以3NF关系模式SNC为例，来说明BCNF规范化的过程。例2.3　将SNC(SNO,SN,CNO，SCORE)规范到BCNF。分析SNC数据冗余的原因，是因为在这一个关系中存在两个实体，一个为学生实体，属性有SNO、SN；另一个是选课实体，属性有SNO、CNO和SCORE。根据分解的原则，我们可以将SNC分解成如下两个关系：S1(SNO,SN)，描述学生实体；S2(SNO,CNO,SCORE)，描述学生与课程的联系。对于S1，有两个候选键SNO和SN，对于S2，主键为（SNO，CNO）。在这两个关系中，无论主属性还是非主属性都不存在对键的部分依赖和传递依赖，S1BCNF，S2BCNF。分解后，S1和S2的函数依赖分别如图2.11和2.12所示。图2.11S1中的函数依赖关系图2.12S2中的函数依赖关系关系SNC转换成BCNF后，数据冗余度明显降低。学生的姓名只在关系S1中存储一次，学生要改名时，只需改动一条学生记录中的相应的SN值，从而不会发生修改异常。例2.4　设关系模式TCS（T，C，S），T表示教师，C表示课程，S表示学生。语义假设是，每一位教师只讲授一门课程；每门课程由多个教师讲授；某一学生选定某门课程，就对应于一确定的教师。根据语义假设，TCS的函数依赖是：（S，C）→T，（S，T）→C，T→C。函数依赖图如图2.13所示。2.13TCS中的函数依赖关系对于TCS，（S，C）和（S，T）都是候选键，两个候选键相交，有公共的属性S。TCS中不存在非主属性，也就不可能存在非主属性对键的部分依赖或传递依赖，所以TCS3NF。但从TCS的一个关系实例（如图2.14）分析，仍存在一些问题。图2.14关系TCS1．数据冗余。虽然每个教师只开一门课，但每个选修该教师该该门课程的学生元组都要记录这一信息。2．插入异常。当某门课程本学期不开，自然就没有学生选修。没有学生选修，因为主属性不能为空，教师上该门课程的信息就无法插入。同样原因，学生刚入校,尚未选课，有关信息也不能输入。3．删除异常。如果选修某门课程的学生全部毕业，删除学生记录的同时,随之也删除了教师开设该门课程的信息。4．更新异常。当某个教师开设的某门课程改名后，所有选修该教师该门课程的学生元组都要进行修改，如果漏改某个数据，则破坏了数据的完整性。分析出现上述问题的原因在于主属性部分依赖于键，（S，T）C，因此关系模式还继续分解，转换成更高一级的范式BCNF，以消除数据库操作中的异常现象。将TCS分解为两个关系模式ST（S，T）和TC（T，C），消除函数依赖（S，T）C。其中ST的键为S，TC的键为T。STBCNF，TCBCNF。这两个关系模式的函数依赖图分别如图2.15和2.16所示。图2.15ST中的函数依赖关系图2.16TC中的函数依赖关系关系模式TCS由规范到BCNF后，使原来存在的四个异常问题得到解决。1．数据冗余降低。每个教师开设课程的信息只在TC关系中存储一次。2．不存在插入异常。对于所开课程尚未有学生选修的教师信息可以直接存储在关系TC中，而对于尚未选修课程的学生可以存储在关系ST中。3．不存在删除异常。如果选修某门课程的学生全部毕业，可以只删除关系ST中的相关学生记录，而不影响系关系TC中相应教师开设该门课程的信息。4．不存在更新异常。当某个教师开设的某门课程改名后，只需修改关系TC中的一个相应元组即可，不会破坏数据的完整性。如果一个关系数据库中所有关系模式都属于3NF，则已在很大程度上消除了插入异常和删除异常，但由于可能存在主属性对候选键的部分依赖和传递依赖，因此关系模式的分离仍不够彻底。如果一个关系数据库中所有关系模式都属于BCNF，那么在函数依赖的范畴内，已经实现了模式的彻底分解，消除了产生插入异常和删除异常的根源，而且数据冗余也减少到极小程度。2.4关系模式的规范化到目前为止，规范化理论已经提出了六类范式（有关4NF和5NF的内容不再详细介绍）。各范式级别是在分析函数依赖条件下对关系模式分离程度的一种测度，范式级别可以逐级升高。一个低一级范式的关系模式，通过模式分解转化为若干个高一级范式的关系模式的集合，这种分解过程叫作关系模式的规范化（Normalization）。2.4.1关系模式规范化的目的和原则规范化的目的就是使结构合理，消除存储异常，使数据冗余尽量小，便于插入、删除和更新。规范化的基本原则就是遵从概念单一化“一事一地”的原则，即一个关系只描述一个实体或者实体间的联系。若多于一个实体，就把它“分离”出来。因此，所谓规范化，实质上是概念的单一化，即一个关系表示一个实体2.4.2关系模式规范化的步骤规范化就是对原关系进行投影，即对关系模式进行分解的过程，最大限度地消除某些插入、更新、删除异常。具体可以分为以下几步：1．对1NF关系进行投影，消除原关系中非主属性对键的部分函数依赖，将1NF关系转换成若干个2NF关系。2．对2NF关系进行投影，消除原关系中非主属性对键的传递函数依赖，将2NF关系转换成若干个3NF关系。3．对3NF关系进行投影，消除原关系中主属性对键的部分函数依赖和传递函数依赖，也就是说使决定因素都包含一个候选键。得到一组BCNF关系。关系规范化的基本步骤如图2.17所示。图2.17规范化过程一般情况下，我们说没有异常弊病的数据库设计是好的数据库设计，一个不好的关系模式也总是可以通过分解转换成好的关系模式的集合。但是在分解时要全面衡量，综合考虑，视实际情况而定。对于那些只要求查询而不要求插入、删除等操作的系统，几种异常现象的存在并不影响数据库的操作。这时便不宜过度分解，否则当要对整体查询时，需要更多的多表连接操作，这有可能得不偿失。在实际应用中，最有价值的是3NF和BCNF，在进行关系模式的设计时，通常分解到3NF就足够了。2.4.2关系模式规范化的要求关系模式的规范化过程是通过对关系模式的投影分解来实现的，但是投影分解方法不是唯一的，不同的投影分解会得到不同的结果。在这些分解方法中，只有能够保证分解后的关系模式与原关系模式等价的方法才是有意义的。下面先给出两个定义：无损连接性：如果R分解为R1和R2，存在R=R1*R2，则称关系模式R的分解具有无损连接函数依赖保持性：如果R分解为R1和R2，如果R中函数依赖一定也由分解得到的某个关系模式中的函数依赖表示，则称关系模式R的分解具有函数依赖保持性。判断对关系模式的一个分解是否与原关系模式等价可以有三种不同的标准：1．分解要具有无损连接性。2．分解要具有函数依赖保持性。3．分解既要具有无损连接性，又要具有函数依赖保持性。例如，对于关系模式SD(SNO,SN,AGE,DEPT,MN)，规范到3NF，可以有以下三种不同的分解方法：第一种：S2(SNO,SN,AGE,MN)D2(DEPT，MN)分解后的关系如图2.19所示。S2D2图2.19关系S2和D2分解以后，两个关系均为3NF，公共属性为MN，但MNSNO，MNDEPT，所以S2*D2≠SD。S2和D2在MN上的自然连接的结果如图2.20。图2.20S2和D2的自然连接S2*D2比原来的关系SD多了两个元组（S1，赵亦，17，自动化，刘伟）和（S4，李思，21，计算机，刘伟），因此也无法知道原来的SD关系中究竟有哪些元组，从这个意义上说，此分解方法仍然丢失了信息。所以其分解是不可恢复的。另外，这种分解方法只保持了原来的SD中的DEPT→MN这个完全函数依赖而未用另外一个SNO→DEPT完全依赖，却用了原关系的传递函数依赖SNOMN。所以分解既不具有无损连接性，也不具有函数依赖保持性，同样存在着数据操作的异常情况。第二种：S1(SNO,SN,AGE,DEPT)D1(SNO，MN)分解后的关系如图2.18所示。S1D1图2.18关系S1和D1分解以后，两个关系的主键都为SNO，也不存在非主属性对主键的传递函数依，所以两个关系均属于3NF。且SD=S1*D1，关系模式SD等于S1和D1在SNO上的自然连接，这种分解也具有无损连接性，保证不丢失原关系中的信息。但这种分解结果，仍然存在着一些问题：1．数据冗余。每个系名和系主任的名字存储的次数等于该系的学生人数。2．插入异常。当一个新系没有招生时，系主任的名字则无法插入。3．删除异常。某系学生全部毕业而没有招生时，要删除全部学生的记录，两个关系都要涉及，有关该系的信息将被删除。4．更新异常。更换系主任时，需改动较多的学生记录。另外，某个学生要转系，还必须修改两个关系。之所以存在上述问题，是因为分解得到的两个关系模式不是相互独立的。SD中的函数依赖DEPT→MN既没有投影到关系模式S1上，也没有投影到关系模式D1上，而是跨在这两个关系模式上，也就是说这种分解方法没有保持原关系中的函数依赖，却用了原关系隐含的传递函数依赖SNOMN。分解只具有无损连接性，而不具有函数依赖保持性。因此，“弊病”仍然没有解决。第三种：S(SNO,SN,AGE,DEPT)D(DEPT，MN)SD（SNO，SN，AGE，DEPT，MN）=S[SNO，SN，AGE，DEPT]*D[DEPT，MN]也就是说，用其两个投影在DEPT上的自然连接可复原关系模式SD。也就是说这种分解具有无损连接性。对于分解后的关系模式S，有函数依赖SNO→DEPT，对于D，有函数依赖DEPT→MN，这种分解方法保持了原来的SD中的两个完全函数依赖SNO→DEPT，DEPT→MN。分解既具有无损连接性，又具有函数依赖保持性。前面已经给出详细的论述，这是一种正确的分解方法。经以上几种分解方法的分析，如果一个分解具有无损连接性，则能够保证不丢失信息。如果一个分解具有函数依赖保持性，则可以减轻或解决各种异常情况。分解具有无损连接性和函数依赖保持性是两个相互独立的标准。具有无损连接性的分解不一定具有函数依赖保持性。同样，具有函数依赖保持性的分解也不一定具有无损连接性。规范化理论提供了一套完整的模式分解方法，按照这套算法可以做到：如果要求分解既具有无损连接性，又具有函数依赖保持性，则分解一定能够达到3NF，但不一定能够达到BCNF。所以在3NF的规范化中，既要检查分解是否具有无损连接性，又要检查分解是否具有函数依赖保持性。只有这两条都满足，才能保证分解的正确性和有效性，才既不会发生信息丢失，又保证关系中的数据满足完整性约束。小结在这一章，我们首先由关系模式的存储异常问题引出了函数依赖的概念，其中包括完全函数依赖、部分函数依赖和传递函数依赖，这些概念是规范化理论的依据和规范化程度的准则。规范化就是对原关系进行投影，消除决定属性不是候选键的任何函数依赖。一个关系只要其分量都是不可分的数据项，就可称作规范化的关系，也称作1NF。消除1NF关系中非主属性对键的部分函数依赖，得到2NF，消除2NF关系中非主属性对键的传递函数依赖，得到3NF，消除3NF关系中主属性对键的部分函数依赖和传递函数依赖，便可得到一组BCNF关系。在规范化过程中，逐渐消除存储异常，使数据冗余尽量小，便于插入、删除和更新。规范化的基本原则就是遵从概念单一化“一事一地”的原则，即一个关系只描述一个实体或者实体间的联系。规范化的投影分解方法不是唯一的，对于3NF的规范化，分解既要具有无损连接性，又要具有函数依赖保持性。

                    本文档为【[高等教育]第2章 关系数据理论与数据库设计一】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

[高等教育]第2章 关系数据理论与数据库设计一

你可能还喜欢

[高等教育]第2章关系数据理论与数据库设计一