Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1800350
  • 博文数量: 438
  • 博客积分: 9799
  • 博客等级: 中将
  • 技术积分: 6092
  • 用 户 组: 普通用户
  • 注册时间: 2012-03-25 17:25
文章分类

全部博文(438)

文章存档

2019年(1)

2013年(8)

2012年(429)

分类: 数据库开发技术

2012-04-21 21:19:09

问题的提出

设有关系模式R(姓名,电话,参与的俱乐部,俱乐部的活动),候选码为(姓名,参与的俱乐部)。


姓名电话参与的俱乐部俱乐部的活动
A123乒乓club打乒乓球
A123登山club爬山
B456乒乓club打乒乓球
B456英语club学习英语
C789登山club爬山
C789英语club学习英语

注意到上面的模式有什么问题?

1、数据冗余:一个人参与几个俱乐部,那么他的电话会重复几次;同样,一个俱乐部被几个人参加,它的活动就会重复几次。

2、修改异常:一旦一个人的手机号变化,那么对应于他参与的每个俱乐部的各行里的电话都需要修改,如果有遗漏,那么会造成数据不一致;俱乐部的活动也是如此。

3、插入异常:如果一个新人到来,还未参加任何俱乐部,那么他的信息和电话就无法插入到这张表里,因为参与的俱乐部是主属性,不能为空。

4、删除异常:如果某人暂时退出了所有的俱乐部,那么必须把所有的元组都删去,这样这个人的姓名和电话信息也不存在了。


问题的解决方式是把关系模式R分解成三个模式:

姓名电话
A123
B456
C789
俱乐部活动
乒乓club打乒乓球
英语club学习英语
登山club爬山
姓名参与的俱乐部
A乒乓club
A登山club
B乒乓club
B英语club
C登山club
C英语club


函数依赖(FD,Functional Dependency)

实际上关系模式的更新异常是由属性间的数据依赖引起的,数据依赖指数据之间存在着某种内在的联系,如姓名和电话之间,每一个人都有一个确定的电话,姓名的一个取值可以确定唯一的地址。

函数依赖的概念为:设有关系模式R(U),X和Y是属性集U的子集,函数依赖是形为XY的一个命题,只要有r是R的当前关系,对r中的任意两个元组t和s,都有t[X] = s[X]蕴涵t[Y] = s[Y],那么称函数依赖XY在关系模式R(U)中成立。比如前面的U是(姓名,电话,参与的俱乐部,俱乐部的活动),子集X为(姓名),子集Y为(电话)。

函数依赖的文字化定义:设R(U)是属性集U上的关系模式,X、Y是U的子集,若对于R(U)的任意一个可能的关系r,R中不可能存在两个元组在X的属性值上相等,而在Y上的属性值不等,则称“X函数确定Y”,或“Y函数依赖于X”,记作XY。例如姓名电话。

FD的推理规则有:

基本规则:

1、自反性:Y⊆X X Y

2、增广性:XZ YZ

3、传递性:X Y, Y Z X Z

扩展规则:

4、合并性:{X Y, X Z} X YZ

5、分解性:{X Y, Z ⊆ Y} X Z

6、伪传递性:{X Y, WY Z} WX Z

7、复合性:{X Y, W Z} WX YZ


函数依赖的性质有:

1、若XY,但X ⊄ Y,则称XY是非平凡的函数依赖,一般不特殊指明的情况下,我们总是讨论非平凡函数依赖。

2、若XY,则称X是决定因素。

3、若Y不函数依赖于X,则记作XY

4、若XY,YX,则称X与Y一一对应,记为XY。

在R(U)中,如果XY,并且对于X的任意一个真子集X',都有X'Y,则称Y完全函数依赖于X,或Y对X完全函数依赖,记作X-f->Y,否则称Y对X部分函数依赖X-p->Y

在关系模式R(U)中,如果XY,(X ⊄ Y),YZ,则称Z对X传递函数依赖

设K为R中的属性或属性组,若K-f->u,则K为R的候选码,若候选码多于一个,则选其中一个作为主码。特殊情况:所有属性构成码,称为全码。包含在任何一个候选码中的属性,叫主属性(Prime Attribute),不包含在任何码中的属性为非主属性,或非码属性

关系模式R中属性或属性组X并非R的主码,但它是另一个关系模式的主码,则称X是R的外码(Foreign Key)。关系间是通过主码和外码进行联系的。


规范化理论

1971年起E.F.Codd提出了规范化理论。该理论按属性间的依赖情况(如函数依赖)规范关系模式。按规范化的程度不同分为第一范式1NF(Normal Form)、2NF、3NF、BCNF及4NF,逐步消除更新异常问题。

若R属于第几范式,一般记为R∈XNF,一个低一级范式的关系模式,通过模式分解总可以将它分解为若干个高一级范式的关系模式的结合,这种过程就叫规范化

设有关系模式R(U),属性集为U,R1、……、Rk都是U的子集,并且有R1∪R2∪……∪Rk=U。关系模式R1,……,Rk的集合用ρ={R1,……,Rk}。用ρ代替R的过程为关系模式的分解


1NF指每一个分量都是不可分的,这是最基本的规范化。即关系的所有属性都只能是预定义的简单变量,如整型,而不能是结构体。

2NF的定义为:如果R∈1NF,且每个非主属性完全函数依赖于码,则R∈2NF。 如本章最开始提出的问题,在属性性(姓名,电话,参与的俱乐部,俱乐部的活动)里,候选码为(姓名,参与的俱乐部),即姓名和参与的俱乐部是主属性,但是 “电话”部分函数依赖于“姓名”,并没有完全函数依赖于码;“俱乐部的活动”同样也部分函数依赖于“俱乐部”。它便是由于违反了2NF,才造成了更新异 常。而表的拆分便是关系模式的分解

3NF的定义:关系模式R中若不存在这样的码X,属性组Y及非主属性Z(Z⊄Y),便利XY,YZ成立,则称R∈3NF。

比如关系

员工
所在分公司
分公司总裁

其中“员工”是主码,员工所在分公司,所在分公司分公司总裁。所以它违反了3NF。它造成的问题有修改异常:员工换了分公司的话,总裁属性也必须修改。遗漏会造成数据不一致。我们可以把它模式分解为:

员工
所在分公司
分公司
总裁

2NF、3NF有一个缺陷:它们只限制了主码对非主属性的部分函数依赖或传递函数依赖,但并没有对主属性进行限制。

比如

学号
姓名
课程名

假定姓名没有重名的,那么(学号,课程名)和(姓名,课程名)都可以是候选键,也就是说三个属性都是主属性。如果我们选取(学号,课程名)作为主码,有(学号,姓名)学号,学号姓名的传递依赖,也可以理解为部分依赖,但是因为姓名是主属性,所以这个关第符合2NF、3NF。然而,它有之前讨论过的冗余和更新异常的问题。

BCNF(Boyce Codd Normal Form)是由Boyce和Codd提出的,比3NF又进一步,通常认为BCNF是修正的第三范式,有时也称为3NF。它的定义为:如果关系模式R是1NF,且每个属性(包括主属性)都不传递依赖于R的候选键,那么称R是BCNF范式。若R∈BCNF,则R∈3NF。


范式是衡量关系模式好坏的标准,它与数据依赖有着直接的联系。1NF是关系模式的基础(对象模式违背了1NF),2NF已经称为历史,3NF和BCNF是最为常见的范式。


阅读(1733) | 评论(0) | 转发(2) |
给主人留下些什么吧!~~