网站的数据库如何规划
何谓优质的数据库规划?
一些准则可以为数据库规划过程提供指引。首要准则是,重复信息(亦称冗余数据)极为不利,因为重复信息会消耗空间,并提升出错及不一致的风险。第二个准则是,信息的准确性与完整性至关重要。若数据库中存有不实信息,任何从数据库中提取信息的报表也将包含不实信息。因此,基于这些报表所做的任何决策都将提供错误信息。
因此,优良的数据库规划应如下所示:
将信息分类至主题表,以降低冗余数据。
向Access提供联接表中信息所需的信息。
有助于支持和确保信息的准确性与完整性。
满足数据处理和报表需求。
设计流程
设计流程包括以下步骤:
明确数据库的用途:这有助于为后续步骤做好准备。
搜集和组织所需信息:收集希望在数据库中记录的各种信息,如产品名称和订单号。
将信息分类至表中:将信息项分类至主要实体或主题中,如“产品”或“订单”。每个主题即构成一个表。
确定导入信息项目的列:确定在每个表中存储哪些信息。每个项将成为一个字段,并作为列显示在表中。例如,“雇员”表中可能包含“姓氏”和“聘用日期”等字段。
指定主键:选择每个表的主键。主键是一个用于唯一标识每行的列。例如,主键可以为“产品ID”或“订单ID”。
设置表关系:查看每个表,并确定各个表中的数据如何彼此关联。根据需要,将字段添加到表中或创建新表,以便清晰地表达这些关系。
优化设计:分析设计中是否存在错误。创建表并添加几条示例数据记录。确定是否可以从表中获得期望的结果。根据需要对设计进行调整。
应用规范化规则:应用数据规范化规则,以确定表的结构是否正确。根据需要对表进行调整。
数据库如何规划
数据库规划的基本步骤
按照规范规划的方法,考虑数据库及其应用系统开发全过程,将数据库规划分为以下6个阶段
1.需求分析
2.概念结构规划
3.逻辑结构规划
4.物理结构规划
5.数据库实施
6.数据库的运行和维护
数据库规划通常分为6个阶段:1分析用户的需求,包括数据、功能和性能需求;2概念结构规划:主要采用E-R模型进行设计,包括绘制E-R图;3逻辑结构规划:通过将转换成表,实现从E-R模型到关系模型的转换;4:主要是为所设计的数据库选择合适的和存取路径;5数据库的实施:包括编程、测试和试运行;6数据库运行与维护:系统的运行与数据库的日常维护。),主要讨论其中的第3个阶段,即逻辑规划。
在数据库规划过程中,需求分析和概念规划可以独立于任何数据库管理系统进行,逻辑规划和物理规划与选用的DAMS密切相关。
1.需求分析阶段(常用自顶向下)
进行数据库规划首先必须准确了解和分析用户需求(包括数据与处理)。需求分析是整个设计过程的基础,也是最困难、最耗时的一步。需求分析是否做得充分和准确,决定了在其上构建数据库大厦的速度与质量。需求分析做得不好,会导致整个数据库规划返工重做。
需求分析的任务,是通过详细调查现实世界要处理的对象,充分了解原系统工作概况,明确用户的各种需求,然后在此基础上确定新的系统功能,新系统还得充分考虑今后可能的扩充与改变,不仅仅能够按当前应用需求来设计。
调查的重点是,数据与处理。达到信息要求,处理要求,安全性和完整性要求。
分析方法常用SA(Structured Analysis)结构化分析方法,SA方法从最上层的系统组织结构入手,采用自顶向下,逐层分解的方式分析系统。
数据流图表达了数据和处理过程的关系,在SA方法中,处理过程的处理逻辑常常借助判定表或判定树来描述。在处理功能逐步分解的同时,系统中的数据也逐级分解,形成若干层次的数据流图。系统中的数据则借助数据字典(data dictionary,DD)来描述。数据字典是系统中各类数据描述的集合,数据字典通常包括数据项,数据结构,数据流,数据存储,和处理过程5个阶段。
2.概念结构规划阶段(常用自底向上)
概念结构规划是整个数据库规划的关键,它通过对用户需求进行综合、归纳与抽象,形成了一个独立于具体DBMS的概念模型。
设计概念结构通常有四类方法:
自顶向下。即首先定义全局概念结构的框架,再逐步细化。
自底向上。即首先定义各局部应用的概念结构,然后再将它们集成起来,得到全局概念结构。
逐步扩张。首先定义最重要的核心概念结构,然后向外扩张,以滚雪球的方式逐步生成其他的概念结构,直至总体概念结构。
混合策略。即自顶向下和自底向上相结合。
3.逻辑结构规划阶段(E-R图)
逻辑结构规划是将概念结构转换为某个DBMS所支持的数据模型,并将进行优化。
在这阶段,E-R图显得异常重要。大家要学会各个实体定义的属性来绘制总体的E-R图。
各分E-R图之间的冲突主要有三类:属性冲突,命名冲突,和结构冲突。
E-R图向关系模型的转换,要解决的问题是如何将实体性和实体间的联系转换为关系模式,如何确定这些关系模式的属性和码。
4.物理设计阶段
物理设计是为逻辑数据结构模型选取一个最适合应用环境的物理结构(包括存储结构和存取方法)。
首先要对运行的事务详细分析,获得选择物理数据库设计所需要的参数,其次,要充分了解所用的RDBMS的内部特征,特别是系统提供的存取方法和存储结构。
首先需对运行的事务进行深入剖析,获取构建物理数据库设计所需的关键参数,接着,需全面掌握所采用的RDBMS的内在特性,尤其是系统所提供的访问方法和存储结构。
常见的访问方法分为三类:1.索引技术,目前主要采用B+树索引技术。2.聚簇技术(Clustering)。3.哈希技术。
5.数据库实施阶段
在数据库实施阶段,设计人员运用DBMS提供的数据库语言(如sql)及其宿主语言,根据逻辑设计和物理设计的结果构建数据库,编写和调试应用程序,组织数据导入,并进行测试运行。
6.数据库运行与维护阶段
数据库应用系统经过测试运行后,即可投入正式运行,在数据库系统运行过程中必须持续对其进行评估,调整,修正。
数据库设计五步骤
五步数据库设计法
1.明确entities及connections
a)明确宏观行为。数据库是用来做什么的?例如,管理员工的信息。
b)明确entities。对于一系列的行为,明确所管理信息所涉及到的主题范围。这将形成table。例如,雇佣员工,指定具体部门,确定技能等级。
c)明确connections。分析行为,明确tables之间有何种联系。例如,部门与员工之间存在一种联系。为这种联系命名。
d)细化行为。从宏观行为开始,现在仔细检查这些行为,看有哪些行为能转化为微观行为。例如,管理员工的信息可细化为:
·增加新员工
·修改现有员工信息
·删除离职员工
e)明确业务规则。分析业务规则,明确你要采取哪种。例如,可能有这样一种规则,一个部门有且只能有一个部门领导。这些规则将被设计到数据库的结构中。
====================================================================
范例:
ACME是一家小型公司,在5个地方都设有分支机构。目前,有75名员工。公司准备迅速扩张,划分了9个部门,每个部门都有其负责人。
为便于寻找新员工,人事部门规划了68种技能,为未来人事管理做好准备。员工被招聘时,每一种技能的专业等级都被确定。
定义宏观行为
一些ACME公司的宏观行为包括:
●招聘员工
●解雇员工
●管理员工个人信息
●管理公司所需的技能信息
●管理哪位员工有哪些技能
●管理部门信息
●管理分支机构信息
明确entities及connections
我们可以明确要存放信息的主题领域(表)及其联系,并创建一个基于宏观行为及描述的图表。
我们用方框来代表table,用菱形代表connection。我们可以明确哪些connection是一对多,一对一,及多对多。
这是一个E-R草图,以后会细化。
细化宏观行为
以下微观行为基于上面宏观行为而形成:
●增加或删除一个员工
●增加或删除一个分支机构
●列出一个部门中的所有员工
●增加一项技能
●增加一个员工的一项技能
●确定一个员工的技能
●确定一个员工每项技能的等级
●确定所有拥有相同等级的某项技能的员工
●修改员工的技能等级
这些微观行为可用来确定需要哪些table或connection。
明确业务规则
业务规则常用于明确一对多,一对一,及多对多联系。
相关的业务规则可能有:
●现在有5个分支机构;最多允许扩展到10个。
●员工可以改变部门或分支机构
●每个部门有一个部门负责人
●每个分支机构至多有3个电话号码
●每个电话号码有一个或多个分机
●员工被招聘时,每一种技能的专业等级都被确定。
●每位员工拥有3到20个技能
●某位员工可能被安排在一个分支机构,也可能不安排分支机构。
2.明确所需数据
要明确所需数据:
a)明确支持数据
b)列出所要跟踪的所有数据。描述table(主题)的数据回答这些问题:谁,什么,哪里,何时,以及为什么
c)为每个table建立数据
d)列出每个table目前看起来合适的可用数据
e)为每个connection设置数据
f)如果有,为每个connection列出适用的数据
明确支持数据
你所明确的支撑数据将会成为table中的字段名。例如,下列数据将适用于表Employee,表Skill,表Expert In。
Employee
Skill
Expert In
ID
ID
Level
Last Name
Name
Date acquired
First Name
Description
Department
Office
Address
如果将这些数据画成图表,就像:
需要注意:
●在明确支撑数据时,请一定要参考你之前所明确的宏观行为,以清楚如何利用这些数据。
●例如,如果你知道你需要所有员工的按姓氏排序的列表,确保你将支撑数据分解为名字与姓氏,这比简单地提供一个名字会更好。
●你所选择的名称最好保持一致性。这将更易于维护数据库,也更易于阅读所输出的报表。
●例如,如果你在某些地方用了一个缩写名称Emp_status,你就不应该在另外一个地方使用全名(Empolyee_ID)。相反,这些名称应当是Emp_status及Emp_id。
●数据是否与正确的table相对应无关紧要,你可以根据自己的喜好来定。在下节中,你会通过测试对此作出判断。
3.规范化数据
规范化是你用以消除数据冗余及确保数据与正确的table或connection相关联的一系列测试。共有5个测试。本节中,我们将讨论经常使用的3个。
关于规范化测试的更多信息,请参考有关数据库设计的书籍。
规范化格式
规范化格式是规范化数据的常用测试方式。你的数据通过第一遍测试后,就被认为是达到第一规范化格式;通过第二遍测试,达到第二规范化格式;通过第三遍测试,达到第三规范化格式。
如何规范化格式:
1.列出数据
- 列出信息
- 为每张表设定至少一个键。每张表必须包含一个主键。
- 确定关联键。关联键是连接两张表的键。
- 检查支持数据列表中的计算信息。计算信息通常不保存在数据库中。
- 将数据放置在初步的标准化格式中:
- 从表格及关联中去除重复的信息。
- 使用你所去除的信息创建一个或多个表格及关联。
- 将数据放置在第二遍的标准化格式中:
- 使用多于一个的键确定表格及关联。
- 去除仅依赖于键一部分的信息。
- 使用你所去除的信息创建一个或多个表格及关联。
- 将数据放置在第三遍的标准化格式中:
- 去除那些依赖于表格或关联中其他信息,并且不是键的信息。
- 使用你所去除的信息创建一个或多个表格及关联。
数据与键
在你开始标准化(测试数据)之前,简单地列出信息,并为每张表设定一个唯一的主键。这个键可以由一个字段或几个字段(连锁键)组成。
主键是一张表中唯一区分各行的字段组合。Employee表格的主键是Employee ID字段。Works In关联中的主键包括Office Code及Employee ID字段。为数据库中的每一关联给出一个键,从其所连接的每一表格中抽取其键产生。
关联
键
Office
Office code
Office address
Phone number
Works in
Office code
Employee ID
Department
Department ID
Department name
Heads
Department ID
Employee ID
Associated with
Department ID
EmployeeID
Skill
Skill ID
Skill name
Skill description
Expert In
Skill ID
Employee ID
Skill level
Date acquired
Employee
Employee ID
Last Name
First Name
Social security number
Employee street
Employee city
Employee state
Employee phone
Date of birth
将数据放置在初步的标准化格式中
●去除重复的组
●要测试初步标准化格式,去除重复的组,并将它们放入各自的一张表格中。
●在下面的例子中,Phone Number可以重复。(一个工作人员可以有多于一个的电话号码。)去除重复的组,创建一个名为Telephone的新表格。在Telephone与Office创建一个名为Associated With的关联。
将数据放置在第二遍的标准化格式中
●去除那些不依赖于整个键的信息。
●只看那些有一个以上键的表格及关联。要测试第二遍标准化格式,去除那些不依赖于整个键的任何信息(组成键的所有字段)。
●在此例中,原Employee表格有一个由两个字段组成的键。一些信息不依赖于整个键;例如,department name只依赖于其中一个键(Department ID)。因此,Department ID,其他Employee信息并不依赖于它,应移至一个名为Department的新表格中,并为Employee及Department建立一个名为Assigned To的关联。
将数据放置在第三遍的标准化格式中
●去除那些不直接依赖于键的信息。
●要测试第三遍标准化格式,去除那些不是直接依赖于键,而是依赖于其他信息的数据。
●在此例中,原Employee表格有依赖于其键(Employee ID)的信息。然而,office location及office phone依赖于其他字段,即Office Code。它们不直接依赖于Employee ID键。将这组信息,包括Office Code,移至一个名为Office的新表格中,并为Employee及Office建立一个名为Works In的关联。
考量关系
当你完成标准化过程后,你的设计已经基本完成了。你所需要做的,就是考量关系。
考量带有信息的关系
你的一些关联可能包含信息。这经常发生在多对多的关系中。
遇到这种情况,将关联转化为一个表格。关联的键依旧成为表格中的键。
考量没有信息的关系
要实现没有信息的关系,你需要定义外键。外键是包含另一个表中主键的一个或多个字段。外键使你能同时连接多表信息。
有一些基本原则能帮助你决定将这些键放在哪里:
一对多在一对多关系中,“一”中的主键放在“多”中。此例中,外键放在Employee表格中。
一对一在一对一关系中,外键可以放入任一表格中。如果必须要放在某一边,而不能放在另一边,应该放在必须的一边。此例中,外键(Head ID)在Department表格中,因为这是必需的。
多对多在多对多关系中,使用两个外键来创建一个新表格。已存在的旧表格通过这个新表格来发生联系。
- 检验设计
在你完成设计之前,你需要确保它满足你的需求。检查你一开始时所定义的行为,确认你可以获取行为所需的所有信息:
●你能找到一个路径来获取你所需要的所有信息吗?
●设计是否满足了你的需求?
●所有需要的信息都可用吗?
如果你对以上的问题都回答是,你已经基本完成设计了。
最终设计
最终设计看起来就像这样:
设计数据库的表格属性
数据库设计需要确定有什么表格,每张表格有什么字段。本节讨论如何指定各字段的属性。
对于每一个字段,你必须决定字段名,数据类型及大小,是否允许NULL值,以及你是否希望数据库限制字段中所允许的值。
选择字段名
字段名可以是字母、数字或符号的任意组合。然而,如果字段名包括了字母、数字或下划线、或并不以字母打头,或者它是个关键字(详见关键字表),那么当使用字段名称时,必须用双引号括起来。
字段名称可以是字母、数字或符号的任意组合。然而,若字段名称中包含字母、数字、下划线,或未以字母开头,或者它属于关键字(详阅关键字列表),那么在引用字段名称时,必须用双引号将其包围。
为字段设定数据类型
SQL Anywhere所支持的数据类型有:
整数(int, integer, smallint)
小数(decimal, numeric)
浮点数(float, double)
字符类型(char, varchar, long varchar)
二进制数据类型(binary, long binary)
日期/时间类型(date, time, timestamp)
用户定义类型
有关数据类型的详细信息,请参阅“SQL Anywhere数据类型”章节。字段的数据类型决定了字段的最大长度。例如,若指定SMALLINT,该字段可存储32,767个整数。使用INTEGER,则可存储2,147,483,647个整数。对于CHAR类型,字段的最大长度需明确指定。
长二进制数据类型适用于在数据库中存储图像(如位图)或文字编辑文档等。这些类型的信息通常被称为二进制大对象,或简称BLOBS。
有关每种数据类型的详细说明,请参阅“SQL Anywhere数据类型”章节。