数据仓库的模型设计-laoliulaoliu-ChinaUnix博客

miraclemiracle.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

laoliulaoliu

博客访问： 4663098
博文数量： 1214
博客积分： 13195
博客等级：上将
技术积分： 9105
用户组：普通用户
注册时间： 2007-01-19 14:41

个人简介

C++,python,热爱算法和机器学习

文章分类

全部博文（1214）

cloud（3）
operation（9）
tornado（4）
mac_os（1）
golang（4）
架构（13）
git（4）
security（29）
shell（1）
macbook（1）
ruby（13）
javascript（15）
design（3）
testing（1）
mac（1）
bigdata（69）
nosql（46）
R（9）
gcj/acm（6）
NLP（10）
小说（3）
matlab（4）
web（44）
java（66）
product（7）
c#（1）
language（4）
machine learning（76）
science（4）
opencourse（2）
windows（3）
search（33）
algorithm（65）
database（51）
compiler（11）
ACE（5）
poem（1）
programming（29）
python（140）
assembly（1）
linux（49）
C++（16）
book（2）
cate（1）
phliosophy（3）
mental（30）
Science fiction（1）
Software（5）
c（23）
network（65）
CS（15）
thinking（10）
BSD（13）
solaris10（2）
life（57）
Debian（16）
economy（7）
Mathematics（57）
OS（8）
ibm（2）
gentoo（32）
未分配的博文（8）

文章存档

2021年（13）

2020年（49）

2019年（14）

2018年（27）

2017年（69）

2016年（100）

2015年（106）

2014年（240）

2013年（5）

2012年（193）

2011年（155）

2010年（93）

2009年（62）

2008年（51）

2007年（37）

我的朋友

A. 数据建模方法论

数据仓库模型设计遵循“自顶向下、逐步求精”的设计原则。

模型设计分为三个阶段：

1，概念模型

对业务的范围和使用，从高度上进行抽象概括，也就是划分主题域。

一般划分为8个主题域：

客户、服务、服务使用、账务、结算、资源、客服、营销

为什么要划分主题域？

划分主题域，是根据业务的应用和需要来划分的，是用来达到数据与业务紧耦合的目的。

2，逻辑模型

对概念模型中的主题进行细化，定义实体与实体之间的关系，和实体的属性。

即定义具体表的作用，表与表的约束，表的字段。形成ER图。

这些实体的设计都是基于业务规则，可以说，这一阶段主要面对的是业务。也就是“业务驱动建模”

3，物理模型

依照逻辑模型，在数据库中进行建表、索引等。数据仓库，为了满足高性能的需求，可以增加冗余、隐藏表之间的约束等反第三范式操作。

这一阶段，主要针对的是数据库、硬件、性能。

范式：

第一范式：数据库表的字段都是单一属性，不可再分。

第二范式：数据库表中不存在非关键字段对任一候选关键字段的部分函数依赖。

（部分函数依赖指的是存在组合关键字中的某些字段决定非关键字段的情况）。即要求所有属性都依赖于主键。

第三范式：数据库表中不存在非关键字段对任一候选关键字段的传递函数依赖。

范式是向下兼容的。

例如：

学生ID	学生名称	学生部门	课程ID	课程名称	成绩
60100	张三	教育学院，心理系，1班	English_1	英语1	80

1）违反第一范式。因为：学生部门可以分解为：学院，系，班级

2）违反第二范式。因为：关键字段是学生ID和课程ID, 但存在“课程ID”决定课程名称和课程学分。

3）违反第三范式。因为：关键字段是学生ID,但存在可能名称和学分依赖“课程ID”。

星型模型和雪花模型

首先，他们都是由一个事实表和一组维度表组成。

星型模型，也被称为维度建模。

区别在于：

星型模型：维度表直接跟事实表连接，图型像星星。

如区县和地市做为同一维度都在地市表中。

*维度预处理，维度会预先进行分类，排序等预处理。

雪花模型：一些维度表不是直接与事实表连接，而是通过维度表中转，图形像雪花。

例如：

图1：星型模型

图2 雪花模型

从性能来看，星型模型查询性能好。

为了提高性能，可以允许违反第三范式，适当的冗余、隐藏表之间的约束。

维度建模

将商业维度融合到数据模型中，由此得名维度建模。

或者说，为了分析方便（商业应用要求），将同一维度的不同层次的维度（如地市ID,区县ID）都融合到事实表中（如用户宽表）。

维度模型也是星型模型。

它强调的是先对维度进行预处理，将多个维度集合到一个事实表，形成一个宽表，如上面的用户统一视图。包含了20多个维度。这样可以组合各维度，形成灵活的报表查询。

B. 分层设计原则

电信行业的数据仓库都采用了分层设计原则。

总的来说，分三层：接口层、中间汇总层和应用层。

应用层	数据集市	地市数据集市、数据挖掘
应用层	KPI报表、cagnos、主题分析、指标库
中间层	深度汇总层	信息聚合：用户统一视图、3G用户统一视图、固话用户统一视图
业务拓展：用户行为、增值业务、集团业务、国际业务
轻度汇总层	清单汇总、用户属性聚合、费用汇总、集团客户汇总等
接口层	存储层	接口备份、增量转全量、减少I/O(分常用数据和历史数据)
接口层	日接口、月接口、增量接口、全量接口