分类: IT职场
2006-04-13 00:50:40
OLAP的定义
其基本思想是:企业的决策者应能灵活地操纵企业的数据,以多维的形式从多方面和多角度来观察企业的状态、了解企业的变化。
OLAP的特点
OLAP(Online Analytical Processing)是使分析人员、管理人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映数据维特性的信息,进行快速、一致、交互地访问,从而获得对数据的更深入了解的一类软件技术。
灵活、动态
多角度、多层次的视角
快速 (以空间换时间)
业界主要的OLAP Server有:IBM OLAP Server(OEM hyperion essbase)大数据量、SQL Server Analysis 2000(小数量用这个还是不错的,功能应有具有)等。
前端工具用于展示数据仓库和OLAP的数据,前端工具通过丰富的信息展现和分析方式,进行经营分析和辅助决策。
前端工具的展现方法有:表格、查询、图形(饼图、柱图、曲线图)等。
有的前端工具还具有告警、自动化和数据挖掘等功能。
业界主要的前端工具:Cognos、Brio、BO、BI.Office、Microstrategy(这个的市场好象越来越大了)等。
多维数据结构是OLAP的核心。
人们很容易理解一个二维表(如通常的电子表格),对于三维立方体同样也容易理解。OLAP通常将三维立方体的数据进行切片,显示三维的某一平面。如一个立方体有时间维、商品维、收入维,其图形很容易在屏幕上显示出来并进行切片。
但是要加一维(如加入商店维),则图形很难想象,也不容易在屏幕上画出来。要突破三维的障碍,就必须理解逻辑维和物理维的差异。
OLAP的多维分析视图就是冲破了物理的三维概念,采用了旋转、嵌套、切片、钻取和高维可视化技术,在屏幕上展示多维视图的结构,使用户直观地理解、分析数据,进行决策支持。
超立方结构(Hypercube)指用三维或更多的维数来描述一个对象,每个维彼此垂直。数据的测量值发生在维的交叉点上,数据空间的各个部分都有相同的维属性。
主题:
在OLAP分析中,用户所关注业务的一个考核方面;如:电信行业中可能的客户信用度分析、客户帐务、话务量分析等,而分析类型相近的主题可能会划分在一个分组中。
维度:
在OLAP分析中,维是作为主题的一个分析角度,比如:客户分析中对其年龄、性别、所在地区、行业分布等因素有关,这样,地区和行业等就是该客户的维。
维度层次:
在一个维中,划分各成员之间的父子关系的方式,称层次;如时间维通常可分为年、季、月、日等层。
维度成员:
特定层次中的某一特定元素,称为该层上的一个成员;如“JAN”为时间维月这一层次上的成员。
指标:
一种考核标准,由多个因素(维)共同决定,如:某个时段的话务量、话务员坐席数等;有时指标也称为测量值。
事实表设计
每个事实数据表都应该由两个部分组成,一个由多个部分组成的索引和一些由这些索引所描述的数据。
索引部分
索引部分包含着与描述事实数据特征的维表相关联的外键信息。
数据部分
数据部分是事实表中真正要存放的事实数据。
维表设计
维表设计中由于维度类型的不同,其维表结构也会相应有不同特点。
维度分类
普通维
普通维是基于一个维表的维度,由维表中的不同列来表示维度中的不同级别。
雪花维
雪花维是基于多个维表的维度,各个维表间以外键关联,分别存储同一维度中不同级别的成员列值。
父子维
父子维是基于两个维表列的维度,由维表中的两列来共同定义各个成员的隶属关系。一列称为成员键列,标识每个成员;另一列称为父键列,标识每个成员的父代。
关系数据库存储方式(ROLAP)
ROLAP充分利用关系数据库技术将明细数据和聚合数据存储在一个关系型结构中的存储方式。
优势
没有大小限制;现有的关系数据库的技术可以沿用;
可以通过SQL实现详细数据与概要数据的储存;
现有关系型数据库已经对OLAP做了很多优化,包括并行存储、并行查询、位图索引、SQl 的OLAP扩展等大大提高了ROALP的速度;
查询性能较不如MOLAP方式。
占用的存储空间较少
缺点
一般比MDD响应速度慢;
SQL无法完成部分计算,主要是无法完成多行的计算,无法完成维之间的计算。
混合存储方式(HOLAP)
将聚合存储到分析服务器计算机上的多维结构中,并将分区的源数据保留在它现有的关系型结构中的存储方式。
特点
查询性能介于以上两种方式之间
占用的存储空间介于以上两种方式之间
适用于在对基于大量基本数据的汇总进行查询时需要快速响应的多维数据集
是对企业业务数据进行抽取、清洗、转换和整合的过程。通过ETL过程,数据从联机事务处理系统(OLTP)、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度、监控以及数据安全性等方面。
数据抽取ETL(data extract, clear, transform and load)
业界主要的数据抽取工具有Microsoft DTS、PowerCenter、DataStage和Sagent等。
当然数据仓库的实施是重点:客户的需求整理,底层模型的设计(ODS层和LDM层),ETL,OLAP,Report等设计,每一步都是非常关键的.从上面那些术语中也知道实施占数据仓库的主导地位,前端工具一般都是产品,进行二次开发的工作量少.实施过程要对客户的需求和业务流程(包括业务系统)要非常清楚,一般来说客户会给实施人员讲解业务流程或业务系统的处理流程的,如果不懂业务又不懂技术那会给客户迁着鼻子走的哦(吗的,现在业务顾问越来越值钱,所以实施人员可向行业顾问方向发展,精通某一个行业就行了,银行或电信是最好的).如果能理解数据仓库的流程,相信你的技术也不会很不差,起码你是对某个行业的业务是很清楚,这必须通过项目实施才能够理解的.
呵呵.
2006-04-13 晚上0点56分 于 北京通州