关于数据增量抽取的模拟实现—原理-bq

不胜人生一场醉baoqiangwang.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

bq_wang

博客访问： 171196
博文数量： 103
博客积分： 2251
博客等级：大尉
技术积分： 1095
用户组：普通用户
注册时间： 2007-04-03 11:15

文章分类

全部博文（103）

艺术长廊（1）
你的故事我的歌（1）
新书上市（16）
软件开发（0）
软件工程（0）
项目管理（9）
企业管理（0）
IT业界（2）
数据仓库（30）
数据库（44）

SQLServer（43）

Oracle（0）
未分配的博文（0）

文章存档

2011年（103）

我的朋友

相关博文

关于数据增量抽取的模拟实现—原理

分类：数据库开发技术

2011-05-13 09:42:19

ETL是数据仓库的一个重要处理环节， Extract即是从业务数据库中抽取数据 ,Transform即是根据业务逻辑规则对数据进行加工的过程， Load即是把数据加载到数据仓库的过程。

通常为了尽可能的减少对业务系统的压力和性能影响，或者因为网络传输异构数据库等原因，一般都是根据特定的增量抽取原则，将数据从业务数据库导出到 flat文本文件或者 XML文件中，也叫数据缓存区或者数据登台区（这名字起得特别别扭）。本文讨论的是从业务数据库直接抽取到数据仓库。数据仓库是一种体系架构，而不是一种纯粹的技术。实际上，大多数数据库都提供了类似的不同数据库直接连接的接口，例如 SQLServer的链接数据库， Oracle的透明网关等等。

关于数据的增量抽取也是一个重要的讨论话题，其原因主要是在超大数据量情况下任何关系数据库都无法满足数据处理的要求。在《数据仓库》 (Inmon)一书中，主要描述了以下 3种方法：

1、数据增量抽取，主要是基于时间戳的

2、扫描增量文件，实际上就是关系数据库的归档日志。

3、前后映像对比

当然每种方法都有其优势和劣势，本文旨在讨论基于时间戳的数据增量抽取的实现，无意探讨和比较这三种方法的优劣。

当然在进行基于时间戳的数据增量处理之前，首先要满足以下假设。

1、假设在业务数据库中存在着一个特定的时间属性，作为增量抽取的唯一标识。

2、假设在这个字段上存在着索引字段。这样我们的数据增量抽取模拟脚本就不会遭遇到性能瓶颈。当然我们还会通过将大事务尽可能变成小事务的原则进行优化。

3、假设业务数据库和数据仓库能够以某种方式直接连接。

4、抽取过程中，尽量避免数据转换、清洗的动作，以减少对业务数据库的性能影响。

在满足了以上条件之后，我们才能进一步考虑数据增量抽取脚本的实现。

增量更新

下面开始对基于时间戳的数据增量抽取进行系统设计：

1、建立链接数据库。

2、首先需要定义一张数据字典表，定义需要进行处理的任务，其中主要包括业务数据库和目标数据库的表名、字段列表、以及 where条件等。

序号	字段名称	字段描述	字段类型	备注
1	TaskName	任务名称	Varchar(32)
2	TargetTable	数据仓库目标表名称	Varchar(32)
3	TargetFieldList	数据仓库字段列表	Varchar(500)
4	SourceTable	业务数据库表名称	Varchar(32)
5	SourceFieldList	业务数据库字段列表	Varchar(500)
6	WhereFieldName	增量抽取字段名称	Varchar(32)
7	IncType	增量抽取的粒度	Int	1、小时； 2、日
8	TransType	控制事务处理大小的粒度	Int	1、小时； 2、日
9	TargetDate	数据仓库最大时间	Datetime
10	SourceDate	业务数据库最大时间	Datetime	截取到整点
11	Flag	处理标志	Int	1成功， 2失败
12	Note	备注	Varchar(500)

3、有了这张字典表就可以开始进行工作了，为了方便表达，暂时处理成伪代码形式，同时只以一个表的处理为例。

1、获取数据仓库目标表目前的最大时间（读取字典表或者当前表均可）

2、获取业务数据库业务表目前的最大时间（需要到业务系统中去读取）

3、如果业务数据库业务表数据为空，退出执行

4、如果数据仓库为空，业务数据库不为空，则再次读取业务数据库最小时时间

5、如果均不为空，则设置开始抽取最小时间和最大时间

6、最大时间设置为整点

7、根据控制事务处理大小的粒度，进行循环抽取

8、拼写 SQL语句，写成类似以下的形式

INSERT INTO TargetTable (TargetFieldList)

SELECT SourceFieldList FROM SourceTable

WHERE WhereFieldName> BeginDate

AND WhereFieldName< BeginDate+粒度

9、处理状态写入该字典表

1、获取数据仓库目标表目前的最大时间（读取字典表或者当前表均可）

2、获取业务数据库业务表目前的最大时间（需要到业务系统中去读取）

3、如果业务数据库业务表数据为空，退出执行

4、如果数据仓库为空，业务数据库不为空，则再次读取业务数据库最小时时间

5、如果均不为空，则设置开始抽取最小时间和最大时间

6、最大时间设置为整点

7、根据控制事务处理大小的粒度，进行循环抽取

8、拼写 SQL语句，写成类似以下的形式

INSERT INTO TargetTable (TargetFieldList)

SELECT SourceFieldList FROM SourceTable

WHERE WhereFieldName> BeginDate

AND WhereFieldName< BeginDate+粒度

9、处理状态写入该字典表

4、有一点要主要的是，在 SQLServer中有两种使用链接数据库的方法：

OPENQUERY ( linked_server , 'query' )

linked_server_name.catalog.schema.object_name 的四部分名称

这两种方法各有利弊，第二种容易阅读一些；第一种方法据说把语句提交到源数据库执行的，效率可能会高些（实际的资料并未找到）。

其次这两种方法在使用起来语法有点差别，第一种方法采用的是宿主数据库的语法形式，第二种方法采用的是 SQLServer本身的语法形式。因此在写脚本的时候也会有所不同。主要差别是在字段列表和条件处，暂时采用第一种方式。

阅读(501) | 评论(0) | 转发(0) |

上一篇：关于维度处理的方法探究—雪花维

下一篇：关于数据增量抽取的模拟实现—脚本实现

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6