分类:
2008-10-15 16:27:54
当出现上面这种情况时,企业往往会发现到最后,每个数据集市里都复制了大量相同信息,数据的保存不再是一个单一的主拷贝,同时还会浪费掉大量的空间。
而在一个企业级数据仓库中,数据的质量比在上述数据集市中更高。数据仓库项目不需要采取“一次性全部导入”的方式,你可以从一个小的项目开始,围绕一个数据仓库慢慢进行设计其他项目,随着时间推移,逐步补充添加更多的项目,最后这个小的数据仓库就会增长为企业级数据仓库,掌控起公司所有的业务数据。
拍卖网站eBay拥有全球最大的数据仓库之一,每天收集的数据达到40TB之多,并拥有5000多个商户。eBay的高级主管Oliver Ratzesberger在本周Teradata的欧洲用户大会上表示,eBay就像很多别的企业一样,数据集市的数量太多,这些数据集市很可能会毁掉企业的经营策略。
两年前,Ratzesberger开始实施一个项目,鼓励各个业务部门放弃各自的数据集市,转而使用eBay的Teradata企业级中央数据仓库。Ratzesberger称,他们免费提供这项业务,使得他们的商业用户不用再费劲去争辩到底是在MySQL数据库中进行数据分析便宜呢,还是在SQL Server数据库中分析数据成本更低。eBay只是让商户们知道,eBay为他们提供的分析的执行速度比他们自己从Dell购买一个然后自己部署数据集市要快得多。
Ratzesberger的策略是在eBay内部提供数据仓库软件作为一项中央业务,由IT部门负责运行,允许商户进行。eBay允许各个商业部门在Teradata内部使用他们自己的数据执行数据分析来这个策略,不要求服务品质(SLA),而且用户将数据上载到Teradata数据库的限期为六个月。
如果这个在Teradata内部的样板分析结果成效显著的话,商户就有可能用这个样板为出发点开发在Teradata数据库中长期运行的生产系统。
Ratzesberger表示,我们的开发人员通常需要花费大量时间来解决数据质量问题,而不是用来构建数据仓库,随着这项新业务的开展,他们可以从中得到很多好处,因为测试样板会识别数据质量问题。在开发人员着手构建生产系统之前,这些问题就能够得到解决,这样就可以加速软件的开发速度。
虽然安装数据仓库的工程相当浩大,但是Ratzesberger的做法还是说明了IT部门是可以用一个低成本的替代方法,也就是企业级数据库,来避免在企业业务开展过程中出现数据集市的扩增现象。