Chinaunix首页 | 论坛 | 博客
  • 博客访问: 82186
  • 博文数量: 56
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 440
  • 用 户 组: 普通用户
  • 注册时间: 2020-05-29 15:36
文章分类

全部博文(56)

文章存档

2020年(56)

我的朋友
最近访客

分类: 大数据

2020-06-28 19:22:22

数据湖本身是一个中心化的存储,能够存储任意规模的结构化与非结构化数据。数据湖相比数据仓库有很多的优势,但大多是在理想状态下的,一旦执行起来还有很多技术挑战。


(一)数据湖的数据可能并不会真正做到实时。在业务环境下,如果把所有数据都放到数据湖里,那么从数据湖直接调用数据的过程可能比原来数据仓库更慢,因为从数据湖中提取出来的数据,依然要经过清洗实现标准化后才能更好的利用。具体能否达到需求的低时延效果,还要根据具体应用场景来进行判断。


(二)把所有的原始数据都放到数据湖,可能会提升数据的使用难度。对于大型企业而言,业务内容丰富,操作系统繁杂,数据使用者往往期望所有的数据都能平民化,就像数据仓库提供的那种经过了精心处理的数据,能够轻松调度和使用来实现对业务的指导。如果是数据湖提供的原始化数据,其本身是很复杂的,数据专家进行理解和处理时或许难度适中,但大多数的平民用户能否消化、理解并利用这些数据,将会是一个巨大的疑问。


(三)数据治理问题。数据仓库里的数据是经过整理、清晰易懂的。但数据湖的概念是不经处理直接进行堆砌,那么数据湖就有可能会变成“数据沼泽”,筛选难度会变大。当然,数据湖的优势就是数据可以先作为资产存放起来,问题就在于如何把这些数据在业务中利用起来。当部署了数据湖之后,数据治理问题将会接踵而至,比如从数据湖到数据池塘,如何将数据进行分流、池塘的数据如何进行整理等。


本文来源于:

阅读(1049) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~