奈学：数据湖有哪些缺点？-奈学教育-ChinaUnix博客

奈学教育的ChinaUnix博客

首页　| 　博文目录　| 　关于我

奈学教育

博客访问： 83434
博文数量： 56
博客积分： 0
博客等级：民兵
技术积分： 440
用户组：普通用户
注册时间： 2020-05-29 15:36

文章分类

全部博文（56）

大数据（7）
架构（15）
分布式（5）
未分配的博文（29）

文章存档

2020年（56）

我的朋友

相关博文

奈学：数据湖有哪些缺点？

分类：大数据

2020-06-28 19:22:22

数据湖本身是一个中心化的存储，能够存储任意规模的结构化与非结构化数据。数据湖相比数据仓库有很多的优势，但大多是在理想状态下的，一旦执行起来还有很多技术挑战。

（一）数据湖的数据可能并不会真正做到实时。在业务环境下，如果把所有数据都放到数据湖里，那么从数据湖直接调用数据的过程可能比原来数据仓库更慢，因为从数据湖中提取出来的数据，依然要经过清洗实现标准化后才能更好的利用。具体能否达到需求的低时延效果，还要根据具体应用场景来进行判断。

（二）把所有的原始数据都放到数据湖，可能会提升数据的使用难度。对于大型企业而言，业务内容丰富，操作系统繁杂，数据使用者往往期望所有的数据都能平民化，就像数据仓库提供的那种经过了精心处理的数据，能够轻松调度和使用来实现对业务的指导。如果是数据湖提供的原始化数据，其本身是很复杂的，数据专家进行理解和处理时或许难度适中，但大多数的平民用户能否消化、理解并利用这些数据，将会是一个巨大的疑问。

（三）数据治理问题。数据仓库里的数据是经过整理、清晰易懂的。但数据湖的概念是不经处理直接进行堆砌，那么数据湖就有可能会变成“数据沼泽”，筛选难度会变大。当然，数据湖的优势就是数据可以先作为资产存放起来，问题就在于如何把这些数据在业务中利用起来。当部署了数据湖之后，数据治理问题将会接踵而至，比如从数据湖到数据池塘，如何将数据进行分流、池塘的数据如何进行整理等。

本文来源于：

阅读(1070) | 评论(0) | 转发(0) |

上一篇：奈学：数据湖和数据仓库的区别有哪些？

下一篇：分布式柔性事务之事务消息详解

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6