在大数据时代,“多种架构支持多类应用”成为数据库行业应对大数据的基本思绪,数据库行业出现互为补充的三大阵营,适用于事务处置应用的OldSQL、适用于数据剖析应用的NewSQL和适用于互联网应用的NoSQL。但在一些复杂的应用场景中,单一数据库架构都不能完全满足应用场景对海量结构化和非结构化数据的存储治理、复杂剖析、关联查询、实时性处置和控制建设成本等多方面的需要,因此差别架构数据库混合部署应用成为满足复杂应用的一定选择。差别架构数据库混合使用的模式可以归纳为:OldSQL+NewSQL、OldSQL+NoSQL、NewSQL+NoSQL三种主要模式。
下面通过三个案例对差别架构数据库的混合应用部署进行介绍:
(1)OldSQL+NewSQL在数据中央类应用中混合部署
接纳OldSQL+NewSQL模式构建数据中央,在充分发挥OldSQL数据库的事务处置能力的同时,借助NewSQL在实时性、复杂剖析、即席查询等方面的奇特优势,以及面临海量数据时较强的扩展能力,满足数据中央对当前“热”数据事务型处置和海量历史“冷”数据剖析两方面的需求。OldSQL+NewSQL模式在数据中央类应用中的互补作用体现在,OldSQL填补了NewSQL不适合事务处置的不足,NewSQL填补了OldSQL在海量数据存储能力和处置性能方面的缺陷。
商业银行数据中央接纳OldSQL+NewSQL混合部署方式搭建,OldSQL数据库满足各业务系统数据的归档备份和事务型应用,NewSQL MPP数据库集群对即席查询、多维剖析等应用提供高性能支持,而且通过MPP集群架构实现应对海量数据存储的扩展能力。
与传统的OldSQL模式相比,商业银行数据中央接纳OldSQL+NewSQL混合搭建模式,数据加载性能提升3倍以上,即席查询和统计剖析性能提升6倍以上。NewSQL MPP的高可扩展性能够应对新的业务需求,可随着数据量的增长接纳集群方式构建存储容量更大的数据中央。
(2)OldSQL+NoSQL在互联网大数据应用中混合部署
在互联网大数据应用中接纳OldSQL+NoSQL混合模式,能够很好的解决互联网大数据应用对海量结构化和非结构化数据进行存储和快速处置的需求。在诸如大型电子商务平台、大型SNS平台等互联网大数据应用场景中,OldSQL在应用中负责高价值密度结构化数据的存储和事务型处置,NoSQL在应用中负责存储和处置海量非结构化的数据和低价值密度结构化数据。OldSQL+NoSQL模式在互联网大数据应用中的互补作用体现在,OldSQL填补了NoSQL在ACID特性和复杂关联运算方面的不足,NoSQL填补了OldSQL在海量数据存储和非结构化数据处置方面的缺陷。
数据魔方是淘宝网的一款数据产品,主要提供行业数据剖析、商店数据剖析。淘宝数据产品在存储层接纳OldSQL+NoSQL混合模式,由基于MySQL的分布式关系型数据库集群MyFOX和基于HBase的NoSQL存储集群Prom组成。由于OldSQL壮大的语义和关系表达能力,在应用中仍然占有着主要地位,现在存储在MyFOX中的统计结果数据已经到达10TB,占有着数据魔方总数据量的95%以上。另一方面,NoSQL作为SQL的有益补充,解决了OldSQL数据库无法解决的全属性选择器等问题。
基于OldSQL+NoSQL混合架构的特点,数据魔方现在已经能够提供压缩前80TB的数据存储空间,支持每日4000万的查询请求,平均响应时间在28毫秒,足以满足未来一段时间内的业务增长需求。
(3)NewSQL+NoSQL在行业大数据应用中混合部署
行业大数据与互联网大数据的区别在于行业大数据的价值密度更高,而且对结构化数据的实时处置、复杂的多表关联剖析、即时查询、数据强一致性等都比互联网大数据有更高的要求。行业大数据应用场景主要是剖析类应用,如:电信、金融、政务、能源等行业的决议辅助、预测预警、统计剖析、经营剖析等。
在行业大数据应用中接纳NewSQL+NoSQL混合模式,充分利用NewSQL在结构化数据剖析处置方面的优势,以及NoSQL在非结构数据处置方面的优势,实现NewSQL与NoSQL的功能互补,解决行业大数据应用对高价值结构化数据的实时处置、复杂的多表关联剖析、即席查询、数据强一致性等要求,以及对海量非结构化数据存储和准确查询的要求。在应用中,NewSQL负担高价值密度结构化数据的存储和剖析处置工作,NoSQL负担存储和处置海量非结构化数据和不需要关联剖析、Ad-hoc查询较少的低价值密度结构化数据的工作。
当前电信运营商在集中化BI系统建设过程中面临着数据规模大、数据处置类型多等问题,而且需要应对大量的牢固应用,以及占统计总数80%以上的突发性暂时统计(ad-hoc)需求。在集中化BI系统的建设中接纳NewSQL+NoSQL混搭的模式,充分利用NewSQL在复杂剖析、即席查询等方面处置性能的优势,及NoSQL在非结构化数据处置和海量数据存储方面的优势,实现高效低成本。
集中化BI系统根据数据类型和处置方式的差别,将结构化数据和非结构化数据分别存储在差别的系统中:非结构化数据在Hadoop平台上存储与处置;结构化、不需要关联剖析、Ad-hoc查询较少的数据保存在NoSQL数据库或Hadoop平台;结构化、需要关联剖析或经常ad-hoc查询的数据,保存在NewSQL MPP数据库中,短期高价值数据放在高性能平台,中长期放在低成本产品中。
结语
当前信息化应用的多样性、复杂性,以及三种数据库架构各自所具有的优势和局限性,造成任何一种架构的数据库都不能完全满足应用需求,因此差别架构数据库混合使用,从而填补其他架构的不足成为一定选择。凭据应用场景接纳差别架构数据库进行组合搭配,充分发挥每种架构数据库的特点和优势,而且与其他架构数据库形成互补,完全涵盖应用需求,保证数据资源的最优化利用,将成为未来一段时期内信息化应用主要接纳的解决方式。
现在在国内市场上,OldSQL主要为ORACLE、IBM等国外数据库厂商所垄断,达梦、金仓等国产厂商仍处于追赶状态;南大通用依附国产新型数据库GBase 8a异军突起,与EMC的Greenplum和HP的Vertica跻身NewSQL市场三强;NoSQL方面用户则大多接纳Hadoop开源方案。
转载于:
阅读(2386) | 评论(0) | 转发(0) |