Chinaunix首页 | 论坛 | 博客
  • 博客访问: 168890
  • 博文数量: 340
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 3405
  • 用 户 组: 普通用户
  • 注册时间: 2021-05-14 14:39
文章分类

全部博文(340)

文章存档

2023年(69)

2022年(144)

2021年(127)

我的朋友

分类: 云计算

2022-10-10 09:50:37

随着互联网大数据时代的到来,越来越多的网站、应用系统都需要支撑大量甚至海量数据存储,同时还伴有高并发、高可用、高可扩展等特性要求。

很多时候,传统的关系型数据库在应付这些已经显得力不从心,并暴露了许多难以克服的问题。

由此,各种各样的 NoSQL(Not Only SQL)数据库作为传统关系型数据的一个有力补充得到迅猛发展。

本文将分析传统数据库(即SQL数据库)存在的一些问题,以及盘点目前市面上几大类 NoSQL 特性、优缺点等,希望给大家提供一些在不同业务场景下存储技术选型方面的参考。

传统SQL数据库的缺点

传统的关系数据库有如下几个缺点。

1)大数据场景下 I/O 较高:因为数据是按行存储,即使只针对其中某一列进行运算,关系型数据库也会将整行数据从存储设备中读入内存,导致 I/O 较高。

2)存储的是行记录:无法存储数据结构。

3)表结构 Schema 扩展不方便:如要修改表结构,需要执行 DDL(data definition language),语句修改,修改期间会导致锁表,部分服务不可用。

4)全文搜索功能较弱:关系型数据库下只能够进行子字符串的匹配查询,当表的数据逐渐变大的时候,like 查询的匹配会非常慢,即使在有索引的情况下。况且关系型数据库也不应该对文本字段进行索引。

5)存储和处理复杂关系型数据功能较弱:许多应用程序需要了解和导航高度连接数据之间的关系,才能启用社交应用程序、推荐引擎、欺诈检测、知识图谱、生命科学和 IT/网络等用例。然而传统的关系数据库并不善于处理数据点之间的关系。它们的表格数据模型和严格的模式使它们很难添加新的或不同种类的关联信息。

NoSQL 解决方案

NoSQL(Not Only SQL),泛指非关系型的数据库,可以理解为 SQL 的一个有力补充。

在 NoSQL 许多方面性能大大优于非关系型数据库的同时,往往也伴随一些特性的缺失,比较常见的是事务库事务功能的缺失。

列式数据库

列式数据库是以列相关存储架构进行数据存储的数据库,主要适合于批量数据处理和即时查询。

相对应的是行式数据库,数据以行相关的存储体系架构进行空间分配,主要适合于小批量的数据处理,常用于联机事务型数据处理。即时通讯聊天软件app开发可以加蔚可云的v:weikeyun24咨询

基于列式数据库的列列存储特性,可以解决某些特定场景下关系型数据库 I/O 较高的问题。

基本原理

传统关系型数据库是按照行来存储数据库,称为“行式数据库”,而列式数据库是按照列来存储数据。

将表放入存储系统中有两种方法,而我们绝大部分是采用行存储的。行存储法是将各行放入连续的物理位置,这很像传统的记录和文件系统。

列存储法是将数据按照列存储到数据库中,与行存储类似。

HBase:是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的 BigTable 建模,实现的编程语言为 Java。

它是 Apache 软件基金会的 Hadoop 项目的一部分,运行于 HDFS 文件系统之上,为 Hadoop 提供类似于 BigTable 规模的服务。因此,它可以容错地存储海量稀疏的数据。

BigTable:是一种压缩的、高性能的、高可扩展性的,基于 Google 文件系统(Google File System,GFS)的数据存储系统,用于存储大规模结构化数据,适用于云端计算。

相关特性

1)优点如下:

高效的储存空间利用率:列式数据库由于其针对不同列的数据特征而发明的不同算法使其往往有比行式数据库高的多的压缩率。

普通的行式数据库一般压缩率在 3:1  到 5:1  左右,而列式数据库的压缩率一般在 8:1 到 30:1  左右。

比较常见的,通过字典表压缩数据: 下面中才是那张表本来的样子。经过字典表进行数据压缩后,表中的字符串才都变成数字了。

正因为每个字符串在字典表里只出现一次了,所以达到了压缩的目的(有点像规范化和非规范化 Normalize 和 Denomalize)。

查询效率高:读取多条数据的同一列效率高,因为这些列都是存储在一起的,一次磁盘操作可以把数据的指定列全部读取到内存中。

执行步骤如下:

    a. 去字典表里找到字符串对应数字(只进行一次字符串比较);
    b. 用数字去列表里匹配,匹配上的位置设为 1。;
    c. 把不同列的匹配结果进行位运算得到符合所有条件的记录下标;
    d. 使用这个下标组装出{BANNED}最佳终的结果集。


列式数据库还适合做聚合操作,适合大量的数据而不是小数据。

2)缺点如下:

    不适合扫描小量数据;
    不适合随机的更新;
    不适合做含有删除和更新的实时操作;
    单行的数据是 ACID 的,多行的事务时,不支持事务的正常回滚,支持 I(Isolation)隔离性(事务串行提交),D(Durability)持久性,不能保证 A(Atomicity)原子性, C(Consistency)一致性。

阅读(372) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~