大数据的存储和标准化-Larpenteur-ChinaUnix博客

尘世中一个迷途小书童riverhwp.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

Larpenteur

博客访问： 6459082
博文数量： 2759
博客积分： 1021
博客等级：中士
技术积分： 4091
用户组：普通用户
注册时间： 2012-03-11 14:14

文章分类

全部博文（2759）

Todo（1）
Advice（151）
Linux-未分类（223）
Ubuntu（47）
Database（145）
算法&DS（77）
Android（47）
Web（214）
Geek（237）
CPPC（296）
Java（113）
Python（99）
Matlab（19）
Git（19）
SVN（11）
Gnuplot（5）
面试（0）
机器-挖掘-AI（6）
开源项目（1）
Happy Drawe（9）
Programming（144）

Tools（23）

Shell（66）

Makefile（11）

GDB（26）

vim（18）
System（628）

Author（110）

Common（4）

Memory（66）

File system（82）

Driver（19）

IO（66）

Storage（45）

General（38）

Architecture（19）

Command（64）

Kernel（115）
Virtualization（39）
Cloud（33）
Hadoop（71）
Big Data（24）
未分配的博文（100）

文章存档

2019年（1）

2017年（84）

2016年（196）

2015年（204）

2014年（636）

2013年（1176）

2012年（463）

我的朋友

相关博文

大数据的存储和标准化

分类：大数据

2014-01-08 04:28:42

原文地址：大数据的存储和标准化作者：杨宝的小窝

1. 大数据产生的背景：
（1）数据的爆炸式增长和社会化趋势，新摩尔定律；
（2）大数据已经成为一种自然资源；
（3）机器数据日益重要；
（4）大数据不被利用就是成本；
2. 对大数据的理解：
（1）大数据比云计算更为落地；
（2）大数据不仅仅是“大”；
（3）软件是大数据的引擎；
（4）大数据的应用不仅仅是精准营销；
（5）管理大数据“易”，理解大数据“难”；
云计算本身也是大数据的一种业务模式。
2. 针对不同类型的海量数据，业界提出了不同的存储技术，主要有三种：
（1）存储海量非结构化数据的分布式文件系统；
（2）存储海量无模式的半结构化数据的Nosql数据库；
（3）存储海量结构化数据的分布式并行数据库系统；
其中：Nosql数据库有四种：
① 键值（key-value）存储数据库；
② 列存储数据库；
③ 文档型数据库；
④ 图形数据库；
3. 云存储成为大数据存储的必然选择。云存储可以按需提供易管理、高可扩展、高性价比的资源。根据存储的数据类型不同和应用需求不同，云存储系统可以分为以下四种类型：基于块存储、基于文件存储、基于对象存储以及基于表存储。
架构大数据：挑战、现状与展望
1. 大数据时代的三个变化：
（1）数据量：由TB级升至PB级，并仍在持续爆炸式增长；
（2）分析需求：由常规分析转向深度分析；
（3）硬件平台：由高端服务器转向由中低端硬件构成的大规模机群平台；
2. 在大数据时代，巨量数据与系统的数据处理能力之间将会产生一个鸿沟：一边是至少PB级的数据量，另一边是面向传统数据分析能力设计的数据仓库和各种BI工具。
3. 大数据分析平台需要具备的特性：
（1）高度可扩展性：横向大规模可扩展，大规模并行处理；
（2）高性能：快速响应复杂查询与分析；
（3）高度容错性：查询失败时，只需要重做部分工作；
（4）支持异构环境：对硬件平台一致性要求不高，适应能力强；
（5）较低的分析延迟：业务需求变化时，能快速反应；
（6）易于且开放接口：既能方便查询，又能处理复杂分析；
（7）较低成本：较高的性价比；
（8）向下兼容性：支持传统的商务智能工具；
总之：以较低的成本投入，高效地进行数据分析，是大数据分析的基本目标。
4. 并行数据库起源于20世纪80年代。当前主流的并行数据库都同早期的Gamma和Grace等并行数据库类似，并行数据库的最大优势在于性能。
并行数据库通过SQL向外提供数据访问服务。SQL因其简单易用的特点而被广泛使用。SQL的优势源于对底层数据访问的封装，但封装在一定程度上影响了其开放性，并行数据库在扩展性、容错性、成本、对异构环境的支持等几项有所缺失。
并行数据库扩展有限主要因为如下几点：
（1）并行数据库软件容错能力差；
（2）并行数据库对异构硬件的支持非常有限，并且对于处理慢的节点反应敏感，容易出现“木桶效应”；
（3）并行数据库若做到大规模可扩展，其代价将会较高，从而限制了其扩展性；
（4）根据CAP理论，在分布式系统中，数据一致性、可用性、子网可分解性不可同时兼得，选择其中任两项，便会损害另一项。
5. MapReduce是2004年由Google提出的面向大数据集处理的编程模型，起初主要用作互联网数据的处理，例如：文档抓取，倒排索引的建立等。
MapReduce将数据处理任务抽象为一系列Map（映射）-Reduce（化简）操作对。Map主要完成数据的过滤操作，Reduce主要完成数据的聚集操作，输入输出数据均以格式存储。
基于MapReduce的开源实现Hadoop，主要特征如下：
（1）节点可以被任意地从机群中移除，而几乎不影响现有任务的执行；
（2）作为开源系统，MapReduce具有完全的开放性；
MapReduce的设计初衷是面向非结构化数据的处理；为了获得较好的扩展能力和容错能力，MapReduce采取了基于扫描的处理模式和对中间结果步步物化的执行策略，从而导致了较高的I/O代价；
为了减小数据预处理时间，MapReduce没有使用模式、索引、物化视图等技术手段，其数据预处理仅是一次数据加载操作，但由此导致了一个问题——较高的元组解析代价；
（3）MapReduce处理连接的性能不尽人意的原因：在于MapReduce最初是针对单数据集设计的处理模式，而连接操作往往设计多个数据集。
Hadoop DB的核心思想是利用Hadoop作为调度层和网络沟通层，关系数据库作为执行引擎，尽可能地将查询压入数据库层处理；
Hadoop DB于2011年针对其架构提出了两种连接优化技术和两会总聚集优化技术。
两种连接优化的核心思想都是尽可能地将数据的处理推入数据库层执行。
两种聚集优化技术分别是连接后聚集和连接前聚集。
Dumobo的核心思想是根据MapReduce的“过滤”、“聚集”的处理模式，对OLAP查询的处理进行改造，使其适应于MapReduce框架。

阅读(2846) | 评论(0) | 转发(0) |

上一篇：Sql学习拾遗（三）：联结

下一篇：《Linux运维之道》试读

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6