云帆大数据_Hadoop从入门到上手企业开发----学习笔记-CuteB-ChinaUnix博客

CuteB的ChinaUnix博客

首页　| 　博文目录　| 　关于我

CuteB

博客访问： 35956
博文数量： 12
博客积分： 0
博客等级：民兵
技术积分： 130
用户组：普通用户
注册时间： 2015-07-05 16:07

文章分类

全部博文（12）

日记（1）
未分配的博文（11）

文章存档

2015年（12）

我的朋友

manshukw

相关博文

云帆大数据_Hadoop从入门到上手企业开发----学习笔记

分类： HADOOP

2015-07-05 22:50:51

1.what is apache hadoop?
谁说大象不能跳舞？
轻松应对海量数据存储与分析带来的挑战
2.海量数据：
量：大，数目多，数据量达到PB，ZB级别，条目数达到几十亿条，几百亿条
1）存储：分布式，集群的概念进行存储管理（主节点、从节点），HDFS（hadoop
distribute file system）
2）分析:分布式，并行，离线计算框架，管理主节点和从节点，mapreduce框架
3.一只会飞的大象logo

4.
HDFS-->GFS开源文件系统
Google MapReduce--->Hadoop MapReduce开源的分布式并行计算框架
5.Apache Hadoop起源
Apache Lucene:开源的高性能全文检索工具包
Apache Nutch：开源的web搜索引擎
Google三大论文：MapReduce/GFS/BigTable
Apache Hadoop：大规模数据处理
6.一般认为，云计算由三层构成：
IAAS：基础设施即服务，Amazon EC2,openstck,cloudstack,rackspace等
PAAS：平台即服务，Google AppEngine，Apache Hadoop等
SAAS：软件即服务，Google Apps等
openstack：构建公司内部的私有平台
7.hadoop，big data paltform
open source data management with scale-out storage & distributed processing
storage:HDFS
          distribute across "nodes"
          natively redundant
          name node tracks location
processing:Map Reduce
          splits a tack across processors
          nare the data & assebles results
          clustered storage
KEY Characteristics
scalable，reliable，flexible，econmical

8.apache Hadoop能解决哪些问题：
海量数据需要及时分析和处理（速度）
海量数据需要深入分析和挖掘（深度）
数据需要长期保存（固定资产）
磁盘IO成为一种瓶颈，而非CPU资源
    网络宽带成为一种稀缺资源
硬件故障成为影响稳定的一大因素
9.
hdfs+mr思想：
尽可能移动计算到数据端，而非移动数据到计算端
硬件和组件的故障时一种常态
hdfs思想：
文件单次写入，并多次读取，文件副本，分片保存
顺序写入，流式顺序读取，面向大文件存储
MR思想：
分而治之，化整为0
排序优化，降低内存
10.BAT：
B：百度
A：alibaba
T：腾讯
11.Hbase数据库：实时

ETL：
E：提取
T:转换
L：加载
从数据库中获取数据并进行一些列的数据清理、清洗和筛选，将合格的数据进行转换成一定格式数据进行存储，将格式化的数据存储到HDFS文件系统上，以供计算框架进行那个数据分析和挖掘。

格式化数据：
|-TSV格式：每行数据的每列之间以制表符\t进行分割
|-CSV格式：每行数据的每行之间以,进行分割
sqoop：将关系型数据库中的数据与HDFS（HDFS文件，Hbase中的表，Hlive中的表）上的数据进行相互导入导出
Flume：收集各个应用系统和框架的日志，并将其放到HDFS分布式文件系统的相应制定的目录之下。

阅读(2477) | 评论(0) | 转发(0) |

上一篇：云帆大数据_Hadoop从入门到上手企业开发----学习笔记

下一篇：2015.7.5 感想

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6