Hadoop五分钟入门指南-644924073-ChinaUnix博客

首页　| 　博文目录　| 　关于我

644924073

博客访问： 2320475
博文数量： 691
博客积分： 0
博客等级：民兵
技术积分： 2660
用户组：普通用户
注册时间： 2014-04-05 12:49

个人简介

不浮躁

文章分类

全部博文（691）

工具（1）
C++（1）

多态与虚函数（0）
Python（1）
规划（4）
OpenGL（7）

入门例子（2）
Java/Android（52）

JNI（1）

Intent/Handler（3）

Android应用（11）

Android架构（3）

数据存储（4）

布局（6）

BroadcasRec（1）

ContentProvider（1）

Activity（3）

Service（2）
数据结构和算法（5）

图（0）

树（0）

栈（0）

队列（0）

链表（0）
硬件（13）

PNP和NPN（1）

电路符号（0）

80386（1）

硬件设计详细文档（1）
云计算和大数据（19）

飞天系统（1）

hadoop（7）

云存储（4）
虚拟化FreeRdp（30）

X库（5）

Hyper-V（0）

域服务器（3）

Citrix（3）

VMWware（1）

FreeRdp（4）

Spice（5）
C（40）

glib（1）

指针（2）

数组（0）

三大结构（0）

ACM（1）

结构体（1）

关键字（2）

C语言调试信息（1）
linux基础（126）

通信（4）

线程（0）

命令（3）

mount（2）

ubuntu（2）

网络(socket)（20）

ARM交叉编译环境（7）

apt-get（1）

linux内存分析（7）

进程（13）
系统移植（118）

Makefile（0）

内存管理（1）

文件系统（12）

Linux 0.12（8）

Busybox（2）

Android移植（11）

linux内核移植（14）

uboot移植（34）
linux驱动（88）

基础总结（5）

platform（1）

总线设备驱动（2）

中断（3）

网络驱动（2）

字符驱动（22）

块驱动（4）
数据库(sqlite)（6）
编解码（14）

YUV（1）

FrameBuffer（1）
shell（39）

if（1）

grep/pgrep（1）

awk（2）

touch（1）

sed（0）

tee（0）
Qt（89）

QML（1）

Qt应用（2）

Qt调用数据库（2）

信号与槽（2）

组件设计QWidget（0）

进线程（1）

QT4.8版本移植（5）
ARM（29）

A20（5）

platform（1）

LED（2）

I2C（2）

DDR（0）

ARM处理器（1）

rk3188（2）

移植（0）

SPI（4）

Nand/eMMc（1）
未分配的博文（9）

文章存档

2019年（1）

2017年（12）

2016年（99）

2015年（207）

2014年（372）

我的朋友

相关博文

Hadoop五分钟入门指南

分类： HADOOP

2014-11-28 13:02:38

原文地址：Hadoop五分钟入门指南作者：jieforest

《Hadoop五分钟入门指南》

原文见：http://blog.josedacruz.com/2013/12/09/hadoop-in-5-minutes-for-beginners/#.Uqhs3_Q6Cjt
如果你有大量的数据（TB级），而且这些数据到处分散，且有些数据是结构化的，有些数据不是。你想查询这些数据，你或许在想，“我需要力量来组织和查询这些数据”。是的，你需要Hadoop。
一、什么是Hadoop？
Apache Hadoop软件库是一个框架，它可以对大数据集使用简单的编程模型做跨集群的分布式处理。Hadoop在设计上可以从单服务器节点扩展到成千上万的服务器节点，每个节点都能提供本地计算和存储。
HDFS——分布式文件系统，MapReduce模式的实现。
HDFS是一个文件系统，分布在系统中的所有机器上，但是你只能把它视为单个的文件系统，因为它是分布式的、跨主机的。那么，我的本地文件系统是怎样的？HDFS工作于本地文件系统之上。
MapReduce是一个模式，处理大数据集（当然你也可以用于处理小数据集，因为MapReduce只是一个模式，而不是产品，它可以使用任意编程语言来实现）。Hadoop使用MapReduce模式运行数据集上的查询。（它使用任务Task、工作Job等处理你的请求，而且总是使用MapReduce模式执行任务）。
那么，现在你有了一个分布式文件系统，以及一个任务和工作的引擎以运行采用MapReduce模式实现的应用程序。是的，是这样的。
所以，我怎样查询所有的数据呢？好吧，你可以用任意语言实现应用程序，通常使用Java控制任务Task、工作Job，用Map和Reduce函数实现MapReduce模式。有许多工作要做。你还可以使用其他的大数据技术，帮助你实现这些在数据集上的查询和处理操作，这些技术通常是基于某个特定平台或编程语言的。
1）Pig
Pig是一个基于Apache Hadoop的大规模数据分析平台，它提供的SQL-LIKE语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口，使用者可以透过Python或者JavaScript编写Java，之后再重新转写。

点击(此处)折叠或打开

/* id.pig */
A = load 'passwd' using PigStorage(':'); -- load the passwd file
B = foreach A generate $0 as id; -- extract the user IDs
store B into ‘id.out’; -- write the results to a file name id.out

2）Hive
Hive是数据仓库工具，可查询和管理驻留在分布式存储上的大数据集。

点击(此处)折叠或打开

CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING);
LOAD DATA LOCAL INPATH './examples/files/kv1.txt' OVERWRITE INTO TABLE pokes;

3）Jaql
Jaql：来自IBM BigInsights的JSON语言。

点击(此处)折叠或打开

//
// Bind to variable
$log = read(hdfs(“log”));
$user = read(hdfs(“user”));
//
// Query 1: filter and transform
$log
-> filter $.from == 101
-> transform { mandatory: $.msg };
// result …
[
{
"mandatory": "Hello, world!"
}
]

二、总结
你安装Hadoop后，你就得到了一个HDFS和MapReduce引擎。要查询数据，你需要开发自己的代码，可使用像Pig、Hive、Jaql之类的语言来处理MapReduce。这些语言的查询总是会被转换成MapReduce实现，你无需担忧MapReduce的实现，这就是为什么它很快，以及为什么你处理的数据分布在上千台机器的原因。

注：本文采用意译，有些无关的口水话省略掉了。

阅读(771) | 评论(0) | 转发(0) |

上一篇： GTK+界面设计

下一篇：Ifconfig命令详细解析

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6