按类别查询搜索结果
关于关键词 的检测结果,共 184
hxl | 2014-11-20 14:01:54 | 阅读(0) | 评论(0)
点击(此处)折叠或打开package com.hxl;import com.hxl.ConnectDB;import com.hxl.SortTest;import java.io.BufferedReader;import java.io.File;import java.io.Fil...【阅读全文】
【HADOOP】 hive创建区表
hxl | 2014-11-14 18:28:17 | 阅读(0) | 评论(0)
1.创建分区表:create table tb_sso_login_data_day_inner(usernumber        string,ordertype          string,logintype          string,clientid          string,clientidext       &nbs...【阅读全文】
oLHHo | 2014-10-30 21:02:20 | 阅读(2340) | 评论(0)
第一步. 创建hadoop用户创建hadoop用户名与用户组运行命令su - root,注意,不是命令su root,后者不能携带root用户的参数信息,是不能执行创建用户组和用户命令的。创建组命令:groupaddhadoop 创建用户命令:useradd-g hadoop hadoop设置用户密码:passwdhadoop注意不能在/home目录下...【阅读全文】
圣剑蓝骑士 | 2014-10-16 22:23:37 | 阅读(2870) | 评论(0)
       hadoop.tmp.dir是hadoop文件系统依赖的基础配置,很多路径都依赖它。它默认的位置是在/tmp/{$user}下面,但是在/tmp路径下的存储是不安全的,因为linux一次重启,文件就可能被删除。           先说说,场景,在开发环境中,...【阅读全文】
圣剑蓝骑士 | 2014-10-07 22:59:21 | 阅读(730) | 评论(0)
1.hadoop的伪分布安装1.1 设置静态ip地址执行命令: setup 进入选network configuration 配置ip,子网掩码,默认网关,保存退出执行service network restart(重启网卡)验证:ifconfig1.2 设置主机名 执行命令:(1)hostname centos (仅对当前会话有效,重启则失效)     &nbs...【阅读全文】
tingfengjushi | 2014-09-03 16:06:24 | 阅读(1450) | 评论(0)
pig是一个框架,用来利用hadoop进行计算的框架,有自己的一套语法,可以非常方便的书写计算代码。简单使用过程:1.解压pig包,然后重新命名文件名2.进入配置文件conf/pig.properties的配置文件里面添加两行       fs.default.name=hdfs://had...【阅读全文】
tingfengjushi | 2014-09-03 15:49:31 | 阅读(1170) | 评论(0)
zookeeper简介和分布式安装  2014-01-13 22:00:14|  分类: Hadoop |  标签:hadoop  zookeeper  |举报|字号 订阅1.简介        Zookeeper 是 Google 的 Chubby一个开源的实现,是 ...【阅读全文】
double_lq | 2014-08-12 15:39:41 | 阅读(0) | 评论(0)
/** * 功能: * 1. 在wordcount基础上完成map和reduce端输出压缩处理,并将默认part-r-00000重命名为combineLog-r-00000的形式 * 2. 将mr输出的结果(已存到一指定的目录output)通过distcp的方式重新写到一个新的目录,并在写入新的目录前利用PathFilter过滤出满足...【阅读全文】
double_lq | 2014-07-21 13:15:59 | 阅读(0) | 评论(0)
MapReduce框架会确保每一个Reducer的输入都是按Key进行排序的。一般,将排序以及Map的输出传输到Reduce的过程称为混洗(shuffle)。每一个Map都包含一个环形的缓存,默认100M,Map首先将输出写到缓存当中。当缓存的内容达到“阈值”时(阈值默认的大小是缓存的80%),一个后台线程负责将结果写到硬盘,这个过程称为“spill”...【阅读全文】
double_lq | 2014-07-21 10:09:05 | 阅读(0) | 评论(0)
问题描述:输入文件格式如下:name1    2name3    4name1    6name1    1name3    3name1    0要求输出的文件格式如下:name1    0,1,2,6name3    3,4要求是按照第一列分组,name1与name3也是按照顺序排列的,组内升序排...【阅读全文】
double_lq | 2014-07-20 21:18:18 | 阅读(0) | 评论(0)
键的值可以根据需要对其进行多次排序操作,例如一个键中既包含Text类型,又包含IntWritable类型,那么可以通过二次排序对键进行排序操作。例如有一部分数据,数据内容如下:需要对数据中的值求得每个键对应的最小值。实现的完整代码如下: package yuu;import java.io.DataInput;...【阅读全文】
double_lq | 2014-07-20 20:05:31 | 阅读(0) | 评论(0)
在我们日常写的程序中,每个值都可以找到对应的键去存放。但是有时候需要对键值对的存放规则做出修改,例如最简单的是一个合并键值对。如果需要将对应于”aaa“”bbb“的存放为”bbb“,而对应于”ccc“”ddd“的存放为”ddd“,则需要使用自定义的分组方法。MapReduce中提供了相应的方法,即setGroupingComparatorClass.这...【阅读全文】
ichenxiaohu | 2014-07-15 18:21:22 | 阅读(730) | 评论(0)
一个经典的MapReduce模板代码,倒排索引(ReverseIndex) 【阅读全文】
tingfengjushi | 2014-07-12 19:55:51 | 阅读(3430) | 评论(0)
一个经典的MapReduce模板代码,倒排索引(ReverseIndex) 【阅读全文】
shenyanxxxy | 2014-07-11 10:42:56 | 阅读(3810) | 评论(0)
bin/hadoop jar hadoop-examples-1.1.2.jar teragen 80000000 terasort/1-input对teragen产生的数据进行排序,方法如下所示:bin/hadoop jar hadoop-examples-1.1.2.jar terasort terasort/1-input terasort/1G-output1一个reduce任务在一台机器上运行。hadoop默认只开启一个reduce任务,运行完整个任务,时间在14min左...【阅读全文】
shengyue1990 | 2014-07-01 11:26:57 | 阅读(1140) | 评论(0)
Hadoop简介        Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。对于Hadoop的集群来讲,...【阅读全文】
double_lq | 2014-05-21 15:40:16 | 阅读(0) | 评论(0)
HBase 全称Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 本篇要介绍下怎么部署安装Hbase的伪分布式模式,在安装hbase前,首先得保证你的hadoop环境已经安装好,并且可以正常使用,因为hbase底层存储使用的是HDFS,所以...【阅读全文】
niao5929 | 2014-05-15 15:59:11 | 阅读(1600) | 评论(0)
Hadoop-2.4.0分布式安装手册.pdf目录目录11. 前言22. 部署22.1. 机器列表22.2. 主机名22.2.1. 临时修改主机名32.2.2. 永久修改主机名32.3. 免密码登录范围43. 约定43.1. 安装目录约定43.2. 服务端口约定5...【阅读全文】
niao5929 | 2014-05-15 15:58:21 | 阅读(830) | 评论(0)
Spark 0.9.1和Shark 0.9.1分布式安装指南.pdf目录目录11. 约定12. 安装Scala 12.1. 下载22.2. 安装22.3. 设置环境变量23. 安装Spark 23.1. 部署23.2. 下载33.3. 安装33.4. 配置33.4.1. 修改conf/s...【阅读全文】
dsy851009 | 2014-05-10 21:49:19 | 阅读(2260) | 评论(0)
当管理数以十计或者更多的系统时,常常需要在多台机器上执行相同的命令。pdsh即可实现。首先必须在管理节点和每台目标机器上都安装pdsh软件包。pdsh可以在指定的一组机器上执行同一个命令。例如需要管理下列机器,机器名分别为srv1,srv2,srv3,srv4,srv5。命令格式如下:pdsh -w [SSH_OR_RSH]:USERNAME@srv[1,2-4,5] [COM...【阅读全文】