按类别查询搜索结果
关于关键词 的检测结果,共 194
圣剑蓝骑士 | 2014-10-07 22:59:21 | 阅读(740) | 评论(0)
1.hadoop的伪分布安装1.1 设置静态ip地址执行命令: setup 进入选network configuration 配置ip,子网掩码,默认网关,保存退出执行service network restart(重启网卡)验证:ifconfig1.2 设置主机名 执行命令:(1)hostname centos (仅对当前会话有效,重启则失效)     &nbs...【阅读全文】
tingfengjushi | 2014-09-03 16:15:10 | 阅读(1590) | 评论(0)
前提:hbase安装完毕,可以正常启动具体操作步骤:1.进入Hbase 在bin目录下输入hbase shell计入操作目录,然后输入list查看当前有的表 查询结果,没有表那么我创建2.创建表: 输入:create 'person','personIfo','adinfo'然后list查看查询结果,我们创建的perso...【阅读全文】
humengez | 2014-09-03 11:10:43 | 阅读(1360) | 评论(0)
转自http://www.cnblogs.com/liuling/p/2013-6-17-01.html点击(此处)折叠或打开package com.hdfs;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream;import org.apac...【阅读全文】
梦醒潇湘love | 2014-08-17 11:44:20 | 阅读(0) | 评论(0)
Hadoop shell的学习    HDFS(Hadoop Distributed Filesystem)提供一个类似于Unix Shell的命令接口FSShell,用于client和HDFS进行数据交互。调用FSShell命令的方式:        其中,$HADOOP_HOME指hadoop所在的目录。所有的FS shell命令使用URI路径作为参数。 &nbs...【阅读全文】
double_lq | 2014-08-12 15:39:41 | 阅读(0) | 评论(0)
/** * 功能: * 1. 在wordcount基础上完成map和reduce端输出压缩处理,并将默认part-r-00000重命名为combineLog-r-00000的形式 * 2. 将mr输出的结果(已存到一指定的目录output)通过distcp的方式重新写到一个新的目录,并在写入新的目录前利用PathFilter过滤出满足...【阅读全文】
lorine168 | 2014-08-11 11:02:14 | 阅读(930) | 评论(0)
1、最近在做hadoop的性能测试,采用了自带的Terasort的方式,但是在运行的过程中发现如果数据量过大,对硬盘I/O需求不小(通过Ganglia监控发现),因此,打算找找看是否有合适的配置来解决这样一类的问题,所以才有了这篇记录的文档。2、在做修改之前,当然必须确认slave的多块硬盘没有做任何形式的raid。二...【阅读全文】
willick | 2014-08-07 11:38:51 | 阅读(0) | 评论(0)
Hadoop计算中的Shuffle过程作者:左坚 来源:清华万博 时间:2013-07-02 15:04:44.0  Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce,Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反...【阅读全文】
double_lq | 2014-08-05 12:41:50 | 阅读(1590) | 评论(0)
在所有公开资料中,很少有对Hadoop 中间数据的sort过程进行详细介绍的。如果想要深入了解hadoop对中间数据的排序机制,只有通过阅读源代码才能达到。而hadoop的这段代码本身具有非常大的迷惑性,如果不注意细节,很容易会发生错误的理解。 本篇文章从原理上详细介绍了hadoop针对中间数据的排序机制,并且对一些重要的源代...【阅读全文】
double_lq | 2014-07-21 13:15:59 | 阅读(0) | 评论(0)
MapReduce框架会确保每一个Reducer的输入都是按Key进行排序的。一般,将排序以及Map的输出传输到Reduce的过程称为混洗(shuffle)。每一个Map都包含一个环形的缓存,默认100M,Map首先将输出写到缓存当中。当缓存的内容达到“阈值”时(阈值默认的大小是缓存的80%),一个后台线程负责将结果写到硬盘,这个过程称为“spill”...【阅读全文】
double_lq | 2014-07-21 13:04:11 | 阅读(0) | 评论(0)
最近开始使用MapReduce,发现网上大部分例子都是对文本数据进行处理的,也就是说在读取输入数据时直接使用默认的TextInputFormat进行处理即可。对于文本数据处理,这个类还是能满足一部分应用场景。但是如果要处理以二进制形式结构化记录存储的文件时,这些类就不再适合了。本文以一个简单的应用场景为例:对按照二进制格...【阅读全文】
double_lq | 2014-07-21 10:09:05 | 阅读(0) | 评论(0)
问题描述:输入文件格式如下:name1    2name3    4name1    6name1    1name3    3name1    0要求输出的文件格式如下:name1    0,1,2,6name3    3,4要求是按照第一列分组,name1与name3也是按照顺序排列的,组内升序排...【阅读全文】
double_lq | 2014-07-20 21:18:18 | 阅读(0) | 评论(0)
键的值可以根据需要对其进行多次排序操作,例如一个键中既包含Text类型,又包含IntWritable类型,那么可以通过二次排序对键进行排序操作。例如有一部分数据,数据内容如下:需要对数据中的值求得每个键对应的最小值。实现的完整代码如下: package yuu;import java.io.DataInput;...【阅读全文】
double_lq | 2014-07-20 19:22:39 | 阅读(0) | 评论(0)
对大部分的默认数据类型来说,只要提供了相应的分片规则即可以对数据结果进行输出,并根据默认的数据规则进行排序。但有时在工作或者程序设计时要采用不同的排序规则。为了解决不同的排序规则能够根据需要运用在不同的设计程序中,MapReduce提供了一个对应的方法,即setSortComparatorClass,可以使用这种方法对输出据键...【阅读全文】
double_lq | 2014-07-19 11:04:59 | 阅读(0) | 评论(0)
基于 hive 的日志数据统计实战一、           hive 简介        hive 是一个基于 hadoop 的开源数据仓库工具,用于存储和处理海量结构化数据。    它把海量数据...【阅读全文】
double_lq | 2014-07-16 16:23:48 | 阅读(0) | 评论(0)
1.前言刚接触mapreduce的人肯定为碰到这样的问题,就是我们在程序中如下类似的命令[cpp] view plaincopySystem.out.println(year+"   "+airTemperature);//无效,控制台没有输出。  但是console控制台不给我们输出相应的结果,这对...【阅读全文】
double_lq | 2014-07-16 16:14:12 | 阅读(2700) | 评论(0)
目前为止知道MapReduce有三种路径输入方式。1、第一种是通过一下方式输入:FileInputFormat.addInputPath(job, new Path(args[2]));MultipleInputs.addInputPath(job, new Path(args[0]), TextInputFormat.class,EmpMapper.class);【阅读全文】
niao5929 | 2014-07-16 11:25:21 | 阅读(510) | 评论(0)
今天部署好了eclipse在hadoop中的开发环境,在ide环境下可以浏览到hadoop上的目录和文件,但是无法创建目录和上传文件,解决办法是在hdfs-site.xml中添加红色部分的参数.[hadoop1@node1 conf]$ more hdfs-site.xml<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Pu...【阅读全文】
hxl | 2014-07-15 21:15:13 | 阅读(0) | 评论(0)
1.1  eclipse中指定本地hadoop的目录添加了hadoop插件后,重启启动eclipse,找到Windows->preferences,指定本地的hadoop安装路径环境:eclpise: Eclipse Java EE IDE for Web DevelopersHadoop: 1.2.1 1.1  添加hadoop eclipse插件下载hadoop-eclipse-plugin-1.0.0插件,然后将该插件拷贝到e...【阅读全文】
ichenxiaohu | 2014-07-15 18:21:22 | 阅读(740) | 评论(0)
一个经典的MapReduce模板代码,倒排索引(ReverseIndex) 【阅读全文】
hxl | 2014-07-15 14:50:40 | 阅读(9860) | 评论(0)
今天部署好了eclipse在hadoop中的开发环境,在ide环境下可以浏览到hadoop上的目录和文件,但是无法创建目录和上传文件,解决办法是在hdfs-site.xml中添加红色部分的参数.[hadoop1@node1 conf]$ more hdfs-site.xml【阅读全文】