搜索博文结果_ChinaUnix博客

博客首页博客专家往日推荐博客文集

热搜： Android iOS H3C PHP AIX 信息负载均衡 FTP

博客首页〉搜索结果

按类别查询搜索结果

操作系统程序设计数据库热点技术综合架构与运维移动开发与应用 Web前端

虚拟化| 云计算| 大数据| HADOOP| 高性能计算|

关于关键词的检测结果，共 184 条

【HADOOP】 hbase返回上一个版本的值

hxl | 2014-11-20 14:01:54 | 阅读(0) | 评论(0)

点击(此处)折叠或打开package com.hxl;import com.hxl.ConnectDB;import com.hxl.SortTest;import java.io.BufferedReader;import java.io.File;import java.io.Fil...【阅读全文】

【HADOOP】 hive创建分区表

hxl | 2014-11-14 18:28:17 | 阅读(0) | 评论(0)

1.创建分区表:create table tb_sso_login_data_day_inner(usernumber string,ordertype string,logintype string,clientid string,clientidext &nbs...【阅读全文】

【HADOOP】 Linux环境CentOS6.5下hadoop2.2.0伪分布环境安装配置及wordcount例子执行步骤

oLHHo | 2014-10-30 21:02:20 | 阅读(2340) | 评论(0)

第一步. 创建hadoop用户创建hadoop用户名与用户组运行命令su - root，注意，不是命令su root，后者不能携带root用户的参数信息，是不能执行创建用户组和用户命令的。创建组命令：groupaddhadoop 创建用户命令：useradd-g hadoop hadoop设置用户密码：passwdhadoop注意不能在/home目录下...【阅读全文】

【HADOOP】 Hadoop 伪分布式下更换默认hadoop.tmp.dir路径

圣剑蓝骑士 | 2014-10-16 22:23:37 | 阅读(2870) | 评论(0)

hadoop.tmp.dir是hadoop文件系统依赖的基础配置，很多路径都依赖它。它默认的位置是在/tmp/{$user}下面，但是在/tmp路径下的存储是不安全的，因为linux一次重启，文件就可能被删除。先说说,场景,在开发环境中,...【阅读全文】

【HADOOP】 hadoop1.1.2的伪分布安装

圣剑蓝骑士 | 2014-10-07 22:59:21 | 阅读(730) | 评论(0)

1.hadoop的伪分布安装1.1 设置静态ip地址执行命令: setup 进入选network configuration 配置ip，子网掩码，默认网关，保存退出执行service network restart（重启网卡）验证:ifconfig1.2 设置主机名执行命令:(1)hostname centos （仅对当前会话有效，重启则失效） &nbs...【阅读全文】

【HADOOP】 PIG简单使用，小例子

tingfengjushi | 2014-09-03 16:06:24 | 阅读(1450) | 评论(0)

pig是一个框架，用来利用hadoop进行计算的框架，有自己的一套语法，可以非常方便的书写计算代码。简单使用过程：1.解压pig包,然后重新命名文件名2.进入配置文件conf/pig.properties的配置文件里面添加两行 fs.default.name=hdfs://had...【阅读全文】

【HADOOP】 zookeeper简介和分布式安装

tingfengjushi | 2014-09-03 15:49:31 | 阅读(1170) | 评论(0)

zookeeper简介和分布式安装 2014-01-13 22:00:14| 分类： Hadoop | 标签：hadoop zookeeper |举报|字号订阅1.简介 Zookeeper 是 Google 的 Chubby一个开源的实现，是 ...【阅读全文】

【HADOOP】基于WordCount的一个比较综合的代码

double_lq | 2014-08-12 15:39:41 | 阅读(0) | 评论(0)

/** * 功能： * 1. 在wordcount基础上完成map和reduce端输出压缩处理，并将默认part-r-00000重命名为combineLog-r-00000的形式 * 2. 将mr输出的结果(已存到一指定的目录output)通过distcp的方式重新写到一个新的目录,并在写入新的目录前利用PathFilter过滤出满足...【阅读全文】

【HADOOP】 Hadoop框架排序和分组的理解

double_lq | 2014-07-21 13:15:59 | 阅读(0) | 评论(0)

MapReduce框架会确保每一个Reducer的输入都是按Key进行排序的。一般，将排序以及Map的输出传输到Reduce的过程称为混洗（shuffle)。每一个Map都包含一个环形的缓存，默认100M，Map首先将输出写到缓存当中。当缓存的内容达到“阈值”时（阈值默认的大小是缓存的80%），一个后台线程负责将结果写到硬盘，这个过程称为“spill”...【阅读全文】

【HADOOP】 MapReduce的自制Writable分组输出及组内排序

double_lq | 2014-07-21 10:09:05 | 阅读(0) | 评论(0)

问题描述：输入文件格式如下：name1 2name3 4name1 6name1 1name3 3name1 0要求输出的文件格式如下：name1 0，1，2，6name3 3，4要求是按照第一列分组，name1与name3也是按照顺序排列的，组内升序排...【阅读全文】

【HADOOP】使用二次排序自动查找最小值

double_lq | 2014-07-20 21:18:18 | 阅读(0) | 评论(0)

键的值可以根据需要对其进行多次排序操作，例如一个键中既包含Text类型，又包含IntWritable类型，那么可以通过二次排序对键进行排序操作。例如有一部分数据，数据内容如下：需要对数据中的值求得每个键对应的最小值。实现的完整代码如下： package yuu;import java.io.DataInput;...【阅读全文】

【HADOOP】 setGroupingComparatorClass自定义输出分组

double_lq | 2014-07-20 20:05:31 | 阅读(0) | 评论(0)

在我们日常写的程序中，每个值都可以找到对应的键去存放。但是有时候需要对键值对的存放规则做出修改，例如最简单的是一个合并键值对。如果需要将对应于”aaa“”bbb“的存放为”bbb“，而对应于”ccc“”ddd“的存放为”ddd“，则需要使用自定义的分组方法。MapReduce中提供了相应的方法，即setGroupingComparatorClass.这...【阅读全文】

【HADOOP】一个经典的MapReduce模板代码,倒排索引(ReverseIndex)

ichenxiaohu | 2014-07-15 18:21:22 | 阅读(730) | 评论(0)

一个经典的MapReduce模板代码,倒排索引(ReverseIndex) 【阅读全文】

【HADOOP】一个经典的MapReduce模板代码,倒排索引(ReverseIndex)

tingfengjushi | 2014-07-12 19:55:51 | 阅读(3430) | 评论(0)

一个经典的MapReduce模板代码,倒排索引(ReverseIndex) 【阅读全文】

【HADOOP】 terasort与map reduce的性能分析

shenyanxxxy | 2014-07-11 10:42:56 | 阅读(3810) | 评论(0)

bin/hadoop jar hadoop-examples-1.1.2.jar teragen 80000000 terasort/1-input对teragen产生的数据进行排序，方法如下所示：bin/hadoop jar hadoop-examples-1.1.2.jar terasort terasort/1-input terasort/1G-output1一个reduce任务在一台机器上运行。hadoop默认只开启一个reduce任务，运行完整个任务，时间在14min左...【阅读全文】

【HADOOP】 Hadoop集群完全分布式模式环境部署

shengyue1990 | 2014-07-01 11:26:57 | 阅读(1140) | 评论(0)

Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统（HDFS，Hadoop Distributed Filesystem）和MapReduce（Google MapReduce的开源实现）为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。对于Hadoop的集群来讲，...【阅读全文】

【HADOOP】 HBase的伪分布式部署

double_lq | 2014-05-21 15:40:16 | 阅读(0) | 评论(0)

HBase 全称Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。本篇要介绍下怎么部署安装Hbase的伪分布式模式，在安装hbase前，首先得保证你的hadoop环境已经安装好，并且可以正常使用，因为hbase底层存储使用的是HDFS，所以...【阅读全文】

【HADOOP】 Hadoop-2.4.0分布式安装手册

niao5929 | 2014-05-15 15:59:11 | 阅读(1600) | 评论(0)

Hadoop-2.4.0分布式安装手册.pdf目录目录11. 前言22. 部署22.1. 机器列表22.2. 主机名22.2.1. 临时修改主机名32.2.2. 永久修改主机名32.3. 免密码登录范围43. 约定43.1. 安装目录约定43.2. 服务端口约定5...【阅读全文】

【HADOOP】 Spark 0.9.1和Shark 0.9.1分布式安装指南

niao5929 | 2014-05-15 15:58:21 | 阅读(830) | 评论(0)

Spark 0.9.1和Shark 0.9.1分布式安装指南.pdf目录目录11. 约定12. 安装Scala 12.1. 下载22.2. 安装22.3. 设置环境变量23. 安装Spark 23.1. 部署23.2. 下载33.3. 安装33.4. 配置33.4.1. 修改conf/s...【阅读全文】

【HADOOP】集群管理小工具介绍-pdsh -------转载

dsy851009 | 2014-05-10 21:49:19 | 阅读(2260) | 评论(0)

当管理数以十计或者更多的系统时，常常需要在多台机器上执行相同的命令。pdsh即可实现。首先必须在管理节点和每台目标机器上都安装pdsh软件包。pdsh可以在指定的一组机器上执行同一个命令。例如需要管理下列机器，机器名分别为srv1,srv2,srv3,srv4,srv5。命令格式如下:pdsh -w [SSH_OR_RSH]:USERNAME@srv[1,2-4,5] [COM...【阅读全文】

首页
<<
1
2
3
4
5
6
7
8
9
10
>>
末页

网络110 报警服务