搜索博文结果_ChinaUnix博客

shkstart | 2022-01-19 13:56:38 | 阅读(2210) | 评论(0)

HDFS 块大小为什么默认是 128MBHDFS 存储的数据集一般比较大，数据量级一般是 TB 级别或者 PB 级别的。如果像 Linux 系统那样每个块只有 4KB。那么 HDFS 将会存储非常多的数据块，这将导致元数据暴增，NameNode 管理维护这些元数据将非常吃力。且很快会成为集群性能的瓶颈。另一方面，数据块的大小不能太大，不然文...【阅读全文】

【大数据】 Hadoop简介！

开发者学习指南 | 2019-07-11 16:50:49 | 阅读(3720) | 评论(0)

Hadoop是什么?随着数据量的急剧增加，遇到的两个最直接的问题就是数据存储和计算(分析/利用)。Hadoop是由Apache基金会所开发的一个用Java实现的分布式基础框架，也可以看做是一个支持开发、运行由通用计算设备组成的大型集群上的分布式应用的平台。Hadoop中的两个最重要的组件—HDFS和MapReduce就是用来解决海量...【阅读全文】

【大数据】 hadoop 部署在k8s

cspyb_cu | 2019-05-28 15:21:34 | 阅读(5880) | 评论(0)

hadoop kubernet k8s【阅读全文】

【大数据】大数据Storm相比于Spark、Hadoop有哪些优势(摘录)

大数据开发学习 | 2019-05-03 15:28:49 | 阅读(4610) | 评论(0)

可能很多初学大数据的伙伴不知道strom是什么，先给大家介绍一下strom：分布式实时计算系统，storm对于实时计算的意义类似于hadoop对于批处理的意义。【阅读全文】

【大数据】 hive，hadoop，yarn相关总结

jelon521 | 2019-03-12 20:31:49 | 阅读(10910) | 评论(0)

Hadoop参数调优 1. 设置合理的槽位数目在Hadoop中，计算资源是用槽位（slot）表示的。slot分为两种：Map slot和Reduce slot。 2. 调整心跳间隔心跳中包含节点资源使用情况、各任务运行状态等信息，如果太小，NameNode需要处理高并发的心跳信息，势必造成不小的压力；如果太大，则空闲的资源不能及时通知NameNod...【阅读全文】

【大数据】克隆机安装hadoop

码农528 | 2018-11-18 23:05:37 | 阅读(0) | 评论(0)

1. 修改ip地址 eth0 vi /etc/sysconfig/network-scripts/ifcfg-eth02. 删除克隆之后的mac地址 rm -rf /etc/udev/rules.d/70-persistent-net.rules 3. 修改主机名域名解析 vi /etc/sysconfig/network HOSTNAME=hadoop.baizhiedu.com vi /etc/hosts4. scp &...【阅读全文】

【大数据】大数据技术并非只有Hadoop

canway01 | 2018-08-16 16:46:17 | 阅读(4280) | 评论(0)

1.Apache Flink这是一种由社区驱动的分布式大数据分析开源框架，类似于Apache Hadoop和Apache Spark。它的引擎可借助数据流和内存中(in-memory)处理与迭代操作改善性能。目前Apache Flink已成为一个顶级项目(Top Level Project,TLP)，于2014年4月被纳入Apache孵化器，目前在全球范围内有很多贡献者。F...【阅读全文】

【大数据】 hadoop集群安装

zpf1218 | 2018-07-17 18:02:13 | 阅读(4350) | 评论(0)

创建用户 1. 创建hadoop用户组sudo groupadd hadoop2. 创建hadoop用户 sudo useradd -g hadoop hadoop3. 给hadoop用户添加权限，打开/etc/sudoers文件 Vi /etc/sudoers按回车键后就会打开/etc/sudoers文件了，给hadoop用户赋予root用户同样的权限在root ALL=(ALL:...【阅读全文】

【大数据】大数据入门之Hadoop基础学习

浅色年华 | 2018-07-11 15:33:20 | 阅读(3880) | 评论(0)

目前人工智能和大数据火热，使用的场景也越来越广，日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些学习理解大数据的本质基础知识学习路线数据采集引擎 -> Sqoop、Flume ZooKeeper：实现Hadoop的HA Oozie：工作流引擎第一阶段：Scal...【阅读全文】

【大数据】大数据学习~Hadoop初识三Yarn模式

浅色年华 | 2018-06-29 15:34:04 | 阅读(3950) | 评论(0)

2.0以前的Hadoop在JobTracker 过多的TaskScheduler 集中过来，容易造成内存,cpu不够用的情况。增加了任务执行失败的风险。在2.0的YARN新的YARN模式如下从图中我们可以看到原先的JobTracker 被拆分成资源管理和任务调度监控。我们来看下如今的架构原文链接...【阅读全文】

【大数据】 Hadoop伪分布式安装及HDFS命令行操作

nuoyazhou110 | 2018-05-22 16:59:28 | 阅读(4220) | 评论(0)

1.下载地址http://hadoop.apache.org/releases.html2.Hadoop的安装分为单机方式、伪分布式方式和完全分布式方式。单机模式是Hadoop的默认模式。解压即可使用单机模式。单机模式不启动任何守护进程 &nb...【阅读全文】

【大数据】 Hadoop框架包括有几部分？大数据开发

zhufenjun2017 | 2018-05-18 15:35:36 | 阅读(4380) | 评论(0)

　　Hadoop是一个用Java编写的Apache开源框架，允许使用简单的编程模型跨计算机集群分布式处理大型数据集。Hadoop框架工作的应用程序在跨计算机集群提供分布式存储和计算的环境中工作。Hadoop旨在从单个服务器扩展到数千个机器，每个都提供本地计算和存储。　　Hadoop框架包括以下四个模块：　　Hadoop Common: ...【阅读全文】

【大数据】 docker hbase hadoop

u11 | 2018-01-30 12:26:24 | 阅读(2030) | 评论(0)

中国移动的hbase版本hadoop 版本1.0hbase 版本2.6【阅读全文】

【大数据】 ZooKeeper 原理及其在 Hadoop 和 HBase 中的应用

laoliulaoliu | 2017-12-19 16:58:17 | 阅读(5580) | 评论(0)

http://blog.jobbole.com/110388/原文：www.linbingdong.comZooKeeper是一个开源的分布式协调服务，由雅虎创建，是Google Chubby的开源实现。分布式应用程序可以基于ZooKeeper实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、分布式锁和分布式队列等功能。简介Zoo...【阅读全文】

【大数据】 hadoop-3.0.0-beta1运维手册（011）：HDFS Erasure Coding纠删码使用

wenaideyu | 2017-12-06 20:02:45 | 阅读(1950) | 评论(0)