按类别查询搜索结果
关于关键词 的检测结果,共 1136
敏敏张77 | 2024-12-05 16:42:26 | 阅读(30) | 评论(0)
使用Hadoop MapReduce进行大规模数据爬取【阅读全文】
budeliao | 2024-10-24 11:30:17 | 阅读(60) | 评论(0)
PART 1 从Hadoop运行原理透视数据保护需求1、Hadoop的定义与范畴Hadoop,狭义而言,是一个专为大数据设计的分布式存储与计算平台,其核心组件包括HDFS(Hadoop分布式文件系统)、MapReduce(分布式计算框架)以及YARN(资源管理与调度系统)。而广义上的Hadoop,则是指围绕这一基础平台构建起来的庞大生态系...【阅读全文】
shkstart | 2022-01-19 13:56:38 | 阅读(4470) | 评论(0)
HDFS 块大小为什么默认是 128MBHDFS 存储的数据集一般比较大,数据量级一般是 TB 级别或者 PB 级别的。如果像 Linux 系统那样每个块只有 4KB。那么 HDFS 将会存储非常多的数据块,这将导致元数据暴增,NameNode 管理维护这些元数据将非常吃力。且很快会成为集群性能的瓶颈。另一方面,数据块的大小不能太大,不然文...【阅读全文】
专注的阿熊 | 2021-05-27 17:32:29 | 阅读(16950) | 评论(0)
 @Override    public Object invoke(Object proxy, Method method, Object[] args)            throws ServiceException {        long startTime = 0;        if (LOG.isDebugEnabled()) {         ...【阅读全文】
【大数据】 Hadoop简介!
开发者学习指南 | 2019-07-11 16:50:49 | 阅读(5980) | 评论(0)
Hadoop是什么?随着数据量的急剧增加,遇到的两个最直接的问题就是数据存储和计算(分析/利用)。Hadoop是由Apache基金会所开发的一个用Java实现的分布式基础框架,也可以看做是一个支持开发、运行由通用计算设备组成的大型集群上的分布式应用的平台。Hadoop中的两个最重要的组件—HDFS和MapReduce就是用来解决海量...【阅读全文】
【大数据】 hadoop 部署在k8s
cspyb_cu | 2019-05-28 15:21:34 | 阅读(8300) | 评论(0)
hadoop kubernet k8s【阅读全文】
大数据开发学习 | 2019-05-03 15:28:49 | 阅读(6950) | 评论(0)
可能很多初学大数据的伙伴不知道strom是什么,先给大家介绍一下strom:分布式实时计算系统,storm对于实时计算的意义类似于hadoop对于批处理的意义。【阅读全文】
jelon521 | 2019-03-12 20:31:49 | 阅读(13290) | 评论(0)
Hadoop参数调优 1. 设置合理的槽位数目 在Hadoop中,计算资源是用槽位(slot)表示的。slot分为两种:Map slot和Reduce slot。 2. 调整心跳间隔  心跳中包含节点资源使用情况、各任务运行状态等信息,如果太小,NameNode需要处理高并发的心跳信息,势必造成不小的压力;如果太大,则空闲的资源不能及时通知NameNod...【阅读全文】
speckle | 2018-11-18 23:09:45 | 阅读(7750) | 评论(0)
Hadoop Delegation Token【阅读全文】
【大数据】 克隆机安装hadoop
码农528 | 2018-11-18 23:05:37 | 阅读(0) | 评论(0)
1. 修改ip地址  eth0 vi /etc/sysconfig/network-scripts/ifcfg-eth02. 删除克隆之后的mac地址    rm -rf /etc/udev/rules.d/70-persistent-net.rules  3. 修改主机名 域名解析 vi /etc/sysconfig/network    HOSTNAME=hadoop.baizhiedu.com vi /etc/hosts4. scp  &...【阅读全文】
youlan878 | 2018-11-14 19:29:09 | 阅读(6520) | 评论(0)
一直以来,Hadoop集群服务器都是一个非常稳定的平台,因此企业愿意选择搭建并使用。但是,自9月下旬以来,被攻击的服务器已经从最初的每天几台发展到70多台,DemonBot(新型的恶意软件)可以主动在网上搜索易受攻击的Hadoop集群服务器并对其发起进攻。一家名为Radware的网络安全公司跟踪DemonBot发现,其每天可以发起超...【阅读全文】
【HADOOP】 初次尝试hadoop
StolennnXB | 2018-10-22 21:04:03 | 阅读(7510) | 评论(0)
跟着官方文档走了一遍Hadoop环境的搭建【阅读全文】
canway01 | 2018-08-16 16:46:17 | 阅读(6520) | 评论(0)
 1.Apache Flink这是一种由社区驱动的分布式大数据分析开源框架,类似于Apache Hadoop和Apache Spark。它的引擎可借助数据流和内存中(in-memory)处理与迭代操作改善性能。目前Apache Flink已成为一个顶级项目(Top Level Project,TLP),于2014年4月被纳入Apache孵化器,目前在全球范围内有很多贡献者。F...【阅读全文】
yepyang | 2018-08-07 22:35:03 | 阅读(0) | 评论(0)
参考文档:【阅读全文】
豆浆_tony | 2018-07-21 20:04:39 | 阅读(7830) | 评论(0)
本博文收集和整理了在日常维护hadoop集群时运维工程师需要掌握的最基本的hadoop管理与维护的相关命令,在此分享出来供大家参考学习~博主也是刚刚接触hadoop不久,如有问题欢迎批评指正~非常感谢【阅读全文】
【大数据】 hadoop集群安装
zpf1218 | 2018-07-17 18:02:13 | 阅读(6630) | 评论(0)
创建用户 1. 创建hadoop用户组sudo  groupadd hadoop2. 创建hadoop用户 sudo useradd -g hadoop hadoop3. 给hadoop用户添加权限,打开/etc/sudoers文件 Vi /etc/sudoers按回车键后就会打开/etc/sudoers文件了,给hadoop用户赋予root用户同样的权限在root  ALL=(ALL:...【阅读全文】
浅色年华 | 2018-07-11 15:33:20 | 阅读(6120) | 评论(0)
目前人工智能和大数据火热,使用的场景也越来越广,日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些学习理解大数据的本质基础知识学习路线 数据采集引擎 -> Sqoop、Flume ZooKeeper:实现Hadoop的HA Oozie:工作流引擎 第一阶段:Scal...【阅读全文】
浅色年华 | 2018-07-09 15:03:23 | 阅读(6090) | 评论(0)
为了学习HBase,跑过来先把Hadoop学习下。主要是根据马老师之前直播的教程来学习的。好了,废话不多说了,开搞。相比VMware,Vritual Box是免费的,因此这里采用Virtual Box。首先在virtualbox官网的下载页面下载Virtual Box,并安装。安装过程没什么好说的。在CentOS官网下载最新版的CentOS 7,下载的时候要DVD ...【阅读全文】
浅色年华 | 2018-06-29 15:34:04 | 阅读(6170) | 评论(0)
2.0以前的Hadoop在JobTracker 过多的TaskScheduler 集中过来,容易造成内存,cpu不够用的情况。增加了任务执行失败的风险。在2.0的YARN新的YARN模式如下从图中我们可以看到 原先的JobTracker 被拆分成 资源管理和任务调度监控。我们来看下如今的架构原文链接...【阅读全文】
nuoyazhou110 | 2018-05-22 16:59:28 | 阅读(6480) | 评论(0)
1.下载地址http://hadoop.apache.org/releases.html2.Hadoop的安装分为单机方式、伪分布式方式 和 完全分布式方式。        单机模式是Hadoop的默认模式。解压即可使用单机模式。            单机模式不启动任何守护进程   &nb...【阅读全文】